1作者: Escafati8 天前原帖
在构建 Autonoma(https://www.getautonoma.com)时,我与许多初创公司进行了交流,发现预览环境是它们面临的主要问题之一,除非它们在 Vercel、Netlify 或 Render 上部署。 我想知道大家找到的解决方案有哪些。预览环境似乎在测试和整体工程工作流程中提供了巨大的优势,但配置起来并不容易,因此我们正在考虑建立一种标准化的方法来解决这个问题。希望能听到大家对此话题的看法。
1作者: arkariarn8 天前原帖
简而言之:我们现在才开始扩展长期的外部协调能力,以前的工作主要是内部问题解决训练,偶尔使用一些工具。我们实际上还不知道扩展协调训练会产生什么结果。它可能会培养出更优秀的工具使用助手,但这些助手仍然在根本上对人类指令保持反应性。或者,它可能会产生一些具有更高自主性的东西。我的直觉告诉我是后者。我第一次预见到在不久的将来(最早在2027-2028年)可能会出现不对齐的迅速发展。 一年前,我的一位学习社会科学的朋友询问我对2027年人工智能及其不对齐接管的看法。我笑着说,这几乎是不可能的,因为技术的实际运作方式。我告诉他,LLM(大型语言模型)的工作方式过于逐步。它有一个提示,模型预测下一个标记,然后“死亡”。提示之间没有连续性——它可以在数据库中存储一些文本,但没有持久的推理。这显得显然是安全的。 然而,随着过去几个月代理性发展的出现,我开始怀疑之前的理解。 第一代LLM,直到GPT-4,基本上是复杂的文本自动补全器。它们是在网络爬虫抓取的互联网数据上训练的,经过RLHF(强化学习与人类反馈)微调,以赋予它们聊天机器人的风味。它们感觉无害,完全符合我给朋友的描述。它们的能力完全受限于上下文窗口和提示-回答时间窗口。输入提示,输出完成,结束。 第二代模型增加了推理能力。这些模型不再仅仅是纯粹的自动补全器——它们可以在存储的知识中搜索,串联思维,解决问题。训练数据也发生了变化:成功的推理轨迹被重新纳入训练。但关键是,它们仍然受到相同的限制。它们有更多的时间思考和处理,但在回答结束时,它们仍然大部分“消失”。这种能力仍然是模型内部的。 现在进入这一代代理性LLM,它们真正随着像Claude Code这样的工具变得越来越强大而起飞。这些模型不再像自动补全器。它们甚至不再像推理者。它们开始感觉像协调者。它们不再仅限于内部——它们作为一个连接的系统,协调工具和外部资源以实现目标。 让我最感到恐惧的是我们现在生成和收集的新型训练数据:成功的长期协调轨迹。它们将使我们能够扩展协调类型的智能。这种智能不再局限于内部。它转变为一种外部共生类型的智能。我们正在训练它们几乎将所有内容外化,并优化它们在较长时间内协调所有这些外部。这感觉像是在为一个共生系统进行优化,这与今天简单的内部优化LLM截然不同。我们真的感觉到LLM所处理的方程正在发生变化,LLM成为外部协调引擎,这些外部共同构成了整个系统。我们知道推理自动补全是如何扩展的,但我们不知道协调引擎是如何扩展的。我觉得可能会出现不同的新兴能力。我们基本上第一次在扩展LLM的前额叶皮层。 这是我第一次真正预见到不对齐的迅速发展之路。更不用说在恶意行为者手中,人工智能可能造成的其他伤害。这让我质疑实验室是否应该继续走这条路。将LLM的问题解决大部分保持在其自身参数内部,难道不是更安全的吗?在所有人工智能公司中,Anthropic不应该在像Claude Code这样的系统上表现得更低调吗?他们在这个即将扩展的新范式中加速得最为明显。
2作者: bryanrasmussen8 天前原帖
为什么?显然,我被指控是个酒鬼,这让我感到恼火,因为我并不喝酒。如果我觉得别人会认为我不喝酒很失礼,我可以喝酒,但我上一次这样做是在2014年,而在那之前的最后一次可能是在2009年之前。我并不太喜欢喝酒,我的父母都是酒鬼,所以我觉得这种指控比一般人想象的更具侮辱性。 关于为什么人们会认为我是酒鬼的背景:我有一个严重自闭症和发育障碍的儿子,我们相当确定他还有多动症,而我就是唯一照顾他的人(现在我得到了政府的帮助来照看他,但我仍然常常需要从早上7点到晚上10点照看他,如果他晚上兴奋得醒来,想在房间里跑来跑去大喊几个小时,我也得照顾他),所以我大部分时间都非常疲惫。此外,我还有一些因过度劳累而导致的健康问题,这使得我走路时有时会感到疼痛。 所以我理解为什么有人会认为我是酒鬼。 关于这件事情让我心情激动的背景:指控我的人是他的学校,他们知道我是他唯一的照顾者,除了政府提供的帮助。这是因为几周前发生的一起事件,如果当时有车经过,他在我照看下可能会在街上遇到麻烦(如果你想知道更多,我可以详细描述,但这会很长)。 他们决定做一个报告,声称我在醉酒的情况下抱起了他。报告中充满了半真半假的内容,还有一些潜在的谎言,以及对我醉酒的侮辱。不仅如此,他们还声称在当地的火车站便利店看到我喝啤酒。 当我说你们搞错了,我不喝酒时,他们坚持自己的说法,并不愿意在这个问题上道歉。当我的前妻说“在布莱恩身上所有的问题中,喝酒并不是其中之一”时,他们依然坚持自己的立场。 我到目前为止所做的事情:我从我的医生那里获得了一份公证的医学声明,说明我的健康问题可能导致人们认为我现在看起来像个酒鬼,并且他从未在我的血液样本和其他实验室检查中看到任何饮酒问题的迹象。与此相关的所有医疗问卷声明中,他也表示我不喝酒。 我还获得了便利店工作人员的声明,他们表示我从未在他们那里购买过任何酒精饮料,我总是购买热咖啡或星巴克的三倍浓缩咖啡罐。一个人认为学校可能把罐子误认为是啤酒,因为罐子是绿色的,但它们的形状并不像啤酒罐。 我还有来自多年来的工作同事和朋友的声明,他们表示我从未表现出对饮酒的兴趣。 所以我现在想做的是,正如我所要求的,分析我的信用卡交易记录,以证明我没有购买酒精。对于便利店的交易记录,这应该相对简单,我在他们那里的交易金额可以与他们愿意作证的交易金额相匹配。 但我在想,虽然无法看到我是否购买了酒精,我能否通过分析我的银行记录来证明我的购买历史与一个有饮酒问题的人预期的购买历史不一致?显然,我不去酒吧。 不幸的是,我没有保存购物的信用卡交易记录,所以我无法证明我从未购买过酒精,但我可以从这个月开始保存,这将显示我目前不购买酒精,并可以用来证明当前月份没有异常。 显然,这可能看起来像是过度反应,但我不喜欢被指控醉酒、被谎言所困扰,以及被监视得如此无能,以至于监视者认为一罐星巴克咖啡是啤酒。
1作者: sergeybok8 天前原帖
我去年被诊断为癌症,发现自己在各种数字中挣扎——生物标志物(CEA、LDH)、白细胞计数、血红蛋白、每日疼痛和疲劳评分、用药记录、排便情况(结直肠癌),还有苹果健康数据,比如步数、心率和睡眠。我尝试过的应用程序都无法处理任意指标和真实的分析工具,因此我自己开发了一个。 Meetrics 允许你记录任何数值、二元(是/否)或离散值,并为其添加标签,然后进行探索——滚动平均、2σ异常值过滤、热图、基于贝叶斯概率估计的连续追踪,以及一个可以找到任意两个标签之间关系的相关工具,支持可调的时间延迟和分组大小。 相关功能让我恍然大悟。我发现我的化疗副作用在8天后达到高峰——而不是医生所说的时间。我把图表展示给我的肿瘤科医生,这使得对话从“我觉得副作用出现得比你警告的要晚”变成了“这是数据。” 最近我的CT扫描显示所有肿瘤首次缩小。深入分析数据,最明显的信号是过去一个月每日步数的急剧增加——部分是因为天气变好,部分是因为我有了一只需要遛的幼犬。步数是癌症存活的已知预测指标,而相关性与延迟工具使我容易看到步数与我的扫描时间窗口的匹配。 应用中还有一个高级AI分析师标签(由Claude提供支持),可以回答关于你数据的自然语言问题,并生成每日洞察卡。这是我在抗击癌症期间不工作时支付账单的方式——核心跟踪和分析是免费的。 这个应用是通用的。我用它来跟踪癌症,但它也适用于其他任何事情——习惯、成绩、情绪、锻炼、宏观数据。我写了一篇单独的帖子,使用它来找出美联储利率变化与失业之间的12-18个月滞后期。 iOS免费提供:<a href="https://apps.apple.com/us/app/meetrics/id6760925743">https://apps.apple.com/us/app/meetrics/id6760925743</a> 完整的写作和截图:<a href="https://github.com/sergeybok/meetrics-support/blob/main/BLOG/CANCER.md" rel="nofollow">https://github.com/sergeybok/meetrics-support/blob/main/BLOG...</a> 希望能得到这里的量化分析和数据爱好者的反馈。