返回首页
最新
在观看了Anthropic最近的事后分析(anthropic.com/engineering/april-23-postmortem)后,我开始思考我对Claude Code的不同处理方式。他们降低了默认的推理努力以修复延迟,称之为错误的权衡,并在公众审查下进行了回退。虽然这些回退是好的,但并没有改变我一直忽视的基本方程。
事实上,我们现在可能有一支工程师团队可供使用。令牌成本是真实的成本,但我无法为我个人的工作雇佣自己的工程师。如果用这种视角来看待令牌使用,思路就会发生变化。它不再是关于成本上限的问题,而是变成了成本/产出/质量的视角,就像我在真实团队中考虑雇佣决策一样。
我现在关注的四个方面是:模型、配置、提示和代理。
关于模型。Opus在关键决策和架构推理方面仍然是最强的。Sonnet通常足够用于编码和简单的重复性任务。我会根据工作选择合适的模型。如果我贪图便宜,就不能指望质量。
关于配置。/effort的范围从低到高。Opus 4.7的默认值是xhigh。我会根据工作调整级别。快速编辑不需要最大值,而架构决策则需要。这是我之前一直忽视的最便宜的选择。
关于提示:我发现最有效的三种模式。
1. “如果不确定,请提问。”没有这个,我就没有给模型留出余地,这会限制解决方案,即使没有明确的答案,也需要显露权衡。
2. “时间和成本在这里不是因素。优先考虑稳健、可持续、可扩展的解决方案,不留下技术债务。”这反转了任务执行期间隐含的优化压力。
3. “反思本次会话,并通过claude.md或技能记录你所学到的,以便下一次迭代不再重复同样的错误。”值得将其作为技能记录并为自己迭代。没有这个,每次会话都从零开始,重复我已经纠正的错误。
关于代理。虽然不想详细展开,因为这本身就是一个完整的主题,但对我有效的模式是使用代理来分离关注点。一个代理负责对代码进行规范审查(代码是真实来源),另一个代理在实施后进行代码审查。
工程和产品团队一直在市场速度与成本和质量之间取得平衡。人工智能也不例外。不同之处在于我选择了哪些杠杆。故意在努力上花费预算,工作就会以我想要的水平回报。
鉴于最近有消息称某个代理删除了生产数据库,我认为现在是分享这个信息的好时机。<p>随着在生产环境中使用人工智能工具变得越来越普遍,类似上述的高调事件也将会增多。<p>Fewshell 是一个专门设计的终端代理,旨在避免这种情况的发生。<p>该工具没有启用命令自动批准的设置。这是设计使然,以确保用户不必担心或猜测是否不小心启用了该功能。<p>我最初的想法是构建一个人工智能移动终端,以简化输入 shell 命令的过程。但由于市场上有许多支持移动设备的“爪子”代理,我决定让 Fewshell 成为一个与自主代理相反的工具。<p>如果你喜欢,请给我点赞,告诉我你的想法。我很乐意回答任何问题。<p>关于我:我曾是亚马逊 Alexa AI 的高级软件开发工程师,目前在代理强化学习的人工智能安全研究领域工作。我使用这个工具来运行和检查我的实验室实验。
请运行 /login · API 错误:403 {“类型”:“错误”,“错误”:{“类型”:“权限错误”,“消息”:“账户不再是与此令牌关联的组织的成员。”}}<p>无法连接到 Claude
请检查您的连接。