返回首页
最新
我一直在构建多步骤的人工智能工作流,涉及多个智能体(规划、推理、工具使用等),有时会遇到最终输出不正确的情况,尽管技术上没有任何故障。没有运行时错误——只是结果错误。
主要挑战在于找出问题出在哪里。问题可能出现在早期的推理步骤、步骤之间的上下文传递,或者是一个微妙的错误在系统中传播。等我看到最终输出时,哪个步骤导致了问题并不明显。
我一直在使用Langfuse进行追踪,这有助于捕捉输入和输出,但在实际操作中,我仍然需要逐步手动检查每个步骤以诊断问题,这很快就让人感到疲惫。
我很好奇其他人是如何处理这个问题的。有没有更好的方法来构建或工具化这些工作流,以便更容易定位故障?有没有什么模式、工具或技术对你们有效?
支持强硬移民政策的古巴裔美国选民现在正目睹家人被拘留。
Jarvish 是一个下一代 AI 集成的命令行工具,使用 Rust 编写,灵感来源于漫威《钢铁侠》中的 J.A.R.V.I.S.。它将 AI 智能原生嵌入到您的日常命令行体验中——不再需要将内容复制粘贴到浏览器中。只需询问 Jarvish。
我使用多个人工智能编码助手(Claude、Cursor、Codex),每次切换时都失去了产品的上下文。更不用说,这些助手虽然写出的代码在技术上是正确的,但有时却违反了产品的设计理念。我构建了强迫学生进行推理的人工智能辅导工具,其中一个助手甚至添加了一个“跳过推理”的按钮,真是让人无奈。LedgerSync 是一种基于文件的协议,它将助手的决策与设计理念文档相结合,并在工具之间共享上下文。无需服务器,无需账户——只需文件供你的助手读取。