1作者: terryjiang20203 个月前原帖
我一直在构建多步骤的人工智能工作流,涉及多个智能体(规划、推理、工具使用等),有时会遇到最终输出不正确的情况,尽管技术上没有任何故障。没有运行时错误——只是结果错误。 主要挑战在于找出问题出在哪里。问题可能出现在早期的推理步骤、步骤之间的上下文传递,或者是一个微妙的错误在系统中传播。等我看到最终输出时,哪个步骤导致了问题并不明显。 我一直在使用Langfuse进行追踪,这有助于捕捉输入和输出,但在实际操作中,我仍然需要逐步手动检查每个步骤以诊断问题,这很快就让人感到疲惫。 我很好奇其他人是如何处理这个问题的。有没有更好的方法来构建或工具化这些工作流,以便更容易定位故障?有没有什么模式、工具或技术对你们有效?
1作者: abu_syed3 个月前原帖
我使用多个人工智能编码助手(Claude、Cursor、Codex),每次切换时都失去了产品的上下文。更不用说,这些助手虽然写出的代码在技术上是正确的,但有时却违反了产品的设计理念。我构建了强迫学生进行推理的人工智能辅导工具,其中一个助手甚至添加了一个“跳过推理”的按钮,真是让人无奈。LedgerSync 是一种基于文件的协议,它将助手的决策与设计理念文档相结合,并在工具之间共享上下文。无需服务器,无需账户——只需文件供你的助手读取。