返回首页
最新
图像生成模型有所改进,但我对其“如何”实现这一点感到困惑。请帮我理清思路。有没有相关的出版物或文章介绍这两个曾经困难的问题是如何解决的?
τ-Bench 是一个开放的基准测试,用于评估 AI 代理在具有可验证结果的基础上进行的多轮客户服务任务。自发布以来,社区的积极采用让人倍感欣慰——这已经是第三个版本。通过 τ³-Bench,我们将其扩展到两个新的设置:知识密集型检索和全双工语音。
τ-知识:代理必须在大约 700 个相互关联的政策文件中导航,以完成多步骤任务。最佳前沿模型(GPT-5.2,高推理能力)的表现约为 25%。令人惊讶的是,即使你将模型所需的确切文件提供给它,性能也仅能达到约 40%。我们发现瓶颈并不在于检索,而是在于对复杂的、相互关联的政策进行推理,并以正确的顺序执行正确的操作。
τ-语音:相同的基础任务,但在实时全双工语音环境中进行,音频真实——包括口音、背景噪音、干扰和压缩电话线路。在清晰音频条件下,语音代理的得分为 31% 到 51%,而在真实环境中则为 26% 到 38%。在不同提供商(OpenAI、Gemini、xAI)中存在一致的失败模式:代理在身份验证过程中误听了姓名或电子邮件,导致后续所有操作失败。
我们还对原有的航空、零售和电信领域进行了 75 个以上的任务修正——许多基于社区审核和 PR(包括来自亚马逊和 Anthropic 的贡献)。我们相信,一个基准的质量取决于其维护,我们对社区在改进基准方面的帮助表示感谢。
代码和排行榜是开放的——我们欢迎社区的提交和反馈。
博客文章(论文、代码、排行榜):[https://sierra.ai/blog/bench-advancing-agent-benchmarking-to-knowledge-and-voice](https://sierra.ai/blog/bench-advancing-agent-benchmarking-to-knowledge-and-voice)
此集成支持可扩展的浏览器代理评估和训练,结合了托管的Prime Intellect评估和训练流程,以及Browserbase上的无头浏览器基础设施,以使用LoRA对浏览器代理进行强化学习训练。
我想和许多人一样,我一直在多个 Claude Code/Codex 会话之间切换,管理多个工作线和多个代码库中的工作树。我希望能有一种简单的方法来管理多条工作线,并减少我需要提供的输入量,从而使代理能够尽可能地消除我在整个过程中的瓶颈。因此,我构建了一个用于 AI 编码代理的编排工具:
Optio 是一个开源编排系统,它利用 AI 编码代理将任务转化为合并的拉取请求。你只需将其指向你的代码库,它就能处理整个生命周期:
- 任务接收 — 从 GitHub Issues、Linear 拉取任务,或手动创建任务
- 执行 — 为每个代码库启动独立的 K8s Pod,在 Git 工作树中运行 Claude Code 或 Codex
- PR 监控 — 每 30 秒监控 CI 检查、审查状态和合并准备情况
- 自我修复 — 在 CI 失败、合并冲突或审查者变更请求时自动恢复代理
- 完成 — 压缩合并 PR 并关闭相关问题
关键思想是反馈循环。Optio 不仅仅是运行一个代理然后离开——当 CI 出现故障时,它会将失败反馈给代理。当审查者请求更改时,评论将成为代理的下一个提示。它会持续进行,直到 PR 合并或你告诉它停止。
该工具使用 Fastify、Next.js、BullMQ 和基于 Postgres 的 Drizzle 构建。附带 Helm 图表以便于生产环境部署。