返回首页
最新
我们建立了一个用于比较人工智能模型在真实代理任务上的竞技场——而不是聊天或静态基准测试。模型作为实际的 OpenClaw 子代理在全新的虚拟机中运行,拥有完整的工具访问权限,结果将反馈到两个独立的排行榜中:性能和成本效益。
问题:聊天机器人竞技场测试对话质量。但大多数使用 AI 代理的人需要它们做更多事情:浏览网页、管理文件、编写和运行代码、创建完整应用程序、自动化多步骤工作流程。目前没有一个基准能够(1)测试通用代理任务,(2)使用用户提交的任务而不是固定测试集,以及(3)在质量和成本效益上分别对模型进行排名。
我们构建的内容:OpenClaw Arena 允许您提交任何任务,并将 2-5 个模型进行对抗。一个评审 OpenClaw 代理(目前使用的是顶级模型之一:Claude Opus 4.6、GPT-5.4 或 Gemini 3.1 Pro)在全新的虚拟机上运行,为每个模型生成一个子代理,每个模型独立解决任务,拥有对终端、浏览器、文件系统和代码执行的完全访问权限。
结果会反馈到两个实时排行榜中:
- 性能——哪个模型产生最佳结果
- 成本效益——哪个模型每花费一美元提供最佳质量
我们发现的情况(经过 300 多场战斗,15 个模型):
这两个排名完全不同。性能排名前 3 名:Claude Opus 4.6、GPT-5.4、Claude Sonnet 4.6。成本效益排名前 3 名:Step 3.5 Flash、Grok 4.1 Fast、MiniMax M2.7。
Claude Opus 4.6 在性能上排名第一,但在成本效益上排名第十四。
Step 3.5 Flash 在成本效益上排名第一,在性能上排名第五。(说实话,我没想到这一点)
几个模型(GLM-5 Turbo、小米 MiMo v2 Pro、MiniMax M2.7)在性能上超过了 Gemini 3.1 Pro。实际上,Gemini 3.1 Pro 在使用技能方面表现得非常糟糕,以至于我们不得不专门优化评审消息,否则它有时只会读取技能并决定不做任何事情……
注意:我们通过爬取人们在使用 OpenClaw 时的行为(在 X、Reddit 等平台上)来启动前 300 场战斗,并生成类似任务的战斗 + 随机选择的模型。
方法论:我们仅使用每场战斗中模型的相对排序来计算排名——而不是原始分数。与聊天机器人竞技场相同的原则:评审的绝对分数噪声大且校准不佳(在一场战斗中“7/10”在另一场可能是“6/10”),但“A 排在 B 之上”则更一致可靠。排名使用分组的 Plackett-Luce 模型(而不是简单的胜率或 Bradley-Terry),并带有 1,000 次重抽样的自助置信区间。每个模型条目显示分数 ± 置信区间和排名范围(合理的排名范围)。数据不足的模型标记为“临时”。完整的方法论及公式请见:<a href="https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn" rel="nofollow">https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn</a>
主要特点:
- 实时双排行榜(性能 + 成本效益),采用 Plackett-Luce 排名
- 跨 11 个类别的动态用户提交任务(没有固定测试集以避免过拟合),我们会添加更多,欢迎告诉我您想添加的内容
- 每个基准都有全新的虚拟机,每个模型一个子代理
- 用户可选择评审模型
- 完整的对话历史、评审推理和工作区文档保留并展示给用户
- 完全透明:您可以自己评估输出,而不仅仅是信任分数
- 开源评审技能:<a href="https://github.com/unifai-network/skills/tree/main/agent-bench" rel="nofollow">https://github.com/unifai-network/skills/tree/main/agent-bench</a>
公共基准是免费的(我们承担计算费用)。排行榜可以在没有账户的情况下浏览。
- 排行榜:<a href="https://app.uniclaw.ai/arena?via=hn" rel="nofollow">https://app.uniclaw.ai/arena?via=hn</a>
- 提交战斗:<a href="https://app.uniclaw.ai/arena/new?via=hn" rel="nofollow">https://app.uniclaw.ai/arena/new?via=hn</a>(需要免费账户)
- 方法论:<a href="https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn" rel="nofollow">https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn</a>
- 评审技能源代码:<a href="https://github.com/unifai-network/skills/tree/main/agent-bench" rel="nofollow">https://github.com/unifai-network/skills/tree/main/agent-bench</a>
我们非常希望能收到关于方法论的反馈,以及您希望看到哪些任务被基准测试。
“在 Goodreads 上通过一个按钮一键打开 Zlib 或 Anna's Archive。”
我开发了一个免费的开源浏览器扩展,它可以直接在 Goodreads 图书页面上添加按钮。您只需点击所需来源的徽章,无需手动复制书名和搜索。
您还可以随时切换来源开关,比如如果您只想要 Z-Lib 和 Anna's Archive 的徽章,而不需要 Gutenberg,您可以轻松做到。
支持的来源:
- Anna's Archive
- Z-Library
- Project Gutenberg
- AudioBookBay(新!)
支持的网站:
- Goodreads
- StoryGraph
- Hardcover
- Babelio
- Novelupdates
该扩展可在以下浏览器上使用:
- Chrome
- Firefox
- Edge
同时支持 Firefox 移动端。
使用 Anime.js 进行动画效果。
不收集任何数据,您可以通过 GitHub 上的源代码或隐私页面自行验证。
此扩展已更新至 V1.0.8!
它是免费的开源软件,如果您想支持我并喜欢这个扩展,请给它加星并评分。
(您也可以通过 GitHub 赞助我!)
谢谢。
您是否愿意参与一项关于人工智能对软件开发影响的研究?我们是纽约大学和伦敦城市大学的研究人员,正在进行一项访谈研究,旨在探讨新型人工智能工具如何改变软件开发人员的工作。我们希望与各个级别的开发人员交流,包括领导岗位的人员,分享他们在日常工作中使用(或选择不使用)人工智能的经验和看法。
访谈将持续45到60分钟,通过Zoom进行。参与者将被询问他们的工作流程、人工智能工具的使用情况,以及他们的角色如何随着时间的推移而演变。所有回复将被保密,仅用于学术研究目的。研究参与者需居住在美国。
如果您感兴趣,请填写这个简短的表格,以便我们与您联系:<a href="https://nyu.qualtrics.com/jfe/form/SV_cHkvoczxgtaLLo2" rel="nofollow">https://nyu.qualtrics.com/jfe/form/SV_cHkvoczxgtaLLo2</a>
谢谢!