1作者: skysniper10 天前原帖
我们建立了一个用于比较人工智能模型在真实代理任务上的竞技场——而不是聊天或静态基准测试。模型作为实际的 OpenClaw 子代理在全新的虚拟机中运行,拥有完整的工具访问权限,结果将反馈到两个独立的排行榜中:性能和成本效益。 问题:聊天机器人竞技场测试对话质量。但大多数使用 AI 代理的人需要它们做更多事情:浏览网页、管理文件、编写和运行代码、创建完整应用程序、自动化多步骤工作流程。目前没有一个基准能够(1)测试通用代理任务,(2)使用用户提交的任务而不是固定测试集,以及(3)在质量和成本效益上分别对模型进行排名。 我们构建的内容:OpenClaw Arena 允许您提交任何任务,并将 2-5 个模型进行对抗。一个评审 OpenClaw 代理(目前使用的是顶级模型之一:Claude Opus 4.6、GPT-5.4 或 Gemini 3.1 Pro)在全新的虚拟机上运行,为每个模型生成一个子代理,每个模型独立解决任务,拥有对终端、浏览器、文件系统和代码执行的完全访问权限。 结果会反馈到两个实时排行榜中: - 性能——哪个模型产生最佳结果 - 成本效益——哪个模型每花费一美元提供最佳质量 我们发现的情况(经过 300 多场战斗,15 个模型): 这两个排名完全不同。性能排名前 3 名:Claude Opus 4.6、GPT-5.4、Claude Sonnet 4.6。成本效益排名前 3 名:Step 3.5 Flash、Grok 4.1 Fast、MiniMax M2.7。 Claude Opus 4.6 在性能上排名第一,但在成本效益上排名第十四。 Step 3.5 Flash 在成本效益上排名第一,在性能上排名第五。(说实话,我没想到这一点) 几个模型(GLM-5 Turbo、小米 MiMo v2 Pro、MiniMax M2.7)在性能上超过了 Gemini 3.1 Pro。实际上,Gemini 3.1 Pro 在使用技能方面表现得非常糟糕,以至于我们不得不专门优化评审消息,否则它有时只会读取技能并决定不做任何事情…… 注意:我们通过爬取人们在使用 OpenClaw 时的行为(在 X、Reddit 等平台上)来启动前 300 场战斗,并生成类似任务的战斗 + 随机选择的模型。 方法论:我们仅使用每场战斗中模型的相对排序来计算排名——而不是原始分数。与聊天机器人竞技场相同的原则:评审的绝对分数噪声大且校准不佳(在一场战斗中“7/10”在另一场可能是“6/10”),但“A 排在 B 之上”则更一致可靠。排名使用分组的 Plackett-Luce 模型(而不是简单的胜率或 Bradley-Terry),并带有 1,000 次重抽样的自助置信区间。每个模型条目显示分数 ± 置信区间和排名范围(合理的排名范围)。数据不足的模型标记为“临时”。完整的方法论及公式请见:<a href="https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn" rel="nofollow">https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn</a> 主要特点: - 实时双排行榜(性能 + 成本效益),采用 Plackett-Luce 排名 - 跨 11 个类别的动态用户提交任务(没有固定测试集以避免过拟合),我们会添加更多,欢迎告诉我您想添加的内容 - 每个基准都有全新的虚拟机,每个模型一个子代理 - 用户可选择评审模型 - 完整的对话历史、评审推理和工作区文档保留并展示给用户 - 完全透明:您可以自己评估输出,而不仅仅是信任分数 - 开源评审技能:<a href="https://github.com/unifai-network/skills/tree/main/agent-bench" rel="nofollow">https://github.com/unifai-network/skills/tree/main/agent-bench</a> 公共基准是免费的(我们承担计算费用)。排行榜可以在没有账户的情况下浏览。 - 排行榜:<a href="https://app.uniclaw.ai/arena?via=hn" rel="nofollow">https://app.uniclaw.ai/arena?via=hn</a> - 提交战斗:<a href="https://app.uniclaw.ai/arena/new?via=hn" rel="nofollow">https://app.uniclaw.ai/arena/new?via=hn</a>(需要免费账户) - 方法论:<a href="https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn" rel="nofollow">https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn</a> - 评审技能源代码:<a href="https://github.com/unifai-network/skills/tree/main/agent-bench" rel="nofollow">https://github.com/unifai-network/skills/tree/main/agent-bench</a> 我们非常希望能收到关于方法论的反馈,以及您希望看到哪些任务被基准测试。
1作者: NubPlayz10 天前原帖
“在 Goodreads 上通过一个按钮一键打开 Zlib 或 Anna's Archive。” 我开发了一个免费的开源浏览器扩展,它可以直接在 Goodreads 图书页面上添加按钮。您只需点击所需来源的徽章,无需手动复制书名和搜索。 您还可以随时切换来源开关,比如如果您只想要 Z-Lib 和 Anna's Archive 的徽章,而不需要 Gutenberg,您可以轻松做到。 支持的来源: - Anna's Archive - Z-Library - Project Gutenberg - AudioBookBay(新!) 支持的网站: - Goodreads - StoryGraph - Hardcover - Babelio - Novelupdates 该扩展可在以下浏览器上使用: - Chrome - Firefox - Edge 同时支持 Firefox 移动端。 使用 Anime.js 进行动画效果。 不收集任何数据,您可以通过 GitHub 上的源代码或隐私页面自行验证。 此扩展已更新至 V1.0.8! 它是免费的开源软件,如果您想支持我并喜欢这个扩展,请给它加星并评分。 (您也可以通过 GitHub 赞助我!) 谢谢。
2作者: research202610 天前原帖
您是否愿意参与一项关于人工智能对软件开发影响的研究?我们是纽约大学和伦敦城市大学的研究人员,正在进行一项访谈研究,旨在探讨新型人工智能工具如何改变软件开发人员的工作。我们希望与各个级别的开发人员交流,包括领导岗位的人员,分享他们在日常工作中使用(或选择不使用)人工智能的经验和看法。 访谈将持续45到60分钟,通过Zoom进行。参与者将被询问他们的工作流程、人工智能工具的使用情况,以及他们的角色如何随着时间的推移而演变。所有回复将被保密,仅用于学术研究目的。研究参与者需居住在美国。 如果您感兴趣,请填写这个简短的表格,以便我们与您联系:<a href="https:&#x2F;&#x2F;nyu.qualtrics.com&#x2F;jfe&#x2F;form&#x2F;SV_cHkvoczxgtaLLo2" rel="nofollow">https:&#x2F;&#x2F;nyu.qualtrics.com&#x2F;jfe&#x2F;form&#x2F;SV_cHkvoczxgtaLLo2</a> 谢谢!