返回首页

24小时热榜

166作者: helsinkiandrew大约 4 小时前原帖
礼品文章:<a href="https://www.bloomberg.com/news/articles/2026-04-27/microsoft-to-stop-sharing-revenue-with-main-ai-partner-openai?accessToken=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzb3VyY2UiOiJTdWJzY3JpYmVyR2lmdGVkQXJ0aWNsZSIsImlhdCI6MTc3NzI5NjE3MiwiZXhwIjoxNzc3OTAwOTcyLCJhcnRpY2xlSWQiOiJURTVMT0lLSzNOWUkwMCIsImJjb25uZWN0SWQiOiJDN0U3REM1Q0MxRTQ0NzM0QkY2MzYxQjY5QzgxN0UzMyJ9.mkOwEicK1kMLb-h6ZjkN4u-DsF55439rrFad0m1lqZM" rel="nofollow">https://www.bloomberg.com/news/articles/2026-04-27/microsoft...</a><p><a href="https://openai.com/index/next-phase-of-microsoft-partnership/" rel="nofollow">https://openai.com/index/next-phase-of-microsoft-partnership...</a>
15作者: GodelNumbering大约 5 小时前原帖
得分65.2%,相比谷歌官方的47.8%以及现有顶级闭源模型Junie CLI的64.3%有显著优势。<p>由于最近有很多关于TerminalBench 2.0故意作弊的报告(<a href="https://debugml.github.io/cheating-agents/" rel="nofollow">https://debugml.github.io/cheating-agents/</a>),我想澄清几点<p>1. 在任何时候都没有插入{agents/skills}.md文件,绝对没有任何作弊机制<p>2. CLI代理是以符合排行榜的方式运行的(没有修改资源或超时设置)<p>3. 完整的终端基准测试是使用完全开源版本的代理进行的,GitHub上的版本与实际运行的版本没有区别。<p>我原本打算等它上榜后再发布,但已经过去8天了,维护者不幸没有回应(他们的HF上有大量待处理的拉取请求),所以我决定还是发布出来。<p>HF PR: <a href="https://huggingface.co/datasets/harborframework/terminal-bench-2-leaderboard/discussions/145" rel="nofollow">https://huggingface.co/datasets/harborframework/terminal-bench-2-leaderboard/discussions/145</a><p>根据我进行的这次和其他实验,工具的影响力是惊人的。