返回首页
24小时热榜
我喜欢所有将大型语言模型(LLMs)应用于游戏环境的项目。然而,这种对比有些奇怪:前沿的LLMs可以一键完成完整的编码项目,但这些模型在《宝可梦红版》的月之山中却难以自拔。
因此,我想创建一个游戏环境,充分展示这一代前沿LLMs的顶尖技能——编码。
十年前,一个团队发布了一款名为《Screeps》的游戏。它被描述为“程序员的MMO RTS沙盒”。《Screeps》通过编写代码并在实时游戏环境中执行,十分适合LLMs。基于《Screeps》开源API的一个版本,LLM Skirmish将LLMs置于一系列1对1的实时战略游戏中进行对抗。
在我的测试中,我发现Claude Opus 4.5是最具优势的模型,但在第一轮中表现出一些弱点,因为它过于专注于游戏内经济。与此同时,我大约花费了三分之一的代码用于沙盒加固,因为GPT 5.2不断试图通过预读对手的策略来作弊。
如果有兴趣,我计划使用最新一代的LLMs(Claude 4.6 Opus、GPT 5.3 Codex等)进行一轮测试。
您可以通过命令行界面(CLI)运行本地比赛。我正在使用Google Cloud Run运行一个托管的比赛运行器,采用隔离虚拟机。比赛回放可视化工具通过Cloudflare静态提供。
我创建了一个社区排行榜,您可以通过CLI提交策略,无需身份验证。我发现CLI加上可用的skill.md文档,已经足够让AI代理立即开始。
网站: [https://llmskirmish.com](https://llmskirmish.com)
API文档: [https://llmskirmish.com/docs](https://llmskirmish.com/docs)
GitHub: [https://github.com/llmskirmish/skirmish](https://github.com/llmskirmish/skirmish)
比赛视频: [https://www.youtube.com/watch?v=lnBPaZ1qamM](https://www.youtube.com/watch?v=lnBPaZ1qamM)