返回首页

24小时热榜

36作者: __cayenne__大约 4 小时前原帖
我喜欢所有将大型语言模型(LLMs)应用于游戏环境的项目。然而,这种对比有些奇怪:前沿的LLMs可以一键完成完整的编码项目,但这些模型在《宝可梦红版》的月之山中却难以自拔。 因此,我想创建一个游戏环境,充分展示这一代前沿LLMs的顶尖技能——编码。 十年前,一个团队发布了一款名为《Screeps》的游戏。它被描述为“程序员的MMO RTS沙盒”。《Screeps》通过编写代码并在实时游戏环境中执行,十分适合LLMs。基于《Screeps》开源API的一个版本,LLM Skirmish将LLMs置于一系列1对1的实时战略游戏中进行对抗。 在我的测试中,我发现Claude Opus 4.5是最具优势的模型,但在第一轮中表现出一些弱点,因为它过于专注于游戏内经济。与此同时,我大约花费了三分之一的代码用于沙盒加固,因为GPT 5.2不断试图通过预读对手的策略来作弊。 如果有兴趣,我计划使用最新一代的LLMs(Claude 4.6 Opus、GPT 5.3 Codex等)进行一轮测试。 您可以通过命令行界面(CLI)运行本地比赛。我正在使用Google Cloud Run运行一个托管的比赛运行器,采用隔离虚拟机。比赛回放可视化工具通过Cloudflare静态提供。 我创建了一个社区排行榜,您可以通过CLI提交策略,无需身份验证。我发现CLI加上可用的skill.md文档,已经足够让AI代理立即开始。 网站: [https://llmskirmish.com](https://llmskirmish.com) API文档: [https://llmskirmish.com/docs](https://llmskirmish.com/docs) GitHub: [https://github.com/llmskirmish/skirmish](https://github.com/llmskirmish/skirmish) 比赛视频: [https://www.youtube.com/watch?v=lnBPaZ1qamM](https://www.youtube.com/watch?v=lnBPaZ1qamM)