HackerNews中文版

为什么在Apple Silicon上开放源代码的本地AI基准测试很重要，以及为什么你的基准提交比你想象的更有价值。关于AI的叙述几乎完全以云为中心。你向数据中心发送一个提示，返回一些令牌，而你尽量不去考虑延迟、成本或隐私的影响。很长一段时间，这就是唯一的选择。 Apple Silicon——从M1到今天的M4 Pro/Max，以及即将推出的M5——悄然成为全球最强大的本地AI计算平台之一。统一内存架构意味着一台配备128GB内存的M4 Max可以运行那些在其他地方需要专用GPU工作站的模型。并且在笔记本电脑的功耗下，离线运行，完全不需要将任何令牌发送给第三方。这种转变对所有相关方（除了那些想要你钱的云服务商）来说都是非常好的，但它带来了一个未解决的问题：我们没有关于这些机器在实际环境中表现的优秀社区驱动数据。这就是我创建Anubis OSS的原因。碎片化的本地LLM生态系统如果你在macOS上运行过本地模型，你一定感受到了这种摩擦。像Ollama和LM Studio这样的聊天包装器非常适合对话，但并不适合系统性测试。像asitop这样的硬件监控工具可以显示GPU利用率，但无法了解加载了什么模型或提示的上下文。像promptfoo这样的评估框架需要终端流利度，这让许多从业者难以接触。这些工具都无法将硬件行为与推理性能相关联。你可以看到在生成过程中GPU的使用峰值，但你无法轻易回答：Gemma 3 12B Q4_K_M在M3 Pro上是否比Mistral Small 3.1更节能？在32GB与64GB的上下文长度下，TTFT是如何变化的？ Anubis可以回答这些问题。它是一个原生的SwiftUI应用——没有Electron，没有Python运行时，没有外部依赖——可以针对任何兼容OpenAI的后端（如Ollama、LM Studio、mlx-lm等）运行基准测试，同时通过IOReport获取真实的硬件遥测数据：GPU/CPU利用率、功耗（以瓦特计）、ANE活动、内存（包括Metal分配）和热状态。为什么开放数据集才是重点排行榜提交并不是一个得分板——它们是一个真实世界的、社区驱动的性能数据集的开始，涵盖了不同的Apple Silicon配置、模型家族、量化和后端。这些数据很难通过其他方式获取。正式的芯片制造商基准测试是合成的。评审基准测试覆盖的模型很少。没有人有预算来运行完整的交叉产品矩阵。但集体而言，社区是可以做到的。对于后端开发者来说，数据集揭示了哪些芯片/内存配置的性能低于理论带宽，在哪些长上下文下TTFT下降，以及在持续负载下真实的功耗范围是什么样的。对于量化作者来说，它展示了真实硬件上的效率曲线、ANE利用模式，以及量化是否真的减少了内存压力或只是参数数量。运行基准测试大约需要两分钟。提交只需一次点击。你的硬件可能被低估了。芯片×内存×后端×热环境的矩阵是巨大的——每个提交都填补了其他人可能没有覆盖的单元。数据集是开放的。这不是数据消失在企业分析管道中，而是为任何构建工具、撰写研究或为平台优化的人提供的社区资源。 Anubis OSS正在努力争取75个GitHub星标，以符合Homebrew Cask分发的资格，这将大大简化安装过程。一个星标是一个真正有意义的贡献。从最新的GitHub发布中下载——经过公证的macOS应用，无需构建针对你首选后端中的任何模型运行基准测试将结果提交到社区排行榜在github.com/uncSoft/anubis-oss上给仓库加星