1作者: helloworlddd2 个月前原帖
我即将开始计算机科学和政治学的学位课程,需要一台笔记本电脑。我想要一台小巧轻便的,但我预算有限。我应该选择新的Macbook Neo,还是买一台3-4年前的二手X1 Carbon?
2作者: uncSoft2 个月前原帖
为什么在Apple Silicon上开放源代码的本地AI基准测试很重要,以及为什么你的基准提交比你想象的更有价值。 关于AI的叙述几乎完全以云为中心。你向数据中心发送一个提示,返回一些令牌,而你尽量不去考虑延迟、成本或隐私的影响。很长一段时间,这就是唯一的选择。 Apple Silicon——从M1到今天的M4 Pro/Max,以及即将推出的M5——悄然成为全球最强大的本地AI计算平台之一。统一内存架构意味着一台配备128GB内存的M4 Max可以运行那些在其他地方需要专用GPU工作站的模型。并且在笔记本电脑的功耗下,离线运行,完全不需要将任何令牌发送给第三方。 这种转变对所有相关方(除了那些想要你钱的云服务商)来说都是非常好的,但它带来了一个未解决的问题:我们没有关于这些机器在实际环境中表现的优秀社区驱动数据。 这就是我创建Anubis OSS的原因。 碎片化的本地LLM生态系统 如果你在macOS上运行过本地模型,你一定感受到了这种摩擦。像Ollama和LM Studio这样的聊天包装器非常适合对话,但并不适合系统性测试。像asitop这样的硬件监控工具可以显示GPU利用率,但无法了解加载了什么模型或提示的上下文。像promptfoo这样的评估框架需要终端流利度,这让许多从业者难以接触。 这些工具都无法将硬件行为与推理性能相关联。你可以看到在生成过程中GPU的使用峰值,但你无法轻易回答:Gemma 3 12B Q4_K_M在M3 Pro上是否比Mistral Small 3.1更节能?在32GB与64GB的上下文长度下,TTFT是如何变化的? Anubis可以回答这些问题。它是一个原生的SwiftUI应用——没有Electron,没有Python运行时,没有外部依赖——可以针对任何兼容OpenAI的后端(如Ollama、LM Studio、mlx-lm等)运行基准测试,同时通过IOReport获取真实的硬件遥测数据:GPU/CPU利用率、功耗(以瓦特计)、ANE活动、内存(包括Metal分配)和热状态。 为什么开放数据集才是重点 排行榜提交并不是一个得分板——它们是一个真实世界的、社区驱动的性能数据集的开始,涵盖了不同的Apple Silicon配置、模型家族、量化和后端。 这些数据很难通过其他方式获取。正式的芯片制造商基准测试是合成的。评审基准测试覆盖的模型很少。没有人有预算来运行完整的交叉产品矩阵。但集体而言,社区是可以做到的。 对于后端开发者来说,数据集揭示了哪些芯片/内存配置的性能低于理论带宽,在哪些长上下文下TTFT下降,以及在持续负载下真实的功耗范围是什么样的。对于量化作者来说,它展示了真实硬件上的效率曲线、ANE利用模式,以及量化是否真的减少了内存压力或只是参数数量。 运行基准测试大约需要两分钟。提交只需一次点击。 你的硬件可能被低估了。芯片×内存×后端×热环境的矩阵是巨大的——每个提交都填补了其他人可能没有覆盖的单元。 数据集是开放的。这不是数据消失在企业分析管道中,而是为任何构建工具、撰写研究或为平台优化的人提供的社区资源。 Anubis OSS正在努力争取75个GitHub星标,以符合Homebrew Cask分发的资格,这将大大简化安装过程。一个星标是一个真正有意义的贡献。 从最新的GitHub发布中下载——经过公证的macOS应用,无需构建 针对你首选后端中的任何模型运行基准测试 将结果提交到社区排行榜 在github.com/uncSoft/anubis-oss上给仓库加星