返回首页

24小时热榜

56作者: sanchitmonga22大约 23 小时前原帖
嗨,HN,我们是Sanchit和Shubham(YC W26)。我们为Apple Silicon构建了一个快速推理引擎。无论是大型语言模型(LLMs)、语音转文本(STT)还是文本转语音(TTS),MetalRT在我们测试的每种模式下都超越了llama.cpp、Apple的MLX、Ollama和sherpa-onnx。我们使用了自定义的Metal着色器,没有框架开销。 此外,我们还开源了RCLI,这是在Apple Silicon上最快的端到端语音AI管道。从麦克风到语音响应,完全在设备上运行。无需云端,无需API密钥。 开始使用的方法: ```bash brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git brew install rcli rcli setup # 下载约1 GB的模型 rcli # 交互模式,按下说话 ``` 或者: ```bash curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash ``` 性能数据(M4 Max,64 GB,通过 `rcli bench` 可复现): LLM解码 – 比llama.cpp快1.67倍,比Apple MLX快1.19倍(使用相同的模型文件): - Qwen3-0.6B: 658 tok/s(vs mlx-lm 552,llama.cpp 295) - Qwen3-4B: 186 tok/s(vs mlx-lm 170,llama.cpp 87) - LFM2.5-1.2B: 570 tok/s(vs mlx-lm 509,llama.cpp 372) - 首个令牌时间:6.6毫秒 STT – 70秒的音频转录仅需*101毫秒*。这相当于714倍实时速度,比mlx-whisper快4.6倍。 TTS – 合成时间为178毫秒,比mlx-audio和sherpa-onnx快2.8倍。 我们之所以构建这个,是因为在设备上演示AI很简单,但将其投入实际使用却非常困难。语音是最难的测试:你需要依次连接STT、LLM和TTS,如果任何一个环节速度慢,用户都会感受到。大多数团队回退到云API,并不是因为本地模型不好,而是因为本地推理基础设施不足。 难以解决的问题是延迟叠加。在语音管道中,你需要依次堆叠三个模型。如果每个模型都增加200毫秒,那么在用户听到第一个词之前,你就已经达到了600毫秒,这种体验是不可接受的。你无法仅优化一个环节就认为完成了。每个环节都需要快速,在一台设备上运行,且没有网络往返延迟可以依赖。 我们直接使用了Metal。自定义GPU计算着色器,所有内存在初始化时预分配(推理过程中零分配),并且为所有三种模式提供一个统一的引擎,而不是将不同的运行时拼接在一起。 MetalRT是第一个在Apple Silicon上原生处理所有三种模式的引擎。完整的方法论: LLM基准测试:[https://www.runanywhere.ai/blog/metalrt-fastest-llm-decode-engine-apple-silicon](https://www.runanywhere.ai/blog/metalrt-fastest-llm-decode-engine-apple-silicon) 语音基准测试:[https://www.runanywhere.ai/blog/metalrt-speech-fastest-stt-tts-apple-silicon](https://www.runanywhere.ai/blog/metalrt-speech-fastest-stt-tts-apple-silicon) 如何做到:大多数推理引擎在你和GPU之间添加了许多层:图调度器、运行时调度器、内存管理器。MetalRT跳过了这些。自定义Metal计算着色器用于量化的矩阵乘法、注意力机制和激活函数——提前编译,直接调度。 语音管道优化的详细信息:[https://www.runanywhere.ai/blog/fastvoice-on-device-voice-ai-pipeline-apple-silicon](https://www.runanywhere.ai/blog/fastvoice-on-device-voice-ai-pipeline-apple-silicon) RAG优化:[https://www.runanywhere.ai/blog/fastvoice-rag-on-device-retrieval-augmented-voice-ai](https://www.runanywhere.ai/blog/fastvoice-rag-on-device-retrieval-augmented-voice-ai) RCLI是基于MetalRT构建的开源语音管道(MIT):三个并发线程,使用无锁环形缓冲区,双缓冲TTS,通过语音执行38个macOS操作,本地RAG(约4毫秒,处理5000多个块),20个热插拔模型,以及一个具有每个操作延迟读数的全屏TUI。当MetalRT未安装时,回退到llama.cpp。 源代码:[https://github.com/RunanywhereAI/RCLI](https://github.com/RunanywhereAI/RCLI)(MIT) 演示:[https://www.youtube.com/watch?v=eTYwkgNoaKg](https://www.youtube.com/watch?v=eTYwkgNoaKg) 如果设备上的AI真的和云端一样快,你会构建什么?