返回首页
24小时热榜
大家好,我是 Veer,我的联合创始人是 Suryaa。我们正在构建 Cumulus Labs(YC W26),并推出我们的最新产品 IonRouter([https://ionrouter.io](https://ionrouter.io)),这是一个用于开源和微调模型的推理 API。您只需替换我们的基础 URL,保留现有的 OpenAI 客户端代码,即可访问在我们自己的推理引擎上运行的任何模型(无论是开源模型还是针对您进行微调的模型)。
我们遇到的问题是:每个推理提供商要么是快速但昂贵(如 Together、Fireworks——您需要为始终在线的 GPU 付费),要么是便宜但需要自己配置(如 Modal、RunPod——您需要自己配置 vLLM,并处理缓慢的冷启动)。这两种选择都不适合那些只想快速交付的团队。
Suryaa 在 TensorDock 构建 GPU 编排基础设施和在 Palantir 的生产系统方面有多年的经验。我负责 Space Force 和 NASA 合同的机器学习基础设施和 Linux 内核开发,这些技术栈必须在压力下实际工作。当我们开始自己构建 AI 产品时,我们不断碰到同样的障碍:GPU 基础设施要么太贵,要么工作量太大。
因此,我们构建了 IonAttention——一个专门围绕 GH200 内存架构设计的 C++ 推理运行时。大多数推理栈将 GH200 视为兼容性目标(确保 vLLM 可以运行,使用 CPU 内存作为溢出)。我们采取了不同的方法,围绕硬件的实际有趣之处进行构建:900 GB/s 的一致 CPU-GPU 链接、452GB 的 LPDDR5X 紧挨加速器,以及可以实际使用的 72 个 ARM 核心。
我们认为从中得出的三点是新颖的:(1)利用硬件缓存一致性使 CUDA 图表现得像是具有动态参数,而每步成本为零——这仅在 GH200 级硬件上有效;(2)由不变性驱动的急切 KV 块写回,而不是内存压力,这将驱逐延迟从 10ms+ 降低到 0.25ms 以下;(3)在小批量大小下的幻影块注意力调度,在受影响最严重的情况下将注意力时间减少超过 60%。我们在 cumulus.blog/ionattention 上详细介绍了这些内容。
在多模态管道中,我们的性能优于大公司(在相同 VLM 工作负载下,588 个 token 对比 Together AI 的 298 个 token)。我们坦诚地说,目前的 p50 延迟较差(约 1.46 秒对比 0.74 秒)——这是我们正在积极解决的权衡。
定价是按 token 计费,没有闲置费用:GPT-OSS-120B 的输入为 $0.02,输出为 $0.095;Qwen3.5-122B 的输入为 $0.20,输出为 $1.60。完整的模型列表和定价请访问 [https://ionrouter.io](https://ionrouter.io)。
您可以立即在 [https://ionrouter.io/playground](https://ionrouter.io/playground) 尝试我们的游乐场,无需注册,或者输入您的 API 密钥并替换基础 URL——只需一行代码。我们构建这个是为了让团队能够看到我们引擎的强大,并最终使用相同的解决方案来满足他们的微调模型需求。
我们很想知道您的想法,特别是如果您正在运行微调或自定义模型——这是我们投入最多的用例。有什么问题?什么能让这个对您真正有用?