返回首页

24小时热榜

17作者: vshah1016大约 5 小时前原帖
大家好,我是 Veer,我的联合创始人是 Suryaa。我们正在构建 Cumulus Labs(YC W26),并推出我们的最新产品 IonRouter([https://ionrouter.io](https://ionrouter.io)),这是一个用于开源和微调模型的推理 API。您只需替换我们的基础 URL,保留现有的 OpenAI 客户端代码,即可访问在我们自己的推理引擎上运行的任何模型(无论是开源模型还是针对您进行微调的模型)。 我们遇到的问题是:每个推理提供商要么是快速但昂贵(如 Together、Fireworks——您需要为始终在线的 GPU 付费),要么是便宜但需要自己配置(如 Modal、RunPod——您需要自己配置 vLLM,并处理缓慢的冷启动)。这两种选择都不适合那些只想快速交付的团队。 Suryaa 在 TensorDock 构建 GPU 编排基础设施和在 Palantir 的生产系统方面有多年的经验。我负责 Space Force 和 NASA 合同的机器学习基础设施和 Linux 内核开发,这些技术栈必须在压力下实际工作。当我们开始自己构建 AI 产品时,我们不断碰到同样的障碍:GPU 基础设施要么太贵,要么工作量太大。 因此,我们构建了 IonAttention——一个专门围绕 GH200 内存架构设计的 C++ 推理运行时。大多数推理栈将 GH200 视为兼容性目标(确保 vLLM 可以运行,使用 CPU 内存作为溢出)。我们采取了不同的方法,围绕硬件的实际有趣之处进行构建:900 GB/s 的一致 CPU-GPU 链接、452GB 的 LPDDR5X 紧挨加速器,以及可以实际使用的 72 个 ARM 核心。 我们认为从中得出的三点是新颖的:(1)利用硬件缓存一致性使 CUDA 图表现得像是具有动态参数,而每步成本为零——这仅在 GH200 级硬件上有效;(2)由不变性驱动的急切 KV 块写回,而不是内存压力,这将驱逐延迟从 10ms+ 降低到 0.25ms 以下;(3)在小批量大小下的幻影块注意力调度,在受影响最严重的情况下将注意力时间减少超过 60%。我们在 cumulus.blog/ionattention 上详细介绍了这些内容。 在多模态管道中,我们的性能优于大公司(在相同 VLM 工作负载下,588 个 token 对比 Together AI 的 298 个 token)。我们坦诚地说,目前的 p50 延迟较差(约 1.46 秒对比 0.74 秒)——这是我们正在积极解决的权衡。 定价是按 token 计费,没有闲置费用:GPT-OSS-120B 的输入为 $0.02,输出为 $0.095;Qwen3.5-122B 的输入为 $0.20,输出为 $1.60。完整的模型列表和定价请访问 [https://ionrouter.io](https://ionrouter.io)。 您可以立即在 [https://ionrouter.io/playground](https://ionrouter.io/playground) 尝试我们的游乐场,无需注册,或者输入您的 API 密钥并替换基础 URL——只需一行代码。我们构建这个是为了让团队能够看到我们引擎的强大,并最终使用相同的解决方案来满足他们的微调模型需求。 我们很想知道您的想法,特别是如果您正在运行微调或自定义模型——这是我们投入最多的用例。有什么问题?什么能让这个对您真正有用?
15作者: bayes-song大约 7 小时前原帖
我创建了Understudy,因为许多实际工作仍然涉及本地桌面应用程序、浏览器标签、终端和聊天工具。目前大多数代理仅存在于这些界面中的一种。 Understudy是一个以本地为先的桌面代理运行时,可以在一个会话中操作图形用户界面应用程序、浏览器、命令行工具、文件和消息传递。我最希望获得反馈的部分是通过示范教学:你执行一次任务,代理会录制屏幕视频和语义事件,提取意图而不是坐标,并将其转化为可重用的技能。 演示视频: [https://www.youtube.com/watch?v=3d5cRGnlb_0](https://www.youtube.com/watch?v=3d5cRGnlb_0) 在演示中,我教它:谷歌图片搜索 -> 下载一张照片 -> 在Pixelmator Pro中去除背景 -> 导出 -> 通过Telegram发送。然后我让它为埃隆·马斯克做同样的事情。重放并不是一个脆弱的宏:发布的技能仅将意图步骤、路线选项和图形用户界面提示存储为后备。在这个例子中,当有更快的路线可用时,它也可以优先选择这些路线,而不是重复每一个图形用户界面步骤。 当前状态:仅支持macOS。第一层和第二层目前已在工作;第三层和第四层部分完成,仍处于早期阶段。 ``` npm install -g @understudy-ai/understudy understudy wizard ``` GitHub: [https://github.com/understudy-ai/understudy](https://github.com/understudy-ai/understudy) 欢迎就架构、通过示范教学或当前实现的局限性提出问题。
15作者: keks0r大约 10 小时前原帖
我们创建 rudel.ai 是因为意识到自己对 Claude Code 会话没有任何可见性。我们每天都在使用它,但对哪些会话有效率、为什么有些会话被放弃,或者我们是否真的在不断进步毫无头绪。 因此,我们为其构建了一个分析层。在连接了我们自己的会话后,我们最终得到了一个包含 1,573 个真实 Claude Code 会话、超过 1500 万个标记和超过 27 万次交互的数据集。 我们发现的一些令人惊讶的事情包括: - 技能仅在 4% 的会话中被使用 - 26% 的会话被放弃,其中大多数在前 60 秒内 - 会话成功率因任务类型而异(文档类任务得分最高,重构类任务得分最低) - 错误级联模式在前 2 分钟内出现,并能合理准确地预测放弃情况 - 目前没有有意义的基准来评估“良好”的代理会话表现,我们正在构建一个。 该工具是免费的,完全开源,欢迎就数据或我们的构建过程提问。