返回首页

24小时热榜

192作者: spectraldrift大约 10 小时前原帖
<a href="https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flash" rel="nofollow">https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flas...</a>
81作者: berkeleyjunk大约 10 小时前原帖
抱歉,我无法处理您提供的内容。请提供需要翻译的具体文本。
18作者: zambelli大约 16 小时前原帖
嗨,HN,我是安托万·赞贝利,德州仪器的人工智能总监。 我开发了Forge,这是一个开源的可靠性层,用于自托管的大型语言模型(LLM)工具调用。 它的功能包括: - 为在消费级硬件上运行的本地模型添加与领域和工具无关的保护措施(重试提示、步骤强制、错误恢复、VRAM感知的上下文管理)。 - 在不改变模型的情况下,将一个8B模型在多步骤智能工作流中的准确率从约53%提升至约99%——仅仅是改变了周围的系统。 - 附带一个评估工具和互动仪表盘,以便你可以复现每一个数字。 我希望为我的投资组合运行一系列始终在线的智能系统,不想支付云计算的高昂费用,并立即遇到了本地模型的复合数学问题。每一步90%的准确率听起来不错,但在一个5步的工作流中,这意味着40%的失败率。现有的框架似乎都没有解决这个机械可靠性问题——它们似乎都是为云计算量身定制的。 演示视频:[https://youtu.be/MzRgJoJAXGc](https://youtu.be/MzRgJoJAXGc)(并排对比:相同模型,相同任务,使用和不使用Forge保护措施) 这篇论文(已被ACM CAIS '26接受,将于5月26-29日在圣荷西展示)涵盖了97个模型/后端配置、18种场景、每种场景50次运行的同行评审结果。关键数据: - 使用Forge的Ministral 8B模型:99.3%。使用Forge的Claude Sonnet:100%。一个600美元GPU上的免费本地8B模型与前沿API之间的差距不到1个百分点。 - 使用Forge的同一8B本地模型(99.3%)优于没有保护措施的Claude Sonnet(87.2%)——一个有框架支持的8B模型的表现超过了你仅通过前沿API能获得的最佳结果。 - 所有测试的模型(包括本地和前沿)在没有重试机制的情况下,错误恢复得分为0%。这不是能力差距,而是架构缺失。 我目前在使用这个系统作为我的家用助手,运行在Ministral 14B-Reasoning上,以及我的本地托管智能编码工具(8B模型成功为代码库做出了贡献!)。 保护措施堆栈有五层,每层都可以独立切换。最重要的两个(根据与McNemar测试的消融研究):重试提示(禁用时下降24-49个百分点)和错误恢复(下降约10个百分点,对每个测试的模型都显著)。步骤强制是情况依赖的——仅在序列纪律较弱的模型中触发。救援解析和上下文压缩在评估中没有显著性,但在生产工作负载中保留,因为它们偶尔会被激活。 我真的没有预料到的一件事是:服务后端很重要。相同的Mistral-Nemo 12B权重在使用原生函数调用的llama-server上产生7%的准确率,而在提示模式下的Llamafile上则为83%。仅基础设施就造成了75个百分点的波动。我认为没有人发布过这个,因为标准基准没有控制服务后端。 另一个惊喜是:当前的LLM工具调用中,“工具成功运行并返回数据”和“工具成功运行但未找到任何内容”之间没有区别。两者都返回一个值,调度器标记步骤完成,而错误数据则向下级联。这相当于HTTP只有200而没有404。Forge将其添加为一个新的异常类(ToolResolutionError)——模型可以看到错误并进行重试,而不是默默地传递垃圾数据。 最大的技术挑战是针对内存受限硬件的上下文压缩。Ollama和Llamafile在模型超出VRAM时会默默回退到CPU——没有警告,没有错误,只是推理速度变慢10-100倍。Forge在启动时查询nvidia-smi,并推导出一个令牌预算以防止这种情况。 如何尝试: - 克隆代码库,在我尚未测试的模型上运行评估工具。如果你得到有趣的结果,我会将其添加到仪表盘中。 - 尝试代理服务器模式——将任何兼容OpenAI的客户端指向Forge,它会透明地处理保护措施。这是最新的模型,我希望能有更多人关注它。 - 自我使用促使我在v0.6.0中优化模型参数。更困难的评估套件(26种场景)旨在提高上限,以便没有人停留在100%。在原始套件中表现出色的几个模型在这个新套件中无法取得全胜——包括Opus 4.6。我很好奇是否有人能找到我未曾想到的场景。论文数据基于v0.6.0之前的代码。 背景:之前在无监督学习领域发表过机器学习论文(83次引用)。这篇论文已被ACM CAIS '26接受——将于5月26-29日展示。 代码库:[https://github.com/antoinezambelli/forge](https://github.com/antoinezambelli/forge) 论文:[https://www.caisconf.org/program/2026/demos/forge-agentic-reliability/](https://www.caisconf.org/program/2026/demos/forge-agentic-reliability/) [https://github.com/antoinezambelli/forge/blob/main/docs/forge_ieee_preprint.pdf](https://github.com/antoinezambelli/forge/blob/main/docs/forge_ieee_preprint.pdf) 仪表盘:[https://github.com/antoinezambelli/forge/docs/results/dashboard.html](https://github.com/antoinezambelli/forge/docs/results/dashboard.html)