简要概述
一个小型、与供应商无关的推理循环,将令牌的对数概率/困惑度/熵转化为针对小型大语言模型(LLM)的单次精炼过程。
功能介绍
- 在生成过程中捕获对数概率/前k个候选,计算困惑度和令牌级熵。
- 当简单阈值触发时,最多触发一次精炼;将一个紧凑的“不确定性报告”(不确定的令牌 + 前k个替代 + 本地上下文)传递回模型。
- 在我们对技术问答/数学/代码的测试中,一个小型模型以约三分之一的成本恢复了大部分“推理”质量,同时精炼了约三分之一的输出。
构建原因
我发现“推理”模型表现得像昂贵的黑箱。同时,标准推理在softmax归一化之前和之后(对数概率)已经计算出有用的信号,而我们通常会将其丢弃。这个循环尝试了你能想到的最简单的方法:利用这些信号来决定何时(以及在哪里)再次思考。
如何尝试
GitHub(笔记本 + 最小代码):[https://github.com/monostate/weave-logprobs-reasoning-loop](https://github.com/monostate/weave-logprobs-reasoning-loop)
论文(简短 & 工程师撰写):[http://arxiv.org/abs/2509.00079](http://arxiv.org/abs/2509.00079)
博客(更多背景):[https://monostate.ai/blog/entropy-refinement-blog](https://monostate.ai/blog/entropy-refinement-blog)
要求:Python,能够暴露对数概率的API(已在OpenAI非推理4.1上测试)。需要OPENAI_API_KEY和WEAVE以实现可观察性。运行笔记本,它会打印指标并显示哪些令牌触发了精炼。
技术栈/备注
- Python,简单循环(无重训练)。
- 使用Responses API的对数概率/前k个候选;指标:困惑度、最大令牌熵、低置信度计数。
- Weave用于轻量级日志记录/可观察性(可选)。
我学到的东西/重要事项
- 传递替代方案(不仅仅是“这看起来不确定”)可以防止过度修正。
- 一个简单的或规则(困惑度/最大熵/低置信度计数)可以捕捉互补的失败模式。
- 数值在不同供应商之间可能会漂移;保持方法与供应商无关比追逐脆弱的配对更好。
局限性/注意事项
- 需要暴露对数概率/前k个候选的API。
- 结果具有指示性——不是排行榜;重点在于模型内部的收益(单次通过与+循环)。
- 阈值可能需要根据领域进行轻微调整。
- 仅限一次通过;不是思维链的替代品。
请求/反馈
- 在你的模型和想法上运行它(例如,4o-mini、v3、带有对数概率的Llama变体),如果愿意,可以在GitHub的PR中分享日志,我们欢迎PR - 我会给予信用和链接。
总之,如果你发现让小型模型以这种方式进行推理有用,请告诉我!
返回首页
一周热榜
我注意到大多数大型语言模型在生成内容时很难控制在设定的字数范围内。这有什么原因吗?<p>是什么导致了这种限制?如果一个基本的在线字数统计工具可以做到这一点,为什么这些大公司却做不到呢?
我开发了一款名为 HabitCrush 的 iOS 应用,旨在帮助我(也希望能帮助其他人)戒掉坏习惯(比如拖延、色情、垃圾食品或过度饮食等)。<p>它就像一个逆向习惯追踪器。这个想法很简单:命名你想戒掉的坏习惯,每当你成功拒绝这个坏习惯时,就能在应用中获得“战胜”它的满足感。作为额外奖励,每天成功时,你会获得一颗独特的宝石,作为进步的小象征。宝石是根据当天的时间戳计算的,因此每颗都是独一无二的,永远不会重复。<p>我非常希望能收到反馈,特别是关于这个方法的看法,以及每日宝石机制是否感觉有用或只是噱头。
鉴于美国的资格要求变得更加严格,也许这会发生?
嗨,HN,
我是Max,我正在开发QuickDeploy!
这个工具可以让你通过一个命令将各种类型的Web应用程序部署到你的VPS上!
这里有一个工具展示的视频:<a href="https://youtu.be/Feauj4OaePg" rel="nofollow">https://youtu.be/Feauj4OaePg</a>
在后台,QuickDeploy会检测你使用的语言和框架,例如Next.js,然后创建一个Docker镜像。之后,它会启动容器,并在容器处于健康状态之前,使用反向代理将流量重定向到应用程序。额外的好处是可以使用你自己的域名,并且实现即时HTTPS!
我对这个结果和易用性感到非常满意。配置一次后,只需一个命令就能正常工作,真是太酷了!希望这能让更多开发者能够托管自己的应用,并对这类事情产生兴趣。
非常期待你们对这个工具的反馈!
大多数瑞士初创企业规模较小。ETH董事会主席迈克尔·亨根特表示:“瑞士初创企业需要从第一天起就具备全球视野,以实现真正的规模。”
a16z Speedrun是安德森·霍洛维茨(Andreessen Horowitz)为早期创始人设立的加速器。我们正在瑞士寻找那些准备打破常规、从第一天起就构建全球业务的创始人:
• 最高可获得100万美元的资金
• 在旧金山为期12周的项目
• 与马克和本的私人晚宴
• 来自Figma、DoorDash、Airtable等创始人的指导
截止日期:2025年9月28日
如果你正在构建一些雄心勃勃的项目,或者认识正在这样做的人,请在X平台上联系我:@bogdanvasile
需要收集学校的数据。因此,我制作了一个 Flask 应用程序,可以实时进行分析。
这是我正在开发的一款应用程序。<p>我在学习中文时很难保持一致性,因此这个应用帮助我保持进度,利用与我兴趣相符的YouTube视频。<p>生成过程可能需要几分钟,因为它经过多个步骤来寻找合适的视频(查询扩展 -> 检索 -> 过滤 -> 分析 -> 过滤 -> 最终挑战创建)。