返回首页

一周热榜

2作者: andrewmonostate7 天前原帖
简要概述 一个小型、与供应商无关的推理循环,将令牌的对数概率/困惑度/熵转化为针对小型大语言模型(LLM)的单次精炼过程。 功能介绍 - 在生成过程中捕获对数概率/前k个候选,计算困惑度和令牌级熵。 - 当简单阈值触发时,最多触发一次精炼;将一个紧凑的“不确定性报告”(不确定的令牌 + 前k个替代 + 本地上下文)传递回模型。 - 在我们对技术问答/数学/代码的测试中,一个小型模型以约三分之一的成本恢复了大部分“推理”质量,同时精炼了约三分之一的输出。 构建原因 我发现“推理”模型表现得像昂贵的黑箱。同时,标准推理在softmax归一化之前和之后(对数概率)已经计算出有用的信号,而我们通常会将其丢弃。这个循环尝试了你能想到的最简单的方法:利用这些信号来决定何时(以及在哪里)再次思考。 如何尝试 GitHub(笔记本 + 最小代码):[https://github.com/monostate/weave-logprobs-reasoning-loop](https://github.com/monostate/weave-logprobs-reasoning-loop) 论文(简短 & 工程师撰写):[http://arxiv.org/abs/2509.00079](http://arxiv.org/abs/2509.00079) 博客(更多背景):[https://monostate.ai/blog/entropy-refinement-blog](https://monostate.ai/blog/entropy-refinement-blog) 要求:Python,能够暴露对数概率的API(已在OpenAI非推理4.1上测试)。需要OPENAI_API_KEY和WEAVE以实现可观察性。运行笔记本,它会打印指标并显示哪些令牌触发了精炼。 技术栈/备注 - Python,简单循环(无重训练)。 - 使用Responses API的对数概率/前k个候选;指标:困惑度、最大令牌熵、低置信度计数。 - Weave用于轻量级日志记录/可观察性(可选)。 我学到的东西/重要事项 - 传递替代方案(不仅仅是“这看起来不确定”)可以防止过度修正。 - 一个简单的或规则(困惑度/最大熵/低置信度计数)可以捕捉互补的失败模式。 - 数值在不同供应商之间可能会漂移;保持方法与供应商无关比追逐脆弱的配对更好。 局限性/注意事项 - 需要暴露对数概率/前k个候选的API。 - 结果具有指示性——不是排行榜;重点在于模型内部的收益(单次通过与+循环)。 - 阈值可能需要根据领域进行轻微调整。 - 仅限一次通过;不是思维链的替代品。 请求/反馈 - 在你的模型和想法上运行它(例如,4o-mini、v3、带有对数概率的Llama变体),如果愿意,可以在GitHub的PR中分享日志,我们欢迎PR - 我会给予信用和链接。 总之,如果你发现让小型模型以这种方式进行推理有用,请告诉我!
2作者: melvinzammit4 天前原帖
我开发了一款名为 HabitCrush 的 iOS 应用,旨在帮助我(也希望能帮助其他人)戒掉坏习惯(比如拖延、色情、垃圾食品或过度饮食等)。<p>它就像一个逆向习惯追踪器。这个想法很简单:命名你想戒掉的坏习惯,每当你成功拒绝这个坏习惯时,就能在应用中获得“战胜”它的满足感。作为额外奖励,每天成功时,你会获得一颗独特的宝石,作为进步的小象征。宝石是根据当天的时间戳计算的,因此每颗都是独一无二的,永远不会重复。<p>我非常希望能收到反馈,特别是关于这个方法的看法,以及每日宝石机制是否感觉有用或只是噱头。
2作者: programonaut4 天前原帖
嗨,HN, 我是Max,我正在开发QuickDeploy! 这个工具可以让你通过一个命令将各种类型的Web应用程序部署到你的VPS上! 这里有一个工具展示的视频:<a href="https://youtu.be/Feauj4OaePg" rel="nofollow">https://youtu.be/Feauj4OaePg</a> 在后台,QuickDeploy会检测你使用的语言和框架,例如Next.js,然后创建一个Docker镜像。之后,它会启动容器,并在容器处于健康状态之前,使用反向代理将流量重定向到应用程序。额外的好处是可以使用你自己的域名,并且实现即时HTTPS! 我对这个结果和易用性感到非常满意。配置一次后,只需一个命令就能正常工作,真是太酷了!希望这能让更多开发者能够托管自己的应用,并对这类事情产生兴趣。 非常期待你们对这个工具的反馈!
2作者: boggsss4 天前原帖
大多数瑞士初创企业规模较小。ETH董事会主席迈克尔·亨根特表示:“瑞士初创企业需要从第一天起就具备全球视野,以实现真正的规模。” a16z Speedrun是安德森·霍洛维茨(Andreessen Horowitz)为早期创始人设立的加速器。我们正在瑞士寻找那些准备打破常规、从第一天起就构建全球业务的创始人: • 最高可获得100万美元的资金 • 在旧金山为期12周的项目 • 与马克和本的私人晚宴 • 来自Figma、DoorDash、Airtable等创始人的指导 截止日期:2025年9月28日 如果你正在构建一些雄心勃勃的项目,或者认识正在这样做的人,请在X平台上联系我:@bogdanvasile
2作者: yunusabd4 天前原帖
这是我正在开发的一款应用程序。<p>我在学习中文时很难保持一致性,因此这个应用帮助我保持进度,利用与我兴趣相符的YouTube视频。<p>生成过程可能需要几分钟,因为它经过多个步骤来寻找合适的视频(查询扩展 -> 检索 -> 过滤 -> 分析 -> 过滤 -> 最终挑战创建)。