我们构建了一个开源代理,位于编码代理(如 Claude Code、OpenClaw 等)与大语言模型(LLM)之间,在工具输出进入上下文窗口之前进行压缩。
演示链接:<a href="https://www.youtube.com/watch?v=-vFZ6MPrwjw#t=9s" rel="nofollow">https://www.youtube.com/watch?v=-vFZ6MPrwjw#t=9s</a>。
动机:代理在管理上下文方面表现不佳。单个文件读取或 grep 操作可能会将成千上万的标记输入窗口,其中大部分是噪声。这不仅成本高昂,还会主动降低质量。长期上下文基准测试一致显示,随着上下文的增加,准确率急剧下降(OpenAI 的 GPT-5.4 评估在 32k 时为 97.2%,而在 1M 时降至 36.6% <a href="https://openai.com/index/introducing-gpt-5-4/" rel="nofollow">https://openai.com/index/introducing-gpt-5-4/</a>)。
我们的解决方案使用小型语言模型(SLMs):我们查看模型内部,并训练分类器以检测上下文中哪些部分携带最多信号。当工具返回输出时,我们根据工具调用的意图进行压缩——例如,如果代理调用 grep 寻找错误处理模式,SLM 会保留相关匹配项并去除其余部分。
如果模型后来需要我们移除的内容,它会调用 expand() 来获取原始输出。我们还在窗口容量达到 85% 时进行后台压缩,并懒加载工具描述,以便模型仅看到与当前步骤相关的工具。
该代理还提供支出上限、用于跟踪当前和过去会话的仪表板,以及当代理在等待您时的 Slack 提醒。
代码库在这里:<a href="https://github.com/Compresr-ai/Context-Gateway" rel="nofollow">https://github.com/Compresr-ai/Context-Gateway</a>。您可以尝试以下命令:
<pre><code> curl -fsSL https://compresr.ai/api/install | sh
</code></pre>
如果您对压缩模型、懒加载工具的工作原理或关于网关的其他任何内容有兴趣,欢迎深入交流。试试看,并告诉我们您的使用体验!
返回首页
最新
我创建了 Stint,目的是让我能够给 Claude 设定目标后就不再干预。它会自动将任务拆分为并行工作,在独立的 git 分支中启动多个 Claude 工作者,并在完成后合并结果。可以把它想象成一种“发射后忘记”的开发方式,配有一个实时进度的网页仪表盘。
与其他框架不同的是,这里没有复杂的设置。只需排队目标,让代理们去工作。每个工作者都有自己的上下文窗口,并直接提交到 git。
请查看 <a href="https://github.com/ilocn/stint" rel="nofollow">https://github.com/ilocn/stint</a>。欢迎提出意见和反馈。谢谢!
<a href="https://xcancel.com/id_aa_carmack/status/2032460578669691171" rel="nofollow">https://xcancel.com/id_aa_carmack/status/2032460578669691171</a>
嗨,HN,
我创建了Build4Me,以解决侨民资助的建筑项目中的信任问题。
许多家庭会寄钱回家建房,但没有可靠的方式来验证实际的施工进展。照片可能被重复使用,进度被夸大,或者在资金发放后项目被搁置。
Build4Me引入了基于里程碑的资金拨付,每个建筑里程碑必须在资金释放之前进行验证。
该系统通过以下方式验证进展:
- 地理标记照片捕捉
- GPS位置验证
- AI图像分析
- 重复图像检测
它运行在无服务器的AWS架构上,使用了Rekognition、Bedrock、Lambda、DynamoDB和Amazon Location Service等服务。
希望能收到关于架构和欺诈检测方法的反馈。
我曾经认为界面设计纯粹是一个技术问题。我专注于数据结构、模式验证和减少延迟,忽视了人因素。最近我意识到,即使API文档写得很好,我们的团队之间仍然不断受到阻碍。
问题不在于代码,而在于缺乏明确的期望。我不再把我们的API视为简单的代码定义,而是将其视为正式的组织条约。
当你把接口视为条约时,这会迫使思维方式发生转变。你不再只关注实现的简便性,而是开始优化稳定性和可预测性。一个清晰且不可变的接口使团队能够独立运作,因为他们不再需要不断地相互协商。他们只需信任这个合同。
这种转变迫使我们简化一切。我们剔除了那些需要持续跨团队协调的可有可无的功能。我们只专注于条约得以维持所绝对必要的内容。
下次我会以不同的方式进行。我会在编写任何实现代码之前,花更多时间来协商这些条约。
嗨,HN - 我是一名非技术人员,想尝试为我的公司构建不同任务的代理。你们有哪些最佳实践可以分享,以避免在运行这些代理时出现安全问题?我会使用一台Mac Mini来将它们与我的主设备隔离,但我还想知道我可以做些什么。
我发现现在干净的短片电影越来越少了,因此我在考虑开发一个应用程序,问题是如果更多人有同样的困扰。<p>我所说的干净短片电影是指没有添加背景音乐、评论、画中画等内容的影片。
<a href="https://archive.ph/rP4cb" rel="nofollow">https://archive.ph/rP4cb</a> (文本在底部)<p><a href="https://x.com/elonmusk/status/2032201568335044978" rel="nofollow">https://x.com/elonmusk/status/2032201568335044978</a>,<a href="https://xcancel.com/elonmusk/status/2032201568335044978" rel="nofollow">https://xcancel.com/elonmusk/status/2032201568335044978</a><p><a href="https://economictimes.indiatimes.com/tech/artificial-intelligence/musk-ousts-more-xai-founders-as-ai-coding-effort-falters-ft-reports/articleshow/129560405.cms" rel="nofollow">https://economictimes.indiatimes.com/tech/artificial-intelli...</a><p><a href="https://futurism.com/artificial-intelligence/elon-musk-screwed-up-xai-rebuilding" rel="nofollow">https://futurism.com/artificial-intelligence/elon-musk-screw...</a>