返回首页
最新
<p><pre><code> Claude Code v2.1.75
Opus 4.6 · Claude Max
~/Projects/psychology-agent
↑ Opus 现在默认使用 1M 上下文 · 提供 5 倍的空间,价格不变</code></pre>
如何保护 Terraform 脚本
https://tfguard.com/
我们构建了一个开源代理,位于编码代理(如 Claude Code、OpenClaw 等)与大语言模型(LLM)之间,在工具输出进入上下文窗口之前进行压缩。
演示链接:<a href="https://www.youtube.com/watch?v=-vFZ6MPrwjw#t=9s" rel="nofollow">https://www.youtube.com/watch?v=-vFZ6MPrwjw#t=9s</a>。
动机:代理在管理上下文方面表现不佳。单个文件读取或 grep 操作可能会将成千上万的标记输入窗口,其中大部分是噪声。这不仅成本高昂,还会主动降低质量。长期上下文基准测试一致显示,随着上下文的增加,准确率急剧下降(OpenAI 的 GPT-5.4 评估在 32k 时为 97.2%,而在 1M 时降至 36.6% <a href="https://openai.com/index/introducing-gpt-5-4/" rel="nofollow">https://openai.com/index/introducing-gpt-5-4/</a>)。
我们的解决方案使用小型语言模型(SLMs):我们查看模型内部,并训练分类器以检测上下文中哪些部分携带最多信号。当工具返回输出时,我们根据工具调用的意图进行压缩——例如,如果代理调用 grep 寻找错误处理模式,SLM 会保留相关匹配项并去除其余部分。
如果模型后来需要我们移除的内容,它会调用 expand() 来获取原始输出。我们还在窗口容量达到 85% 时进行后台压缩,并懒加载工具描述,以便模型仅看到与当前步骤相关的工具。
该代理还提供支出上限、用于跟踪当前和过去会话的仪表板,以及当代理在等待您时的 Slack 提醒。
代码库在这里:<a href="https://github.com/Compresr-ai/Context-Gateway" rel="nofollow">https://github.com/Compresr-ai/Context-Gateway</a>。您可以尝试以下命令:
<pre><code> curl -fsSL https://compresr.ai/api/install | sh
</code></pre>
如果您对压缩模型、懒加载工具的工作原理或关于网关的其他任何内容有兴趣,欢迎深入交流。试试看,并告诉我们您的使用体验!
我创建了 Stint,目的是让我能够给 Claude 设定目标后就不再干预。它会自动将任务拆分为并行工作,在独立的 git 分支中启动多个 Claude 工作者,并在完成后合并结果。可以把它想象成一种“发射后忘记”的开发方式,配有一个实时进度的网页仪表盘。
与其他框架不同的是,这里没有复杂的设置。只需排队目标,让代理们去工作。每个工作者都有自己的上下文窗口,并直接提交到 git。
请查看 <a href="https://github.com/ilocn/stint" rel="nofollow">https://github.com/ilocn/stint</a>。欢迎提出意见和反馈。谢谢!
<a href="https://xcancel.com/id_aa_carmack/status/2032460578669691171" rel="nofollow">https://xcancel.com/id_aa_carmack/status/2032460578669691171</a>
嗨,HN,
我创建了Build4Me,以解决侨民资助的建筑项目中的信任问题。
许多家庭会寄钱回家建房,但没有可靠的方式来验证实际的施工进展。照片可能被重复使用,进度被夸大,或者在资金发放后项目被搁置。
Build4Me引入了基于里程碑的资金拨付,每个建筑里程碑必须在资金释放之前进行验证。
该系统通过以下方式验证进展:
- 地理标记照片捕捉
- GPS位置验证
- AI图像分析
- 重复图像检测
它运行在无服务器的AWS架构上,使用了Rekognition、Bedrock、Lambda、DynamoDB和Amazon Location Service等服务。
希望能收到关于架构和欺诈检测方法的反馈。