16作者: ivzak1 天前原帖
我们构建了一个开源代理,位于编码代理(如 Claude Code、OpenClaw 等)与大语言模型(LLM)之间,在工具输出进入上下文窗口之前进行压缩。 演示链接:<a href="https://www.youtube.com/watch?v=-vFZ6MPrwjw#t=9s" rel="nofollow">https://www.youtube.com/watch?v=-vFZ6MPrwjw#t=9s</a>。 动机:代理在管理上下文方面表现不佳。单个文件读取或 grep 操作可能会将成千上万的标记输入窗口,其中大部分是噪声。这不仅成本高昂,还会主动降低质量。长期上下文基准测试一致显示,随着上下文的增加,准确率急剧下降(OpenAI 的 GPT-5.4 评估在 32k 时为 97.2%,而在 1M 时降至 36.6% <a href="https://openai.com/index/introducing-gpt-5-4/" rel="nofollow">https://openai.com/index/introducing-gpt-5-4/</a>)。 我们的解决方案使用小型语言模型(SLMs):我们查看模型内部,并训练分类器以检测上下文中哪些部分携带最多信号。当工具返回输出时,我们根据工具调用的意图进行压缩——例如,如果代理调用 grep 寻找错误处理模式,SLM 会保留相关匹配项并去除其余部分。 如果模型后来需要我们移除的内容,它会调用 expand() 来获取原始输出。我们还在窗口容量达到 85% 时进行后台压缩,并懒加载工具描述,以便模型仅看到与当前步骤相关的工具。 该代理还提供支出上限、用于跟踪当前和过去会话的仪表板,以及当代理在等待您时的 Slack 提醒。 代码库在这里:<a href="https://github.com/Compresr-ai/Context-Gateway" rel="nofollow">https://github.com/Compresr-ai/Context-Gateway</a>。您可以尝试以下命令: <pre><code> curl -fsSL https://compresr.ai/api/install | sh </code></pre> 如果您对压缩模型、懒加载工具的工作原理或关于网关的其他任何内容有兴趣,欢迎深入交流。试试看,并告诉我们您的使用体验!
1作者: niceguy18271 天前原帖
我创建了 Stint,目的是让我能够给 Claude 设定目标后就不再干预。它会自动将任务拆分为并行工作,在独立的 git 分支中启动多个 Claude 工作者,并在完成后合并结果。可以把它想象成一种“发射后忘记”的开发方式,配有一个实时进度的网页仪表盘。 与其他框架不同的是,这里没有复杂的设置。只需排队目标,让代理们去工作。每个工作者都有自己的上下文窗口,并直接提交到 git。 请查看 <a href="https://github.com/ilocn/stint" rel="nofollow">https://github.com/ilocn/stint</a>。欢迎提出意见和反馈。谢谢!
2作者: eugenelotsu1 天前原帖
嗨,HN, 我创建了Build4Me,以解决侨民资助的建筑项目中的信任问题。 许多家庭会寄钱回家建房,但没有可靠的方式来验证实际的施工进展。照片可能被重复使用,进度被夸大,或者在资金发放后项目被搁置。 Build4Me引入了基于里程碑的资金拨付,每个建筑里程碑必须在资金释放之前进行验证。 该系统通过以下方式验证进展: - 地理标记照片捕捉 - GPS位置验证 - AI图像分析 - 重复图像检测 它运行在无服务器的AWS架构上,使用了Rekognition、Bedrock、Lambda、DynamoDB和Amazon Location Service等服务。 希望能收到关于架构和欺诈检测方法的反馈。
1作者: davidvartanian1 天前原帖
我曾经认为界面设计纯粹是一个技术问题。我专注于数据结构、模式验证和减少延迟,忽视了人因素。最近我意识到,即使API文档写得很好,我们的团队之间仍然不断受到阻碍。 问题不在于代码,而在于缺乏明确的期望。我不再把我们的API视为简单的代码定义,而是将其视为正式的组织条约。 当你把接口视为条约时,这会迫使思维方式发生转变。你不再只关注实现的简便性,而是开始优化稳定性和可预测性。一个清晰且不可变的接口使团队能够独立运作,因为他们不再需要不断地相互协商。他们只需信任这个合同。 这种转变迫使我们简化一切。我们剔除了那些需要持续跨团队协调的可有可无的功能。我们只专注于条约得以维持所绝对必要的内容。 下次我会以不同的方式进行。我会在编写任何实现代码之前,花更多时间来协商这些条约。
1作者: bmau51 天前原帖
嗨,HN - 我是一名非技术人员,想尝试为我的公司构建不同任务的代理。你们有哪些最佳实践可以分享,以避免在运行这些代理时出现安全问题?我会使用一台Mac Mini来将它们与我的主设备隔离,但我还想知道我可以做些什么。
60作者: merksittich1 天前原帖
<a href="https://archive.ph/rP4cb" rel="nofollow">https://archive.ph/rP4cb</a> (文本在底部)<p><a href="https://x.com/elonmusk/status/2032201568335044978" rel="nofollow">https://x.com/elonmusk/status/2032201568335044978</a>,<a href="https://xcancel.com/elonmusk/status/2032201568335044978" rel="nofollow">https://xcancel.com/elonmusk/status/2032201568335044978</a><p><a href="https://economictimes.indiatimes.com/tech/artificial-intelligence/musk-ousts-more-xai-founders-as-ai-coding-effort-falters-ft-reports/articleshow/129560405.cms" rel="nofollow">https://economictimes.indiatimes.com/tech/artificial-intelli...</a><p><a href="https://futurism.com/artificial-intelligence/elon-musk-screwed-up-xai-rebuilding" rel="nofollow">https://futurism.com/artificial-intelligence/elon-musk-screw...</a>