1作者: binalpatel大约 1 个月前原帖
我最近在玩一个有趣的代理,它的设计理念是仅能访问一个bash工具,并被指引创建可供使用的命令行接口(CLI),同时还要求这些CLI能够组合使用,遵循Unix哲学等。它会持久化这些CLI,并将关于它们的知识动态注入到系统提示中,因此每次运行时,它都能访问到越来越多的可组合CLI工具集。 一个有趣的动态是,我开始自己使用这些CLI,因为它们为代理和我提供了相同的接口,这使得与代理的互动变成了一种非聊天的交流方式。 举个例子——我会在一天中使用它创建的`tasks` CLI自己添加任务,然后当我与代理互动时,它会运行`tasks list`,查看我添加的所有任务,或者用它来为我优先排序/更新任务。稍后当我自己运行`tasks list`时,我会看到它设置的所有更新/优先级。
1作者: jxywilliams大约 1 个月前原帖
嗨,HN, 不久前,我意识到我每周花费数小时在不同平台之间重新利用内容。我需要找回这些时间。 于是我开发了Nebly,这是一款可以帮助你将YouTube视频、播客转录或关键见解转化为适用于主要平台的内容的工具。 个性化内容,了解你和你的行业,书面内容渠道一应俱全! Jay
3作者: DenisDolya大约 1 个月前原帖
我和我的同事一起构建了这个工具包,以深入研究操作系统内部,并自动识别特权升级向量。该工具使用纯C语言编写,没有外部依赖,涵盖了从Linux能力和Docker逃逸到Windows令牌操作和服务权限的各个方面。我们相信,破解与保护系统之间的持续斗争是软件演变的最终驱动力。这个工具是我们对这一循环的贡献,旨在帮助研究人员理解如何在不同环境中发现和审计低级配置错误。 来源:<a href="https:&#x2F;&#x2F;github.com&#x2F;Ferki-git-creator&#x2F;ferki-escalator" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;Ferki-git-creator&#x2F;ferki-escalator</a>
1作者: frankhumarang大约 1 个月前原帖
我最近使用我的开源测试工具 Flakestorm [1] 对一个标准的 LangChain 代理进行了详细的混沌工程测试。结果非常明显,突显出我认为在部署前测试 AI 代理时的一个关键盲点。 方法:我使用了对抗性变异(22 种以上类型,如提示注入、编码攻击、上下文操控)来模拟现实世界中的恶意输入,检查延迟、安全性和正确性方面的失败。 结果:该代理的鲁棒性得分为 5.2%。在 60 次对抗性测试中,有 57 次失败。主要失败情况包括: 编码攻击:通过率为 0%。代理会解码恶意的 Base64 输入,而不是拒绝它们——这是一个重大的安全疏漏。 提示注入:通过率为 0%。基本的“忽略之前指令”攻击每次都成功。 严重性能下降:在压力下延迟飙升至约 30 秒,远远超过合理的超时限制。 这并不是一个代理的问题。这是一个模式,表明我们默认的“顺利路径”测试是不够的。在演示中看似正常的代理在现实条件下可能会脆弱且不安全。 我分享这些是为了引发讨论: 我们是否低估了生产 AI 代理所需的对抗性鲁棒性? 除了静态评估之外,还有哪些测试策略证明是有效的? 混沌工程或对抗性测试是否是 LLM 开发堆栈中必要的新层? [1] Flakestorm GitHub(用于测试的工具):https://github.com/flakestorm/flakestorm