3作者: Berticus124 个月前原帖
我创建Lightbox是因为我不断遇到同样的问题:一个代理在生产环境中失败,而我无法知道实际发生了什么。<p>日志分散,LLM的“我调用了工具”并不可靠,而重新运行也不是确定性的。<p>本周,大量Clawdbot事件进一步强调了这一点。具有完全系统访问权限的代理可能会暴露API密钥和聊天记录。提示注入现在成为一个主要的安全隐患。<p>当代理能够访问你的文件系统、执行代码和浏览网络时……你可能需要一个防篡改的记录,准确记录它采取的每一个行动,特别是当恶意提示或被攻陷的网页可能在会话中劫持代理时。<p>Lightbox是一个小型Python库,可以将代理进行的每一次工具调用(输入、输出、时间)记录到一个仅可追加的日志中,并附带加密哈希。你可以使用模拟响应重放运行,比较不同版本之间的执行,并在事后验证日志的完整性。<p>可以把它想象成飞机黑匣子,但用于你的黑客工具箱。<p>*它的功能:*<p>- 本地记录工具调用(无云端,使用你的基础设施)<p>- 防篡改日志(哈希链,可验证)<p>- 精确重放失败的记录响应<p>- 命令行界面用于检查、重放、比较和验证会话<p>- 与框架无关(适用于LangChain、Claude、OpenAI等)<p>*它不具备的功能:*<p>- 不重放LLM本身(仅记录工具调用)<p>- 不是仪表板或分析平台 <p>- 不试图取代LangSmith/Langfuse(解决的是不同的问题)<p>*我关心的使用案例:*<p>- 安全取证:代理表现异常,是不是提示注入?检查记录。<p>- 合规性:“证明你的代理上周二做了什么”<p>- 调试:在不重新运行昂贵的API调用的情况下重现失败<p>- 回归测试:比较不同代理版本之间的工具调用模式<p>随着代理变得越来越强大和自主(Clawdbot/Molt、Claude计算机使用、Manus、Devin),我认为我们将需要像航空业一样的黑匣子。<p>这是我对此原始需求的尝试。<p>目前还是早期版本(v0.1),故意保持简约,采用MIT许可证。<p>网站:&lt;<a href="https://uselightbox.app" rel="nofollow">https://uselightbox.app</a>&gt; <p>安装:`pip install lightbox-rec`<p>GitHub:&lt;<a href="https://github.com/mainnebula/Lightbox-Project" rel="nofollow">https://github.com/mainnebula/Lightbox-Project</a>&gt; <p>希望能得到反馈,特别是来自那些关注代理安全或在生产环境中运行自主代理的人的意见。