返回首页
最新
大家好,我们为 Renovate 构建了一个 Kubernetes 操作器,想和大家分享。这个操作器让你可以将 Renovate 作为原生 Kubernetes 资源进行管理,而不是将其作为定时任务运行或依赖托管服务。你可以声明性地定义你的代码库和配置,操作器会在你的集群内部处理调度和执行。没有外部依赖,没有 SaaS 锁定,也无需设置 webhook。整个项目是开源的,并且会一直保持开源——我们没有任何付费层或盈利计划,这只是我们自己需要的功能,觉得其他人也可能会需要。
如果你尝试了这个操作器,欢迎反馈或提出想法: [https://github.com/mogenius/renovate-operator](https://github.com/mogenius/renovate-operator)
众所周知,OpenClaw 的魅力在于它为我们提供了 Simon Willison 所提出的致命三重奏:访问私有数据、接触不可信内容以及进行外部通信。虽然这种做法风险极高,但它让我们看到了如果我们真的能够信任代理人,未来可能会是什么样子。
迄今为止,沙箱(或购买 Mac Mini)一直是降低风险的主要方法。虽然这是必要的,但沙箱也使代理人的实用性降低,因为它们最终限制了代理人的有用功能。
为了应对 OpenClaw,我们采取了一种互补的方法。我们不仅仅建立了一个边界,而是开发了一个开源的 OpenClaw 扩展,利用 Cedar(AWS 的政策作为代码语言)为代理人创建确定性的通道。
例如,我们创建了一项政策,禁止 OpenClaw 使用 rm 命令。我们并不是试图阻止大型语言模型(LLM)思考删除文件,或阻止它被注入提示以删除文件。相反,这个扩展会在执行之前捕获工具调用并阻止它。
我们提供了三个政策包(共 103 条规则):
- 基础包:针对 sudo、rm、凭证等的保护。
- OpenClaw 系统保护:保护 SOUL.md、身份文件等。
- OWASP Agentic 包:基于 OWASP 前十名的代理应用程序安全标准。
就像 OpenClaw 一样,这个项目仍处于实验阶段,尚未经过严格测试,因此请不要使用这个扩展来保护任何有价值或敏感的内容。我们希望这个项目能够作为一个强有力的概念验证,展示我们如何在风险环境中使用代理人,并依然能够信任它们遵循确定性的规则。
有关更多细节和代码库链接,请查看我们的文章。我们非常希望听到其他人对这种方法的看法,以及您认为哪些政策会有用。
人工智能是一个泡沫,投资者在毫无依据的情况下炒作,就像互联网泡沫破裂一样,人工智能的泡沫会很快破裂吗?我想不会,这种情况实在太糟糕了。
我在工作中一直在构建人工智能代理,最难的部分并不是提示或协调,而是在生产环境中回答“这个代理真的好吗?”这个问题。
追踪可以告诉你发生了什么。但我想知道发生得有多好。因此,我构建了Auditi——它捕获你的LLM(大语言模型)追踪和跨度,并使用LLM作为评判者加上人工注释工作流自动评估它们。
开始的两行代码:
```python
auditi.init(api_key="...")
auditi.instrument() # 对OpenAI/Anthropic/Gemini进行猴子补丁
```
每个API调用都会捕获完整的跨度树、令牌使用情况和成本。对你现有的LLM调用没有代码更改。
有趣的技术点:SDK在运行时对client.chat.completions.create()进行猴子补丁(类似于OpenTelemetry自动对HTTP库进行仪器化)。它用代理迭代器包装流式响应,这些迭代器会累积内容并从最后一块提取使用情况——因此即使是流式响应也能实现完整的成本跟踪,而用户无需做任何事情。
与简单追踪的不同之处在于:
- 内置评估器——7个管理的LLM评判者(幻觉、相关性、正确性、毒性等)会自动在每个追踪上运行
- 跨度级评估——对多步骤代理中的每一步进行评分,而不仅仅是最终输出
- 人工注释队列——当你需要真实数据,而不仅仅是感觉时
- 数据集导出——注释后的追踪可以导出为JSONL/CSV/Parquet格式,以便进行微调
使用docker compose up进行自托管。
我非常希望能收到任何在生产环境中运行AI代理或LLM的人的反馈。你们实际关注哪些指标?你们如何判断一个代理的响应是否“足够好”?
GitHub: [https://github.com/deduu/auditi](https://github.com/deduu/auditi)