1作者: David-Brug-Ai19 天前原帖
我在过去的18个月里一直在尝试各种AI工具,有时每天花费几个小时,最近发布了三个开源包,这些包位于AI代理与它们调用的工具之间。 我有一个来自夏季项目的Raspberry Pi 5,它成为了我第一个OpenClaw的安装。一旦它运行起来,我就开始思考一个问题:在你不看着代理的时候,谁来监视代理? UNWIND的想法来源于苹果的Time Machine。如果出现问题,你应该能够看到发生了什么,并将其回滚。CRAFT,一个防篡改的审计链,源于我之前几个月在进行的一个独立的加密项目。将这两者结合起来,形成一个确定性的执行管道,是我想要构建的设计。 UNWIND作为一个MCP标准输入输出代理工作。它包装任何MCP服务器,拦截每一个工具调用,而代理对此毫不知情。如果你正在使用Claude Desktop、Cursor、Windsurf或VS Code Copilot与MCP服务器,这就是主要的集成路径,也是目前最可靠的方式。OpenClaw的支持存在,但适配器问题尚未解决,因此今天使用MCP标准输入输出路径是最佳选择。 Claude Code负责规划。Pi上的Codex是构建者。我选择Codex是因为OpenAI允许专业用户通过OAuth登录OpenClaw,而无需API费用。我给Codex提供了一个soul.md(OpenClaw代理使用的指令文件),定义了它作为安全分析师的角色:优先考虑证据,标记未知,绝不假设,并为每一个发现生成结构化的评估,说明发生了什么,为什么重要……在这种框架下,它在Claude Code生成的每个计划中始终能找到5到6个真实的结构性问题。 UNWIND是一个确定性的安全代理,位于代理与每个工具调用之间。每个调用都会运行15个检查。执行路径中没有大型语言模型,只有规则和模式匹配。每个操作都记录在一个防篡改的哈希链中。文件更改会快照以便回滚。 现在有三个包,全部在PyPI上: *craft-auth*:防篡改命令认证。零依赖,纯Python标准库,1,605行。10秒内试用:`pip install craft-auth && craft-auth demo`。输出不言自明。 *ghostmode*:MCP服务器的干运行代理。查看你的代理在不执行任何操作的情况下会做什么。写入被拦截,读取直接通过,什么都不改变。`pip install ghostmode && ghostmode -- npx @modelcontextprotocol/server-filesystem ~/Documents`(需要Node.js用于上游MCP服务器,Ghost Mode本身是纯Python)。 *unwind-mcp*:完整的执行引擎。`pip install unwind-mcp && unwind serve -- npx @modelcontextprotocol/server-filesystem ~/Documents`,然后将Claude Desktop或Cursor指向它。每个工具调用在终端中显示允许/阻止的决策。通过`unwind dashboard`在localhost:9001查看仪表板(首先启动侧车,使用`unwind sidecar serve`)。 安装后,Codex立即被自己的仪表板标记为“污染”。在设置过程中,它一直在获取网页,然后试图执行一个命令。它帮助构建的安全堆栈在其第一次实际操作中捕捉到了这一点。 还有一些粗糙的地方。 需要Python 3.10及以上版本。Mac自带3.9.6,导入会崩溃。Homebrew的Python 3.11及以上版本运行良好。Windows尚未测试。原则上是纯Python和跨平台的,但没有人验证过。 污染系统工作正常,但对于无人值守的使用来说过于激进。正常的代理工作流会立即触发污染,这会阻止执行,直到人类批准。当你坐在那里时,这没问题。但当代理独自运行时,它实际上是被冻结的。“外部内容可能携带提示注入”和“代理的正常工作涉及外部内容”之间的紧张关系是一个我尚未干净解决的真正设计问题。 欢迎首批真实的人类测试者。 UNWIND和Ghost Mode是AGPL-3.0许可证。craft-auth是独立的,没有AGPL依赖,可以单独授权。 github.com/unwind-mcp
1作者: shubhamoriginx19 天前原帖
嗨,HN, 我目前正在构建Aaptics,这是一款旨在帮助创始人撰写内容的工具。最大的工程挑战并不是基础设施,而是让底层模型停止听起来像个企业机器人(例如,避免使用“深入探讨”、“证明”或“在当今快节奏的环境中”等词汇)。 目前,我的工作流程使用了一种自定义的RAG设置,该设置结合了用户过去的写作,配合大量的负提示和少量示例。然而,模型仍然偶尔会滑入那种可识别的“ChatGPT语气”。 对于那些正在构建AI应用程序的朋友们,你们是如何定量评估输出的“人性”的? 你们是否使用LLM作为评判框架? 依赖于特定的温度/ top_p调整? 还是对某些n-gram进行硬编码惩罚? 我希望在四月中旬的发布之前最终确定这个工作流程,欢迎那些在生产中解决过这个问题的朋友分享见解。aaptics.in/waitlist
2作者: locusofself19 天前原帖
嗨,HN, 这是一个小型的 Python 应用程序,带有可选的网页用户界面。它旨在本地运行,可以通过 Docker 运行(但 cookie 自动检测功能将无法使用)。 该应用允许您下载单个 Substack 内容,可以选择全部或部分下载,并将输出保存为 epub 文件,方便转移到 Kindle 或其他阅读设备上。 坦白说,这是一个“随意编码”的应用,使用 Claude Code 和几小时的迭代完成,但我发现它对我自己非常有用。 它支持免费和付费内容(如果您是该创作者的付费订阅者)。 您可以按受欢迎程度、新est first(最新优先)或 oldest first(最旧优先)对 epub 中的条目进行排序,并且可以限制条目的数量,如果您不想下载所有内容。 您可以手动提供您的 substack.sid cookie,也可以让大多数浏览器/操作系统自动检测。