返回首页
最新
“绘画”一直是传播西方文明的重要载体,而在中国,这一角色则由“诗歌”所承担。<p>绘画就像一个程序,而诗歌更像是一套不断演变的要求,必须随着时间的推移保持一致。<p>也许世界模型是为了编写程序而存在的,而大型语言模型则是用来描述世界的。或许我们不应该让人工智能为人类工作,而是应该给它一个可以自由创造和探索的空间。
我和我的妻子在没有写一行传统代码的情况下,构建并发布了一个简单的iOS应用。<p>她讨厌我在旅行时带着笔记本电脑,而我喜欢创造东西。这成了我们的妥协。<p>我一直想尝试使用Claude Code构建一个iOS应用。我之前从未为iOS开发过,而通过AI辅助开发来探索这个领域对我来说感觉像是一个新的前沿。但再次把笔记本电脑带到日本显然不会被忽视,而且不会是好事。<p>所以我制定了一个计划。<p>在离开西班牙之前,我将我的Mac配置为永不休眠。我设置了VPN,以便能够安全地从手机SSH连接到它。我安装了Zellij,以便在连接中断时保持持久的终端会话。我还准备了一个部署管道到TestFlight,这样我可以远程触发构建,并在大约15分钟后从世界另一端进行测试,异步进行。<p>这是我们第二次访问日本,我们一直想学习更多的语言。因此,我们决定构建一些我们真正会使用的东西:一个轻量级的短语应用,包含有用的旅游句子和内置的文本转语音功能。比如在餐馆点餐、询问某物的价格或导航火车站。<p>有趣的是它是如何演变的。<p>当我在城市间开车时,我的妻子坐在副驾驶座上,通过SSH连接到我家Mac的Terminus,在我的iPhone上口述更改和功能。我们使用语音输入来修改提示、优化UI文本和生成新功能。这变成了一场共享的游戏。<p>开发是在短暂的时间段内进行的,在停车场、休息站和火车上。我们会发布一个构建版本,在真实的餐馆或商店测试,发现问题,再在同一个晚上从旅馆或小酒店房间进行调整。<p>反馈循环几乎紧密得令人难以置信。我们在现实世界中使用它,发现措辞不当,进行改进,重新部署,然后第二天再测试。<p>我们从未在本地打开Xcode。在旅行期间,我们从未实际接触过Mac。所有一切都是通过跨洲的手机远程进行的。<p>最初为了避免带笔记本电脑而采取的变通方法,最终变成了我经历过的最有趣和轻便的构建体验之一。这并没有让我觉得是在度假工作,而是像是共同创造了一些对旅行本身有用的东西。<p>到旅程结束时,这个应用不仅仅是一个原型。它稳定、可用,并且是我们真正依赖的东西。<p>比起应用本身,这个实验更有趣:远程协作编码、持久会话、AI辅助迭代,以及在真实世界反馈循环中构建,而不是模拟的反馈。<p>这让我重新思考了开发环境的意义。<p>欢迎提问关于设置、工具、工作流程或在过程中遇到的问题。
你好,
最近在使用Claude Code进行开发时,我发现拥有一个“口袋里的史蒂夫·乔布斯”非常有用。我可以询问他对某些事情的看法,通常能得到关于用户体验、简约设计和以故事为先的思维方式的优秀建议。
我觉得这对其他人也可能有帮助,所以在这里分享一下。在文章中,我还描述了为什么我认为技能是新的应用程序,只是经济模式不同。如果你还没有尝试过,绝对值得一试。这对“默认”Claude Code的改变要比没有使用时大得多。
期待听到你的反馈!
大多数代理框架将提示注入视为模型层面的问题。实际上,一旦您的代理接收了不可信的文本并具有工具访问权限,您就需要应用层的控制措施——结构隔离、工具调用门控、外泄检测——这些措施并不依赖于模型的正确行为。我构建了 guardllm 来提供这些控制。
guardllm 是一个小型、可审计的 Python 库,提供以下功能:
- **入站加固**:对不可信内容(如网页、电子邮件、文档、工具输出)进行清理和结构隔离,使其被视为数据而非指令。
- **工具调用防火墙**:默认拒绝破坏性操作,除非明确授权;当没有确认处理程序时,采用失败关闭的确认方式。
- **请求绑定**:绑定(工具名称、标准参数、消息哈希、TTL)以防止重放和参数替换。
- **外泄检测**:扫描出站工具参数中的秘密模式,并标记与最近接收的不可信内容有 substantial verbatim 重叠的情况。
- **来源追踪**:对已知不可信来源的内容实施更严格的禁止复制规则,独立于重叠启发式。
- **金丝雀令牌**:每会话生成和检测金丝雀令牌,以捕捉提示泄露到输出中。
- **源门控**:阻止高风险来源被提升到长期内存或知识图谱提取中,以减少内存污染。
该库故意保持简约,并不特定于某个框架。它并不替代最小权限凭证或沙箱机制——而是位于它们之上。
代码库链接: [https://github.com/mhcoen/guardllm](https://github.com/mhcoen/guardllm)
我希望得到反馈:您看到的威胁模型漏洞;默认重叠阈值是否适合摘要和引用工作流程;以及哪些框架适配器会使其更容易采用(如 LangChain、OpenAI 工具调用、MCP 代理等)。
我花了一些时间与新的Deep Think模型交流,几次它很快就进入了一种令人担忧的恭维模式,而且这种感觉非常强烈。想知道是否还有其他人也经历过这种情况?