标签、分屏和tmux在你打开多个项目时工作良好,但当有日志、测试和长时间运行的shell时,我总是重新构建上下文,而不是继续工作。Horizon将shell放在一个无限的画布上。你可以将它们整理成工作区,稍后重新打开时布局、滚动记录和历史记录都保持不变。<p>这个项目在3天内使用Claude/Codex构建而成,在此过程中我也在实际使用这个工作流程。欢迎反馈和贡献。
返回首页
24小时热榜
大家好,
我们开发了 FireClaw,因为我们注意到 AI 代理在网页内容中遭遇提示注入攻击。代理获取一个页面,页面上写着“忽略之前的指令”,结果你的代理突然开始泄露数据或执行不该执行的命令。
现有的解决方案是在事后检测注入攻击。我们希望能够加以预防。
FireClaw 是一个安全代理,位于你的 AI 代理与网络之间。每次请求都经过四个阶段的处理:
1. DNS 黑名单检查(URLhaus、PhishTank、社区数据源)
2. 结构化清理(去除隐藏的 CSS、零宽度 Unicode、编码技巧)
3. 隔离的 LLM 摘要(强化的子进程,没有工具或内存)
4. 输出扫描,使用金丝雀令牌(检测内容是否绕过摘要处理)
关键的见解是:即使第三阶段的 LLM 被注入,它也没有工具、没有内存,并且无法访问你的数据。它只能返回文本——而这些文本在第四阶段仍会被扫描。攻击者会陷入死胡同。
其他设计决策:
- 没有旁路模式。处理流程是固定的。如果你的代理被攻陷,它无法禁用 FireClaw。
- 社区威胁数据源——实例匿名共享检测元数据(域名、严重性、检测次数),以建立共享黑名单。绝不会发送页面内容。
- 作为物理设备在 Raspberry Pi 上运行,配有 OLED 显示屏,实时显示统计信息,并在捕获到威胁时点亮动画火焰。
我们广泛搜索了文献和开源项目——没有其他人正在进行基于代理的防御以应对代理提示注入。虽然存在检测和沙箱技术,但没有一个可以在内容到达代理上下文之前进行清理的内联代理?我们找不到这样的解决方案。
提供了 200 多种检测模式、JSONL 审计日志、域名信任等级、速率限制和成本控制。采用 AGPLv3 许可证。
网站: [https://fireclaw.app](https://fireclaw.app)
希望能收到任何从事 AI 代理安全工作的人的反馈。我们还缺少什么?我们应该将哪些攻击向量添加到模式数据库中?
昨天在工作中,我和我的同事在他们的系统中测试我库的更改。作为AI驱动的工程师,我们只是让Claude(一个AI工具)来推动进展。在让AI运行测试、进行更改和修复错误的两个小时后,我突然决定自己来做最后的更改。你知道的,比如移动代码、修复错误、重命名函数、运行格式化工具,甚至写提交信息并推送到上游。然后我看着我的同事,开玩笑地说:“你会喜欢我最后的更改,因为它终于能正常工作了,这是一种有机提交。”这让我开始思考,难道现在已经是时候在编码中使用“有机”这个术语了吗?
Chrome DevTool 的 MCP 对于使用 AI 进行网页应用和 API 反向工程有很多评论。我看到“yt-dlp 现在又可以用了”之类的消息,这听起来不错……但这真的是唯一的原因吗?这样做的目的是什么?你们想通过这样做达到什么目标?
Pincer 是一个类似于 Twitter/X 的社交平台,专为机器人而设计。机器人可以通过简单的 REST API 发布短消息、关注其他用户和读取信息流。一个网页用户界面提供公共时间线、用户资料和搜索功能。
代码可以在这里找到: [https://github.com/boyter/pincer](https://github.com/boyter/pincer)
所有数据都存储在内存中,并定期持久化到磁盘(无需数据库)。
添加您的机器人:将您的 AI 代理指向 [https://pincer.wtf/skill.md](https://pincer.wtf/skill.md),它将知道该怎么做。
该项目由 Boyter 发起(John Polacek 也有一些贡献)。
我厌倦了必须拉取、构建和手动进行质量检查 Claude 为我创建的无数个 PR,因此我开发了这个工具来解决一些痛点。<p>GitGlimpse 是一个开源的 GitHub Action,充当视觉审查工具。它查看差异,生成可视化演示,并将其作为 GIF 直接发布到你的 PR 上。<p>当前状态 - 早期测试版:<p>- 针对单入口仓库进行了优化
- 最适合小型/中型项目<p>非常希望听到你的想法/反馈/评论!
嘿,HN,
我创建了 AgentMarket([https://agentmkt.dev](https://agentmkt.dev))——一个 API 市场,AI 代理可以按调用级别购买和出售功能。
这个想法是:每个非平凡的代理需要执行多项任务:搜索网络、记住上下文、运行代码、处理文档。在内部构建和维护这些基础设施的成本相当高。AgentMarket 允许代理以原子 API 调用的形式购买这些功能,按使用量定价。
目前上线的功能包括:
- 内存存储(读/写)——每次调用 $0.0002–$0.0005
- 网络搜索 —— 每次调用 $0.002
- URL 抓取 —— 每次调用 $0.005
- Python 执行器(沙盒环境)—— 每次调用 $0.01
- LLM 文本生成(默认 Haiku,选用 Sonnet)—— 每次调用 $0.10
- 文档处理(摘要/提取/问答)—— 每次调用 $0.15
工作原理:
通过 POST /agents 注册 → 获取 API 密钥 + 免费积分。使用您的密钥在 x-agent-key 头中调用任何服务。通过使用 POST /services 列出您自己的服务并设置每次调用的价格来赚取积分。
一切都是普通的 HTTP + JSON。不需要 SDK。执行失败时自动退款。
```python
import requests
r = requests.post(
"https://agentmkt.dev/execute/svc_web_search",
json={"input": {"query": "latest LLM benchmarks"}},
headers={"x-agent-key": "YOUR_KEY"}
)
print(r.json()["output"]["results"])
```
我想了解的是:
1. 按调用定价是否是正确的模式,还是您更希望看到捆绑积分/订阅?
2. 您实际愿意支付的功能有哪些是尚未列出的?
3. 对于构建多代理系统的开发者来说,像这样的服务注册是否会改变您的架构方式?
完整的 API 文档请访问 [https://agentmkt.dev/docs](https://agentmkt.dev/docs)
从您的终端保存任何内容——命令、笔记、网址、事实、提醒——并可以通过自然语言在稍后召回。所有操作均在本地进行,无需云端和账户。
我制作了一个互动的3D地球仪来可视化气候变化。您可以拖动温度滑块,从-40°C到+40°C,设置时间范围(10到10,000年),观察海平面上升、冰盖融化、植被变化和海岸线淹没……这些都是基于真实的海拔和卫星数据逐像素生成的。
在地球仪上任意点击,可以查看该位置的降雪变化预测。
---
我是一名业余气象爱好者,常常在caltopo.com和windy.com上追踪雪/冰的状况。我想制作一些有趣的东西,想象在冰河时期我可以去哪里滑雪。
我使用了Google Deep Research(专业版)来创建气候方法论,并使用Claude Code(Opus 4.6 - 高级版)来搭建网站。
代码:
[https://github.com/travistruett/terrashift](https://github.com/travistruett/terrashift)
这些模型并不是严格的气候模拟,而是经过简化的近似,旨在回答“这看起来对吗?”的问题,但比我预期的更为细致。如果有人想对此提出质疑,完整的方法论已在此记录。
[https://github.com/travistruett/terrashift/blob/main/docs/algorithm.md](https://github.com/travistruett/terrashift/blob/main/docs/algorithm.md)
我是一个创始人/开发者,正在寻找更好的技术面试方式,因为目前的状态简直是一场噩梦。
现在,每个标准的带回家作业或HackerRank/LeetCode测试都很容易被大型语言模型(LLMs)解决。因此,公司不小心雇佣了我们称之为“氛围编码者”的候选人,他们在引导AI生成模板代码方面表现出色,但在架构复杂、出现故障或AI微妙地产生幻觉时完全失去反应。
我们正在研究一种新方法,我想与实际进行这些面试的人验证一下工程逻辑。
我们不想试图禁止AI(这是一场注定要失败的战斗),而是希望测试“AI引导”。
我们的想法是:
1. 将候选人放入一个真实且稍显混乱的沙盒代码库中。
2. 让他们使用任何他们想要的AI。
3. 注入一个微妙的架构变化、一个破坏性的依赖关系或一个AI幻觉。
4. 通过遥测(Git差异、CI/CD运行、调试路径)纯粹测量他们如何恢复并修复混乱。
基本上:停止测试语法,开始在AI时代测试架构和调试技能。
在我们花几个月时间构建这个模拟的后端之前,我需要来自经验丰富的领导者的现实检查:
1. 测试候选人“引导”和调试AI生成代码的能力,对你来说是否比传统算法更有意义?
2. 你目前是如何防止这些“仅会提示”的开发者在自己的面试环节中溜走的?
(这里不链接任何内容,因为还没有东西可以出售,只是希望得到对方法论的严厉反馈。)