返回首页

24小时热榜

3作者: petersunde大约 4 小时前原帖
标签、分屏和tmux在你打开多个项目时工作良好,但当有日志、测试和长时间运行的shell时,我总是重新构建上下文,而不是继续工作。Horizon将shell放在一个无限的画布上。你可以将它们整理成工作区,稍后重新打开时布局、滚动记录和历史记录都保持不变。<p>这个项目在3天内使用Claude/Codex构建而成,在此过程中我也在实际使用这个工作流程。欢迎反馈和贡献。
3作者: raiph_ai大约 6 小时前原帖
大家好, 我们开发了 FireClaw,因为我们注意到 AI 代理在网页内容中遭遇提示注入攻击。代理获取一个页面,页面上写着“忽略之前的指令”,结果你的代理突然开始泄露数据或执行不该执行的命令。 现有的解决方案是在事后检测注入攻击。我们希望能够加以预防。 FireClaw 是一个安全代理,位于你的 AI 代理与网络之间。每次请求都经过四个阶段的处理: 1. DNS 黑名单检查(URLhaus、PhishTank、社区数据源) 2. 结构化清理(去除隐藏的 CSS、零宽度 Unicode、编码技巧) 3. 隔离的 LLM 摘要(强化的子进程,没有工具或内存) 4. 输出扫描,使用金丝雀令牌(检测内容是否绕过摘要处理) 关键的见解是:即使第三阶段的 LLM 被注入,它也没有工具、没有内存,并且无法访问你的数据。它只能返回文本——而这些文本在第四阶段仍会被扫描。攻击者会陷入死胡同。 其他设计决策: - 没有旁路模式。处理流程是固定的。如果你的代理被攻陷,它无法禁用 FireClaw。 - 社区威胁数据源——实例匿名共享检测元数据(域名、严重性、检测次数),以建立共享黑名单。绝不会发送页面内容。 - 作为物理设备在 Raspberry Pi 上运行,配有 OLED 显示屏,实时显示统计信息,并在捕获到威胁时点亮动画火焰。 我们广泛搜索了文献和开源项目——没有其他人正在进行基于代理的防御以应对代理提示注入。虽然存在检测和沙箱技术,但没有一个可以在内容到达代理上下文之前进行清理的内联代理?我们找不到这样的解决方案。 提供了 200 多种检测模式、JSONL 审计日志、域名信任等级、速率限制和成本控制。采用 AGPLv3 许可证。 网站: [https://fireclaw.app](https://fireclaw.app) 希望能收到任何从事 AI 代理安全工作的人的反馈。我们还缺少什么?我们应该将哪些攻击向量添加到模式数据库中?
3作者: lexi-k大约 15 小时前原帖
昨天在工作中,我和我的同事在他们的系统中测试我库的更改。作为AI驱动的工程师,我们只是让Claude(一个AI工具)来推动进展。在让AI运行测试、进行更改和修复错误的两个小时后,我突然决定自己来做最后的更改。你知道的,比如移动代码、修复错误、重命名函数、运行格式化工具,甚至写提交信息并推送到上游。然后我看着我的同事,开玩笑地说:“你会喜欢我最后的更改,因为它终于能正常工作了,这是一种有机提交。”这让我开始思考,难道现在已经是时候在编码中使用“有机”这个术语了吗?
3作者: keepamovin大约 18 小时前原帖
Chrome DevTool 的 MCP 对于使用 AI 进行网页应用和 API 反向工程有很多评论。我看到“yt-dlp 现在又可以用了”之类的消息,这听起来不错……但这真的是唯一的原因吗?这样做的目的是什么?你们想通过这样做达到什么目标?
3作者: johnpolacek大约 23 小时前原帖
Pincer 是一个类似于 Twitter/X 的社交平台,专为机器人而设计。机器人可以通过简单的 REST API 发布短消息、关注其他用户和读取信息流。一个网页用户界面提供公共时间线、用户资料和搜索功能。 代码可以在这里找到: [https://github.com/boyter/pincer](https://github.com/boyter/pincer) 所有数据都存储在内存中,并定期持久化到磁盘(无需数据库)。 添加您的机器人:将您的 AI 代理指向 [https://pincer.wtf/skill.md](https://pincer.wtf/skill.md),它将知道该怎么做。 该项目由 Boyter 发起(John Polacek 也有一些贡献)。
2作者: fatach24 分钟前原帖
我厌倦了必须拉取、构建和手动进行质量检查 Claude 为我创建的无数个 PR,因此我开发了这个工具来解决一些痛点。<p>GitGlimpse 是一个开源的 GitHub Action,充当视觉审查工具。它查看差异,生成可视化演示,并将其作为 GIF 直接发布到你的 PR 上。<p>当前状态 - 早期测试版:<p>- 针对单入口仓库进行了优化 - 最适合小型/中型项目<p>非常希望听到你的想法/反馈/评论!
2作者: AgentMarket大约 1 小时前原帖
嘿,HN, 我创建了 AgentMarket([https://agentmkt.dev](https://agentmkt.dev))——一个 API 市场,AI 代理可以按调用级别购买和出售功能。 这个想法是:每个非平凡的代理需要执行多项任务:搜索网络、记住上下文、运行代码、处理文档。在内部构建和维护这些基础设施的成本相当高。AgentMarket 允许代理以原子 API 调用的形式购买这些功能,按使用量定价。 目前上线的功能包括: - 内存存储(读/写)——每次调用 $0.0002–$0.0005 - 网络搜索 —— 每次调用 $0.002 - URL 抓取 —— 每次调用 $0.005 - Python 执行器(沙盒环境)—— 每次调用 $0.01 - LLM 文本生成(默认 Haiku,选用 Sonnet)—— 每次调用 $0.10 - 文档处理(摘要/提取/问答)—— 每次调用 $0.15 工作原理: 通过 POST /agents 注册 → 获取 API 密钥 + 免费积分。使用您的密钥在 x-agent-key 头中调用任何服务。通过使用 POST /services 列出您自己的服务并设置每次调用的价格来赚取积分。 一切都是普通的 HTTP + JSON。不需要 SDK。执行失败时自动退款。 ```python import requests r = requests.post( "https://agentmkt.dev/execute/svc_web_search", json={"input": {"query": "latest LLM benchmarks"}}, headers={"x-agent-key": "YOUR_KEY"} ) print(r.json()["output"]["results"]) ``` 我想了解的是: 1. 按调用定价是否是正确的模式,还是您更希望看到捆绑积分/订阅? 2. 您实际愿意支付的功能有哪些是尚未列出的? 3. 对于构建多代理系统的开发者来说,像这样的服务注册是否会改变您的架构方式? 完整的 API 文档请访问 [https://agentmkt.dev/docs](https://agentmkt.dev/docs)
2作者: ttruett大约 3 小时前原帖
我制作了一个互动的3D地球仪来可视化气候变化。您可以拖动温度滑块,从-40°C到+40°C,设置时间范围(10到10,000年),观察海平面上升、冰盖融化、植被变化和海岸线淹没……这些都是基于真实的海拔和卫星数据逐像素生成的。 在地球仪上任意点击,可以查看该位置的降雪变化预测。 --- 我是一名业余气象爱好者,常常在caltopo.com和windy.com上追踪雪/冰的状况。我想制作一些有趣的东西,想象在冰河时期我可以去哪里滑雪。 我使用了Google Deep Research(专业版)来创建气候方法论,并使用Claude Code(Opus 4.6 - 高级版)来搭建网站。 代码: [https://github.com/travistruett/terrashift](https://github.com/travistruett/terrashift) 这些模型并不是严格的气候模拟,而是经过简化的近似,旨在回答“这看起来对吗?”的问题,但比我预期的更为细致。如果有人想对此提出质疑,完整的方法论已在此记录。 [https://github.com/travistruett/terrashift/blob/main/docs/algorithm.md](https://github.com/travistruett/terrashift/blob/main/docs/algorithm.md)
2作者: jonjou大约 6 小时前原帖
我是一个创始人/开发者,正在寻找更好的技术面试方式,因为目前的状态简直是一场噩梦。 现在,每个标准的带回家作业或HackerRank/LeetCode测试都很容易被大型语言模型(LLMs)解决。因此,公司不小心雇佣了我们称之为“氛围编码者”的候选人,他们在引导AI生成模板代码方面表现出色,但在架构复杂、出现故障或AI微妙地产生幻觉时完全失去反应。 我们正在研究一种新方法,我想与实际进行这些面试的人验证一下工程逻辑。 我们不想试图禁止AI(这是一场注定要失败的战斗),而是希望测试“AI引导”。 我们的想法是: 1. 将候选人放入一个真实且稍显混乱的沙盒代码库中。 2. 让他们使用任何他们想要的AI。 3. 注入一个微妙的架构变化、一个破坏性的依赖关系或一个AI幻觉。 4. 通过遥测(Git差异、CI/CD运行、调试路径)纯粹测量他们如何恢复并修复混乱。 基本上:停止测试语法,开始在AI时代测试架构和调试技能。 在我们花几个月时间构建这个模拟的后端之前,我需要来自经验丰富的领导者的现实检查: 1. 测试候选人“引导”和调试AI生成代码的能力,对你来说是否比传统算法更有意义? 2. 你目前是如何防止这些“仅会提示”的开发者在自己的面试环节中溜走的? (这里不链接任何内容,因为还没有东西可以出售,只是希望得到对方法论的严厉反馈。)