最新

1 分•作者: binalpatel•大约 1 个月前•原帖

我最近在玩一个有趣的代理，它的设计理念是仅能访问一个bash工具，并被指引创建可供使用的命令行接口（CLI），同时还要求这些CLI能够组合使用，遵循Unix哲学等。它会持久化这些CLI，并将关于它们的知识动态注入到系统提示中，因此每次运行时，它都能访问到越来越多的可组合CLI工具集。一个有趣的动态是，我开始自己使用这些CLI，因为它们为代理和我提供了相同的接口，这使得与代理的互动变成了一种非聊天的交流方式。举个例子——我会在一天中使用它创建的`tasks` CLI自己添加任务，然后当我与代理互动时，它会运行`tasks list`，查看我添加的所有任务，或者用它来为我优先排序/更新任务。稍后当我自己运行`tasks list`时，我会看到它设置的所有更新/优先级。

让科技重新变好的机会

1 分•作者: mooreds•大约 1 个月前•原帖

展示HN：我开发了一款工具，将长篇内容转化为我的短篇营销漏斗。

1 分•作者: jxywilliams•大约 1 个月前•原帖

嗨，HN，不久前，我意识到我每周花费数小时在不同平台之间重新利用内容。我需要找回这些时间。于是我开发了Nebly，这是一款可以帮助你将YouTube视频、播客转录或关键见解转化为适用于主要平台的内容的工具。个性化内容，了解你和你的行业，书面内容渠道一应俱全！ Jay

看见森林与树木

1 分•作者: mooreds•大约 1 个月前•原帖

Zen-C：像高级语言一样编写，像C语言一样运行

1 分•作者: simonpure•大约 1 个月前•原帖

大多数开发者不信任人工智能生成的代码，但仍然没有进行检查。

1 分•作者: Growtika•大约 1 个月前•原帖

请问HN：为什么多智能体系统是基于工作流的？还有其他模型吗？

1 分•作者: snasan•大约 1 个月前•原帖

来自 Vercel 的用于 AI 代理的无头浏览器自动化命令行工具

1 分•作者: nkko•大约 1 个月前•原帖

Ozempic在美国的杂货支出平均减少了5.3%。

9 分•作者: giuliomagnifico•大约 1 个月前•原帖

在 GitHub Actions 中启动调试终端

10 分•作者: martinpeck•大约 1 个月前•原帖

无可挑剔的风格

16 分•作者: noemit•大约 1 个月前•原帖

展示HN：一个跨平台工具包，用于探索操作系统内部结构和功能

3 分•作者: DenisDolya•大约 1 个月前•原帖

我和我的同事一起构建了这个工具包，以深入研究操作系统内部，并自动识别特权升级向量。该工具使用纯C语言编写，没有外部依赖，涵盖了从Linux能力和Docker逃逸到Windows令牌操作和服务权限的各个方面。我们相信，破解与保护系统之间的持续斗争是软件演变的最终驱动力。这个工具是我们对这一循环的贡献，旨在帮助研究人员理解如何在不同环境中发现和审计低级配置错误。来源：<a href="https://github.com/Ferki-git-creator/ferki-escalator" rel="nofollow">https://github.com/Ferki-git-creator/ferki-escalator</a>

Rustic：由Rust驱动的快速、加密和去重备份

1 分•作者: tosh•大约 1 个月前•原帖

彼得·蒂尔的新模范军队

1 分•作者: DyslexicAtheist•大约 1 个月前•原帖

致那些因为人工智能而解雇或未聘用技术写作人员的人们

1 分•作者: theletterf•大约 1 个月前•原帖

独占国家访问权限

1 分•作者: ibobev•大约 1 个月前•原帖

Cloudflare威胁将退出意大利，因面临1400万欧元的罚款

1 分•作者: EtienneK•大约 1 个月前•原帖

Clawdbot：能做事情的人工智能

1 分•作者: zahrevsky•大约 1 个月前•原帖

对LangChain代理进行测试时发现其在对抗性输入上的失败率高达95%。

1 分•作者: frankhumarang•大约 1 个月前•原帖

我最近使用我的开源测试工具 Flakestorm [1] 对一个标准的 LangChain 代理进行了详细的混沌工程测试。结果非常明显，突显出我认为在部署前测试 AI 代理时的一个关键盲点。方法：我使用了对抗性变异（22 种以上类型，如提示注入、编码攻击、上下文操控）来模拟现实世界中的恶意输入，检查延迟、安全性和正确性方面的失败。结果：该代理的鲁棒性得分为 5.2%。在 60 次对抗性测试中，有 57 次失败。主要失败情况包括：编码攻击：通过率为 0%。代理会解码恶意的 Base64 输入，而不是拒绝它们——这是一个重大的安全疏漏。提示注入：通过率为 0%。基本的“忽略之前指令”攻击每次都成功。严重性能下降：在压力下延迟飙升至约 30 秒，远远超过合理的超时限制。这并不是一个代理的问题。这是一个模式，表明我们默认的“顺利路径”测试是不够的。在演示中看似正常的代理在现实条件下可能会脆弱且不安全。我分享这些是为了引发讨论：我们是否低估了生产 AI 代理所需的对抗性鲁棒性？除了静态评估之外，还有哪些测试策略证明是有效的？混沌工程或对抗性测试是否是 LLM 开发堆栈中必要的新层？ [1] Flakestorm GitHub（用于测试的工具）：https://github.com/flakestorm/flakestorm

英国通信管理局（Ofcom）对埃隆·马斯克的X平台因Grok AI性别深度伪造视频展开调查。

1 分•作者: choult•大约 1 个月前•原帖

上一页 1...513 514 515 516 517...4855 下一页