2作者: saafree大约 2 个月前原帖
如果人工智能代理成为劳动力,企业的操作系统是什么? 在公司内部,开始发生一些有趣的事情。人工智能代理不再仅仅是回答问题。它们分析数据、触发工作流程、调用API、协调工具,有时甚至在系统之间发起行动。换句话说,它们开始表现得像一种新型的劳动力。 然而,企业仍然使用为不同环境设计的工具来管理它们。传统的企业软件假设了一个简单的模型:人类决策,软件执行。而人工智能代理模糊了这一界限。它们可以发起工作、协调系统,并在多个平台上操作。当规模扩大时,企业开始类似于一个分布式计算环境。而分布式系统通常需要一个操作系统。但组织实际上并没有一个。 它们拥有应用程序、自动化工具、人工智能框架和仪表板——但没有真正的系统层来协调整个组织的治理、决策、执行和学习。这就引出了一个有趣的问题。如果人工智能代理继续作为运营劳动力的一部分扩展,那么企业的*操作系统*是什么? 一种思考方式是一个新类别:*企业演进操作系统(EEOS)*。这是一个协调以下内容的系统层: - 治理 - 决策 - 执行 - 演进 这样,组织本身就成为一个不断改进的系统。我们正在通过一个开放架构项目探索这个想法: https://github.com/Saafree-Inc/saafree-docs 我很好奇其他人对此的看法。如果人工智能代理成为劳动力的一部分,企业的操作系统实际上会是什么样子?
1作者: jaredstivala大约 2 个月前原帖
嗨,HN,我创建了Friendware,因为我希望在我的Mac上实现无处不在的自动完成功能,而不仅仅是在代码编辑器中。 在任何文本框中,它都可以草拟回复、重写文本,并为AI工具撰写提示;它利用屏幕上的上下文,根据你正在做的事情进行调整。 我的目标是让它感觉像本地应用,不需要改变工作流程,因此它通过驻留在刘海区域,使其在各个应用中保持可访问性。 目前我正在致力于改进语音学习和记忆系统,欢迎大家提供反馈,告诉我应该优先考虑哪些方面!
3作者: rohansx大约 2 个月前原帖
嘿,HN, 当你将真实文档或客户数据发送给大型语言模型(LLMs)时,你会面临一个痛苦的权衡: - 发送原始文本 → 隐私灾难 - 使用[REDACTED]进行编辑 → 嵌入破坏,RAG检索失败,多轮对话变得无用,模型通常拒绝回答关于被编辑实体的问题。 实际的解决方案是保持一致的伪匿名化:同一个真实实体始终映射到同一个标记(例如,“塔塔汽车” → ORG_7)。这保留了向量搜索和推理的语义意义,然后你可以重新填充响应,以便提供者永远看不到实际的名称、数字或地址。 我厌倦了与Presidio和自定义粘合剂(截断的RAG块、印度语言的变格、拼写错误/兄弟的模糊合并、LLM混淆、百分比破坏数学)进行斗争。因此,我构建了Cloakpipe,一个小型的单二进制Rust代理。 它的功能包括: - 多层检测(正则表达式 + 财务规则 + 可选的GLiNER2 ONNX命名实体识别 + 自定义TOML) - 在AES-256-GCM加密库中进行一致的可逆映射(内存被清零) - 智能重新填充,能够处理截断块,如[[ADDRESS:A00 - 内置的模糊解析,用于拼写错误和相似名称 - 数值推理模式,使得百分比在计算中仍然有效 完全开源(MIT),零Python依赖,延迟小于5毫秒。 代码库: [https://github.com/rohansx/cloakpipe](https://github.com/rohansx/cloakpipe) 演示和快速入门: [https://app.cloakpipe.co/demo](https://app.cloakpipe.co/demo) 希望能收到任何审计过其RAG数据流或在编辑与语义问题上苦苦挣扎的人的反馈——特别是在法律、金融科技或非英语工作流程中。 你们采用了什么方法?
15作者: keks0r大约 2 个月前原帖
我们创建 rudel.ai 是因为意识到自己对 Claude Code 会话没有任何可见性。我们每天都在使用它,但对哪些会话有效率、为什么有些会话被放弃,或者我们是否真的在不断进步毫无头绪。 因此,我们为其构建了一个分析层。在连接了我们自己的会话后,我们最终得到了一个包含 1,573 个真实 Claude Code 会话、超过 1500 万个标记和超过 27 万次交互的数据集。 我们发现的一些令人惊讶的事情包括: - 技能仅在 4% 的会话中被使用 - 26% 的会话被放弃,其中大多数在前 60 秒内 - 会话成功率因任务类型而异(文档类任务得分最高,重构类任务得分最低) - 错误级联模式在前 2 分钟内出现,并能合理准确地预测放弃情况 - 目前没有有意义的基准来评估“良好”的代理会话表现,我们正在构建一个。 该工具是免费的,完全开源,欢迎就数据或我们的构建过程提问。
14作者: aminerj大约 2 个月前原帖
我是作者。代码库在这里:<a href="https://github.com/aminrj-labs/mcp-attack-labs/tree/main/labs/04-rag-security" rel="nofollow">https://github.com/aminrj-labs/mcp-attack-labs/tree/main/labs/04-rag-security</a> 该实验室完全基于 LM Studio + Qwen2.5-7B-Instruct (Q4_K_M) + ChromaDB 运行——无需云 API,无需 GPU,也无需 API 密钥。 从零开始到看到攻击成功:git clone,make setup,make attack1。大约需要 10 分钟。 有两件事值得提前说明: - 95% 的成功率是针对一个包含 5 个文档的语料库(对攻击者来说是最佳情况)。在成熟的文献集合中,您需要相应更多的被污染文档才能主导检索——但机制是相同的。 - 在数据摄取阶段嵌入异常检测是最大的惊喜:作为独立控制的成功率从 95% 降至 20%,超越了所有三种生成阶段防御的组合。它运行在您的管道已经生成的嵌入上——无需额外的模型。 所有五个层级结合后:10% 的残余。 欢迎讨论方法论、PoisonedRAG 比较或任何看起来不对劲的地方。
2作者: larsmosr大约 2 个月前原帖
嘿,HN——我是一名独立开发者。之所以开发这个,是因为我厌倦了AI爬虫以纯文本的方式读取我的HTML,而robots.txt却无能为力。 核心技巧:使用种子对HTML中的字符和单词进行混排,然后利用CSS(flexbox顺序、方向:rtl、unicode-bidi)将它们在视觉上重新排列。浏览器渲染得非常完美,但textContent返回的是垃圾数据。 除此之外:还包括电子邮件/电话的RTL混淆,使用诱饵字符,AI蜜罐向大型语言模型(LLM)爬虫注入提示指令,剪贴板拦截,基于画布的图像渲染(DOM中没有img src),robots.txt阻止30多个AI爬虫,以及法医取证线索以证明内容盗窃。 它无法阻止的包括:执行CSS的无头浏览器、截图+光学字符识别(OCR),或者任何决心足够强的人进行逆向工程。我把这些放在了README的威胁模型中,因为我宁愿自己说出来,也不想让别人替我说。现实的目标是提高爬取的成本——大多数爬虫使用简单的HTTP请求,而我们让这些请求变得无效。 使用TypeScript、Bun、tsup、React 18+。162个测试。MIT许可证。没有任何销售——SDK是免费的,且功能完整。 理解这个的最佳方式:在网站上打开开发者工具并检查文本。 GitHub: [https://github.com/obscrd/obscrd](https://github.com/obscrd/obscrd)