返回首页
最新
大家好,我是来自 Laminar(lmnr.ai)的 Robert。
我们开发了 Index——一种新的最先进的开源浏览器代理。
它在 WebVoyager 上与 Claude 3.7(扩展思维)达到了 92% 的成绩。o1 被用作评判标准,我们也手动进行了双重检查。
其核心理念依然是老生常谈——在浏览器中运行简单的 JS 脚本以识别可交互元素——在浏览器窗口的截图上绘制边界框——然后将其输入到大型语言模型(LLM)中。
Index 优秀的原因有以下几点:
1. 我们基本上创建了浏览器代理的可观察性。我们修补了 Playwright,以在代理操作时记录整个浏览器会话,同时追踪所有代理步骤和 LLM 调用。然后我们在用户界面中同步所有信息,创造了无与伦比的调试体验。这使我们能够准确找出代理失败的地方,通过查看它在会话回放中“看到”的内容以及执行跟踪。
2. 我们的检测脚本简单但极其有效。它是通过反复试验精心制作的。我们还使用了计算机视觉(CV)和光学字符识别(OCR)。
3. 代理非常简单,实际上只是一个 while 循环。所有的强大功能来自于精心设计的提示和大量的评估运行。
Index 是一个简单的 Python 包,同时还提供了一个美观的命令行界面(CLI)。
安装命令:
```
pip install lmnr-index
playwright install chromium
index run
```
我们最近添加了 o4-mini、Gemini 2.5 Pro 和 Flash。Pro 版本是 *极其优秀且快速* 的。通过 CLI 尝试一下吧。
您还可以通过无服务器 API 使用 Index。 ([https://docs.lmnr.ai/index-agent/api/getting-started](https://docs.lmnr.ai/index-agent/api/getting-started))
或者通过聊天界面使用 - [https://lmnr.ai/chat](https://lmnr.ai/chat)。
要了解更多关于浏览器代理可观察性和评估的信息,请查看我们的开源代码库([https://github.com/lmnr-ai/lmnr](https://github.com/lmnr-ai/lmnr))和我们的文档([https://docs.lmnr.ai/tracing/browser-agent-observability](https://docs.lmnr.ai/tracing/browser-agent-observability))。
嗨,HN,我们是Francesco和Alessandro,c/ua的创始人(<a href="https://www.trycua.com">https://www.trycua.com</a>),这是一种类似Docker的容器运行时,允许AI代理在轻量级、隔离的虚拟机中驱动完整的操作系统。我们的整个框架是开源的(<a href="https://github.com/trycua/cua">https://github.com/trycua/cua</a>),今天我们非常高兴能够在Launch HN上与大家分享!<p>请查看我们的演示,看看它的实际应用:<a href="https://www.youtube.com/watch?v=Ee9qf-13gho" rel="nofollow">https://www.youtube.com/watch?v=Ee9qf-13gho</a>,还有更多示例,包括Tableau、Photoshop、CAD工作流程,请查看我们仓库中的演示:<a href="https://github.com/trycua/cua">https://github.com/trycua/cua</a>。<p>为了让计算机使用的AI代理真正有用,它们必须与您系统的本地应用程序进行交互。但完全访问您的主机设备是有风险的。如果代理的进程被攻击,或者大型语言模型(LLM)产生幻觉并泄露您的数据,那该怎么办?从实际的角度来看,您真的想放弃对整个机器的控制,仅仅为了让代理完成它的工作吗?<p>c/ua背后的理念很简单:让代理在用户系统的镜像中操作——隔离、安全且可丢弃——这样用户就可以轻松处理复杂任务,而不需要将整个系统交给代理。通过在虚拟化环境中运行,代理可以在不干扰您的工作流程或危及系统完整性的情况下完成其工作。<p>在探索这个想法的过程中,我发现了Apple的Virtualization.Framework,并意识到它在Apple Silicon上提供了快速且轻量级的虚拟化。这促使我们构建了一个高性能的虚拟化层,最终开发出一个计算机使用接口,使代理能够像人类一样与应用程序进行交互,而不需要接管整个系统。<p>在构建这个过程中,我们决定将虚拟化核心开源,作为一个独立的CLI工具,命名为Lume(在这里展示HN:<a href="https://news.ycombinator.com/item?id=42908061">https://news.ycombinator.com/item?id=42908061</a>)。c/ua建立在Lume之上,提供了一个完整的框架,用于在安全的macOS或Linux虚拟机中运行代理工作流,这样您的系统可以保持可用,而代理则在后台完成其任务。<p>使用Cua,您可以在虚拟环境中构建一个AI代理,以:- 导航并与任何应用程序的界面进行交互;- 读取屏幕内容并执行键盘/鼠标操作;- 在应用程序之间切换,并在需要时自我调试;- 在受控文件访问的安全沙箱中操作。所有这些都发生在一个完全隔离的环境中,确保您的主机系统、文件和敏感数据保持完全安全,同时您可以继续不间断地使用设备。<p>人们正在使用c/ua来:- 绕过基于CryptoJS的加密和反机器人措施,以可靠地与现代Web应用程序进行交互;- 自动化Tableau仪表板并通过Claude Desktop导出洞察;- 通过提示驱动Photoshop进行批量图像编辑;- 使用CAD副驾驶在Fusion 360中修改3D模型;- 从传统ERP应用程序中提取数据,而无需脆弱的屏幕抓取脚本。<p>我们目前正在开发多虚拟机编排,以支持并行代理工作流,Windows和Linux虚拟机支持,以及CUA代理的情节和长期记忆。<p>在开源方面,c/ua在MIT许可证下100%免费——您可以使用任何您喜欢的LLM在本地运行它。我们还在为希望实现零运维设置的团队准备一个托管编排服务(早期访问注册即将开放)。<p>我们很想听听您的意见。您希望自动化哪些桌面或传统应用程序?任何想法、反馈或关于脆弱AI自动化的恐怖故事都非常欢迎!
一个开源的实现,模仿了谷歌内部的IfThisThenThat(IFTTT)代码检查工具。通过在代码中声明文件依赖关系来强制执行原子性拉取请求:如果这个文件发生变化,那么那个文件或区域也必须发生变化。
---
披露:我在OpenAI工作。
自从离开谷歌以来,我一直在怀念IFTTT,尤其是在处理大型代码库时。这个周末我用Codex写了这个,所以请不要过于苛责。JavaScript似乎是合适的语言,但我几乎一无所知。幸运的是,这对像这样的简单项目来说不再是障碍。