2作者: frabonacci7 个月前原帖
嗨,HN,我们是Francesco和Alessandro,c/ua的创始人(<a href="https://www.trycua.com">https://www.trycua.com</a>),这是一种类似Docker的容器运行时,允许AI代理在轻量级、隔离的虚拟机中驱动完整的操作系统。我们的整个框架是开源的(<a href="https://github.com/trycua/cua">https://github.com/trycua/cua</a>),今天我们非常高兴能够在Launch HN上与大家分享!<p>请查看我们的演示,看看它的实际应用:<a href="https://www.youtube.com/watch?v=Ee9qf-13gho" rel="nofollow">https://www.youtube.com/watch?v=Ee9qf-13gho</a>,还有更多示例,包括Tableau、Photoshop、CAD工作流程,请查看我们仓库中的演示:<a href="https://github.com/trycua/cua">https://github.com/trycua/cua</a>。<p>为了让计算机使用的AI代理真正有用,它们必须与您系统的本地应用程序进行交互。但完全访问您的主机设备是有风险的。如果代理的进程被攻击,或者大型语言模型(LLM)产生幻觉并泄露您的数据,那该怎么办?从实际的角度来看,您真的想放弃对整个机器的控制,仅仅为了让代理完成它的工作吗?<p>c/ua背后的理念很简单:让代理在用户系统的镜像中操作——隔离、安全且可丢弃——这样用户就可以轻松处理复杂任务,而不需要将整个系统交给代理。通过在虚拟化环境中运行,代理可以在不干扰您的工作流程或危及系统完整性的情况下完成其工作。<p>在探索这个想法的过程中,我发现了Apple的Virtualization.Framework,并意识到它在Apple Silicon上提供了快速且轻量级的虚拟化。这促使我们构建了一个高性能的虚拟化层,最终开发出一个计算机使用接口,使代理能够像人类一样与应用程序进行交互,而不需要接管整个系统。<p>在构建这个过程中,我们决定将虚拟化核心开源,作为一个独立的CLI工具,命名为Lume(在这里展示HN:<a href="https://news.ycombinator.com/item?id=42908061">https://news.ycombinator.com/item?id=42908061</a>)。c/ua建立在Lume之上,提供了一个完整的框架,用于在安全的macOS或Linux虚拟机中运行代理工作流,这样您的系统可以保持可用,而代理则在后台完成其任务。<p>使用Cua,您可以在虚拟环境中构建一个AI代理,以:- 导航并与任何应用程序的界面进行交互;- 读取屏幕内容并执行键盘/鼠标操作;- 在应用程序之间切换,并在需要时自我调试;- 在受控文件访问的安全沙箱中操作。所有这些都发生在一个完全隔离的环境中,确保您的主机系统、文件和敏感数据保持完全安全,同时您可以继续不间断地使用设备。<p>人们正在使用c/ua来:- 绕过基于CryptoJS的加密和反机器人措施,以可靠地与现代Web应用程序进行交互;- 自动化Tableau仪表板并通过Claude Desktop导出洞察;- 通过提示驱动Photoshop进行批量图像编辑;- 使用CAD副驾驶在Fusion 360中修改3D模型;- 从传统ERP应用程序中提取数据,而无需脆弱的屏幕抓取脚本。<p>我们目前正在开发多虚拟机编排,以支持并行代理工作流,Windows和Linux虚拟机支持,以及CUA代理的情节和长期记忆。<p>在开源方面,c/ua在MIT许可证下100%免费——您可以使用任何您喜欢的LLM在本地运行它。我们还在为希望实现零运维设置的团队准备一个托管编排服务(早期访问注册即将开放)。<p>我们很想听听您的意见。您希望自动化哪些桌面或传统应用程序?任何想法、反馈或关于脆弱AI自动化的恐怖故事都非常欢迎!
1作者: yablak7 个月前原帖
一个开源的实现,模仿了谷歌内部的IfThisThenThat(IFTTT)代码检查工具。通过在代码中声明文件依赖关系来强制执行原子性拉取请求:如果这个文件发生变化,那么那个文件或区域也必须发生变化。 --- 披露:我在OpenAI工作。 自从离开谷歌以来,我一直在怀念IFTTT,尤其是在处理大型代码库时。这个周末我用Codex写了这个,所以请不要过于苛责。JavaScript似乎是合适的语言,但我几乎一无所知。幸运的是,这对像这样的简单项目来说不再是障碍。
2作者: endorphine7 个月前原帖
根据您的经验,在作为助手回答软件工程/软件系统相关问题以及进行长时间复杂推理方面,OpenAI的模型和Gemini 2.5 Pro这两者中哪个更好?我在考虑是否有必要为ChatGPT付费,还是使用Gemini 2.5 Pro的免费版本或付费版本更合适。我感觉大多数Hacker News的用户更倾向于后者,但在livebench中,我认为OpenAI在编码方面超过了Gemini。
4作者: 65107 个月前原帖
目前有很多人工智能项目,它们之间有很多重叠,价格各异,而且每天都有新的项目发布。我想,随着时间的推移,选择会变得更加复杂。有没有一个地方可以找到更新的信息聊天机器人?这似乎是一个应该存在的东西。