返回首页
最新
你好!我是 Eshaan,我正在构建 Ourguide——一个屏幕上的任务指导系统,当你需要帮助时,它可以逐步指导你点击哪里。
我开始构建这个系统是因为每当我不知道如何在电脑上做某件事情时,我总是在聊天机器人和应用程序之间不断切换,粘贴截图,并问“接下来我该做什么?”Ourguide 通过两种模式解决了这个问题。在指导模式下,应用程序会覆盖你的屏幕,并突出显示下一个需要点击的具体元素,消除了你离开当前窗口的需要。还有询问模式,这是一个集成视觉的聊天功能,可以捕捉你的屏幕上下文——你可以随时开启或关闭——这样你就可以问“我该如何修复这个错误?”而无需解释“这个”是什么。
这是一个跨操作系统的 Electron 应用,基于视觉,并不局限于浏览器。
确定如何向用户展示点击位置是这个过程最困难的部分。我最初用 2300 张截图训练了一个计算机视觉模型,以识别和分割屏幕上的所有 UI 元素,并使用 VLM 找到正确的图标进行高亮。虽然这个方法效果非常好——比像 UI Tars 这样的最先进的基础模型更好——但延迟实在太高了。我很快会将这个 CV+VLM 流水线开源,但目前我采用了一个更简单的实现,达到了小于 1 秒的延迟。
你可能会问:如果我可以告诉你点击哪里,为什么我不能直接点击呢?在我在帕洛阿尔托工作期间尝试构建计算机使用代理时,我遇到了当今计算机使用模型的核心限制,基准测试徘徊在 50% 中间(OSWorld)。VLM 通常知道该做什么,但不知道它的样子;没有可靠的视觉基础,代理会误点击并停滞。因此,我构建了计算机使用——没有“使用”。它提供了代理的视觉基础,但保持人类在环中进行实际执行,以防止误点击。
我个人使用它来处理 AWS 控制台的“寻宝”用户界面,比如创建具有特定 CORS 规则的公共 S3 存储桶。它在处理非技术性任务时也出奇地有帮助,比如在 Gradescope 或 Spotify 中导航一些晦涩的设置。当你卡住或不知道该做什么时,Ourguide 真的能处理任何任务。
你可以在这里下载并测试 Ourguide: [https://ourguide.ai/downloads](https://ourguide.ai/downloads)
这个项目仍然处于早期阶段,我非常希望听到你对它的反馈,包括它的不足之处、你认为它表现良好的地方,以及你认为 Ourguide 最有帮助的具体领域。
阿里巴巴正式推出了Qwen3-Max-Thinking,这是一款万亿参数的MoE旗舰级大语言模型,预训练于36万亿个标记——是Qwen 2.5语料库的两倍——并且在19个权威基准测试中,已经与GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶级模型相匹敌或超越。其两个核心技术突破真正使其脱颖而出。
首先是自适应工具调用:无需手动提示,它能够根据任务需求自主调用搜索引擎、记忆工具和代码解释器。这减少了幻觉现象并提升了实时问题解决能力;例如,编码任务会触发自动错误修正循环,而研究任务则将搜索与上下文综合结合。其次是测试时扩展(TTS):通过迭代洞察来优化推理,超越了标准并行采样,在关键基准测试中取得了可测量的提升——GPQA从90.3提升至92.8,LiveCodeBench v6从88.0跃升至91.4,而IMO-AnswerBench则从89.5上升至91.5。
值得注意的是,其预览版本在AIME 25和HMMT 25等艰难的数学竞赛中甚至达到了100%的准确率。该模型在网页和桌面演示中运行流畅,其API已准备好投入生产,并具备可调的思维预算(默认最高可达80K个标记),以平衡深度和速度。这不仅仅是一次增量更新——这是一次飞跃,缩小了现实世界学术和工程任务中推理与工具集成的差距。
了解更多信息,请访问:https://chat.qwen.ai
嗨,HN,
多年来,我一直深受分析瘫痪的困扰。这不仅仅是针对重大人生决策,连一些小决定,比如产品方向、功能优先级,甚至是微不足道的选择,我也会如此。我的默认模式是模拟每一个可能的结果,列举风险和边缘案例,然后……什么也不做。
最终,我意识到一个不太舒服的事实:我花在优化决策上的时间比实际执行的时间还要多。
于是,我为自己开发了一个小工具:SpinForClarity。
它的功能如下:
- 你用简单的英语描述一个问题
- 一个大型语言模型生成候选选项
- 这些选项在决策轮中可视化
- 你旋转决策轮,故意引入随机性,迫使自己做出决定
- 系统随后为选定的选项生成简短的理由,以减少反复推敲
在技术实现方面:
- 前端:Next.js + React + TypeScript
- 后端:Python(FastAPI)
- 认证与数据库:Supabase
- AI:OpenAI API(用于选项生成和解释)
我并不认为这可以替代思考或适当的分析。对我来说,它更像是一个强制执行的工具——一种打破僵局、偏向执行的方式。
我在这里分享这个主要是为了学习:
- 这对其他人来说是一个真实的问题,还是只有我一个人有这种困扰?
- 在什么情况下你会实际使用这样的工具?
- 这感觉像是一个有用的工具,还是一个噱头?
- 你会去掉、简化或重新设计什么?
应用链接: [https://spinforclarity.com](https://spinforclarity.com)
感谢你的阅读。我非常希望能得到诚实的反馈——尤其是批评意见。
Sagar
大家好,我们很高兴分享 Cua-Bench([https://github.com/trycua/cua](https://github.com/trycua/cua)),这是一个开源框架,用于评估和训练在不同环境下的计算机使用代理。
计算机使用代理在不同用户界面(UI)上的表现差异巨大——在 Windows 11 上成功率为 90% 的代理,在 Windows XP 上执行相同任务时可能仅为 9%。问题出在操作系统主题、浏览器版本和 UI 变体上,而现有的基准测试并未涵盖这些因素。
现有的基准测试(如 OSWorld、Windows Agent Arena、AndroidWorld)虽然很出色,但各自独立运行——不同的测试框架、不同的格式,没有标准化的方式来跨平台测试相同的代理。更重要的是,它们仅用于评估。我们需要能够生成训练数据并运行强化学习(RL)循环的环境,而不仅仅是测量性能。
Cua-Bench 采取了不同的方法:它是一个统一框架,标准化了跨平台的环境,并支持完整的代理开发生命周期——基准测试、训练、部署。
使用 Cua-Bench,您可以:
- 通过一个命令行界面(CLI)在多个基准测试中评估代理(本地任务 + OSWorld + Windows Agent Arena 适配器)
- 在不同的操作系统变体上测试相同的代理(Windows 11/XP/Vista、macOS 主题、Linux、通过 QEMU 的 Android)
- 从自然语言提示生成新任务
- 创建用于 RL 训练的模拟环境(如 Spotify、Slack 的 shell 应用,带有程序化奖励)
- 在代理评估之前运行 oracle 验证以验证环境
- 实时监控代理运行,查看运行轨迹和截图
所有这些功能都可以在 macOS、Linux、Windows 和 Android 上运行,并且可以自托管。
开始使用的方法:
安装 cua-bench:
```
% pip install cua-bench
```
运行基本评估:
```
% cb run dataset datasets/cua-bench-basic --agent demo
```
打开监控仪表板:
```
% cb run watch <run_id>
```
在多个工作进程中进行并行评估:
```
% cb run dataset datasets/cua-bench-basic --agent your-agent --max-parallel 8
```
想要在不同的操作系统变体上测试?只需指定环境:
```
% cb run task slack_message --agent your-agent --env windows_xp
% cb run task slack_message --agent your-agent --env macos_sonoma
```
从提示生成新任务:
```
% cb task generate "book a flight on kayak.com"
```
使用 oracle 实现验证环境:
```
% cb run dataset datasets/cua-bench-basic --oracle
```
模拟环境对于 RL 训练特别有用——它们是 HTML/JS 应用,可以在 10 多种操作系统主题上渲染,并进行程序化奖励验证。无需为训练循环启动实际的虚拟机。
我们看到团队使用 Cua-Bench 来:
- 在移动和桌面环境中训练计算机使用模型
- 生成大规模训练数据集(与实验室合作处理数百万张跨操作系统变体的截图)
- 使用 shell 应用模拟器进行 RL 微调
- 在操作系统主题和浏览器版本之间进行系统评估
- 构建任务注册表(与 Snorkel AI 合作进行任务设计和数据整理,类似于他们的 Terminal-Bench 工作)
Cua-Bench 完全开源,采用 MIT 许可证。我们正在积极开发它,作为 Cua([https://github.com/trycua/cua](https://github.com/trycua/cua))的一部分,这是我们的计算机使用代理 SDK,我们非常欢迎您的反馈、错误报告或功能建议。
GitHub: [https://github.com/trycua/cua](https://github.com/trycua/cua)
文档: [https://cua.ai/docs/cuabench](https://cua.ai/docs/cuabench)
技术报告: [https://cuabench.ai](https://cuabench.ai)
我们会在这里回答任何技术问题,期待您的评论!