返回首页
最新
大家好,
我们是 Winston、Edward 和 James,我们开发了 Meka Agent,这是一个开源框架,允许基于视觉的 LLM(大语言模型)像人一样直接在计算机上执行任务。
背景故事:
在过去几个月中,我们一直在构建计算机使用代理,这些代理已被多个团队用于质量保证测试,但我们意识到现有的浏览框架还不够完善。
因此,我们一直在开发一个浏览代理。
我们在 WebArena 上取得了 72.7% 的成绩,相比之下,OpenAI 的新 ChatGPT 代理的最新成绩为 65.4%。您可以在这里了解更多信息: [https://github.com/trymeka/webarena_evals](https://github.com/trymeka/webarena_evals)。
今天,我们将最先进的代理 Meka 开源,允许任何人从零开始构建自己的强大视觉代理。我们为困难的部分提供了基础设施,因此您无需担心:
* 真实的基于视觉的控制:Meka 不仅仅是读取 HTML。它观察屏幕,识别交互元素,并决定点击、输入和滚动的位置。
* 完整的计算机访问:它并不局限于浏览器的沙箱环境。Meka 以操作系统级别的控制运行,能够处理系统对话框、文件上传以及其他仅限于浏览器的自动化工具无法处理的交互。
* 设计上可扩展:我们使得插入您自己的 LLM 和计算机提供者变得简单。
* 最先进的性能:在 WebArena 上取得 72.7% 的成绩。
我们的目标是使开发者能够通过提示代理,在任何计算机上创建可重复、稳健的任务,而无需担心实现细节。
我们非常希望听到您对这个工具如何融入您的自动化工作流程的反馈。请试用一下,并告诉我们您的想法。
您可以在 GitHub 上找到该仓库,并通过我们的托管平台快速开始:[https://app.withmeka.com/](https://app.withmeka.com/)。
谢谢,
Winston、Edward 和 James
难道现在的人工智能没有向每个人表明,自由意志并不是智能类人行为所必需的吗?
嗨,HN!我叫克里斯蒂安,是<a href="https://frigade.ai">https://frigade.ai</a>的联合创始人。我们构建了一个强大的AI代理,它能够自动学习如何使用任何基于网页的产品,并在用户界面中直接指导用户,自动生成文档,甚至代表用户采取行动。可以把它想象成旧版MS Office中的Clippy,但功能更强大,且真正有用。
<p>您可以在这里查看该代理和工具调用SDK的实际演示:<a href="https://www.youtube.com/watch?v=UPe0t3A1Vpg" rel="nofollow">https://www.youtube.com/watch?v=UPe0t3A1Vpg</a></p>
<p>这与其他AI客户支持产品有什么不同?</p>
<p>大多数AI“副驾驶”实际上只是被美化的聊天机器人。它们浏览您的帮助中心,输出一些模糊的要点。基本上是一些“希望和祈祷”,希望您的用户能够搞明白。最终,这将把责任转嫁给用户去完成。而且假设公司会随着每次产品变更而更新帮助中心。这意味着需要不断截取新产品用户界面或功能的屏幕截图,以便提供准确的说明。这些解决方案仅利用了AI所能实现的一小部分,而现在的AI可以广泛推理软件界面。</p>
<p>通过Frigade AI,我们直接在产品中引导用户,并根据当前用户的状态和上下文构建按需导览。代理还可以立即代表用户采取行动,例如邀请同事加入工作区或检索账单信息(通过我们的工具调用SDK)。</p>
<p>这一切的实现仅在最近才成为可能。最新的前沿模型(如GPT 4.1、Claude 4、Gemini 2.5等)能够以一种在六个月前根本不可行的方式推理用户界面和工作流程。这就是为什么我们如此兴奋地将这项技术带到尚未启用AI的复杂传统SaaS应用程序的前沿。</p>
<p>它是如何工作的?</p>
<ol>
<li>邀请agent@frigade.ai到您的产品中。您可以根据不同角色发送多个邀请。</li>
<li>我们的代理会自动探索并推理您的应用程序。</li>
<li>附加任何现有的帮助中心资源或培训文档,以补充代理的理解。这是完全可选的。</li>
<li>安装代理助手的Javascript代码片段(只需几行)。</li>
<li>就这样。您的用户现在可以开始提问,并在没有任何额外负担的情况下获得按需产品导览和实时解答。</li>
</ol>
<p>这个过程只需几分钟。一旦运行,您可以通过对代理提供的响应进行评分和反馈来改进代理。如果您想进一步集成,您还可以将自己的代码连接到我们的工具调用SDK,以便代理能够直接查找客户信息、处理退款等。这些调用只需几行代码,通过自然语言描述工具及其参数,并传递一个Javascript Promise(例如,进行API调用、调用您应用中的函数等)。</p>
<p>非常想听听HN社区对这种方法的看法!您是在从零开始构建自己的AI代理,还是希望嵌入现成的解决方案?</p>
我想我正式成为了一个副项目收集者。
我经历过一切:
一个为自由职业者设计的SaaS……但我从来没有时间完成,因为我自己也是个自由职业者。
一个革命性的AI工具,在GPT-4发布后我就放弃了。
还有那个著名的“反社交媒体社交网络”(剧透:其实只有我一个人)。
我买一个域名 → 连续熬夜编程三天 → 失去兴趣 → 再次开始。
我的Google域名就像未完成梦想的墓地。
但老实说,我从未学到这么多,也从未享受过这么多。
总有一天,我可能会发布一个成功的项目。也可能不会。但我会做好准备。
这里还有其他的副项目狂热者吗?分享你们最大的失败或意想不到的成功吧。