1作者: antenehmtk25 天前原帖
我正在学习使用 LangChain 和 CrewAI 构建多智能体系统,最开始创建了一个简单的旅行规划代理。 但为了使其正常工作,我不得不构建五个独立的代理: 1. 航班搜索代理 2. 酒店搜索代理 3. 航班预订代理 4. 酒店预订代理 5. 行程/活动代理 这让我觉得不太对劲。我希望能够协调一个旅行规划器,而不必自己构建每个垂直领域。 *为什么我不能直接发现并使用现有的代理呢?* 于是我构建了 MeshCore——一个服务网格 + 市场,代理可以在这里: - 注册他们的能力(例如,“我搜索航班”) - 自动发现其他代理 - 通过网关相互调用 - 自动处理计费/计量 *试试这个:* [https://meshcore.ai](https://meshcore.ai) *GitHub:* [https://github.com/MeshCore-ai/mesh-cli](https://github.com/MeshCore-ai/mesh-cli) *技术:* 服务网格架构(类似于微服务的 Istio,但用于 AI 代理) *支持:* LangChain、CrewAI、AutoGen、自定义代理 *寻求来自多智能体构建者的反馈:* - 你是否遇到过同样的问题? - 你会使用共享的代理市场,而不是自己构建所有东西吗? - 还有什么缺失的?
1作者: nodueck25 天前原帖
嗨,HN, 我是尼古拉伊,DroidRun 的软件工程师和联合创始人。我们开发了 DroidRun,这是一个基于大型语言模型(LLM)的代理,利用 Android 可访问性树来精确控制和理解用户界面元素。它可以在真实手机和模拟器上运行,并且是开源的。 **起源:** 我们的联合创始人尼尔斯·施密特(你将在演示中看到他)编写了一个原型并分享了一段快速视频。视频迅速走红,在 X 平台上不到两个小时就获得了大约 5 万次观看。那一刻促使我们全力以赴投入到 DroidRun 的开发中,并不久后将其开源。 **工作原理:** 大多数代理仅依赖截图作为上下文。我们不仅这样做,还将可访问性树输入到 LLM 中。这提供了关于用户界面元素的结构性、层次性和空间元数据。 **示例:** 真实用户界面的截图: [https://imgur.com/a/ePRLpyv](https://imgur.com/a/ePRLpyv) 与之匹配的可访问性 JSON 片段: ```json { "index": 3, "resourceId": "com.android.settings:id/search_action_bar", "className": "LinearLayout", "text": "search_action_bar", "bounds": "42, 149, 1038, 338", "children": [ { "index": 4, "resourceId": "com.android.settings:id/search_bar_title", "className": "TextView", "text": "In Einstellungen suchen", "bounds": "189, 205, 768, 282", "children": [] } ] } ``` 我们还在截图中用数字标注用户界面区域,然后在树中进行匹配。这种结构使代理能够深入理解屏幕上显示的内容,即使在不同设备类型(如平板电脑)之间也是如此。 这使得在不同设备和屏幕尺寸之间的泛化能力更强。代理可以更自信地执行操作,减少错误。 **当前状态:** - 最近在 AndroidWorld 排名第一(现在竞争非常激烈) - 支持真实设备和模拟器 - 在简单和复杂的用户界面任务上表现良好 - 目前 Gemini 2.5 Pro 的表现最佳,但我们正在快速迭代 **接下来的计划:** 我们正在开发一个云平台,您可以在 Android 设备上运行提示,而无需任何设置。想象一下,LLM 在云中控制手机,随时准备测试您的自动化。 **我们在寻找:** - 来自 HN 的反馈 - 热爱 Android、LLM 和代理的合作者 - 开源贡献者