返回首页
最新
我正在学习使用 LangChain 和 CrewAI 构建多智能体系统,最开始创建了一个简单的旅行规划代理。
但为了使其正常工作,我不得不构建五个独立的代理:
1. 航班搜索代理
2. 酒店搜索代理
3. 航班预订代理
4. 酒店预订代理
5. 行程/活动代理
这让我觉得不太对劲。我希望能够协调一个旅行规划器,而不必自己构建每个垂直领域。
*为什么我不能直接发现并使用现有的代理呢?*
于是我构建了 MeshCore——一个服务网格 + 市场,代理可以在这里:
- 注册他们的能力(例如,“我搜索航班”)
- 自动发现其他代理
- 通过网关相互调用
- 自动处理计费/计量
*试试这个:* [https://meshcore.ai](https://meshcore.ai)
*GitHub:* [https://github.com/MeshCore-ai/mesh-cli](https://github.com/MeshCore-ai/mesh-cli)
*技术:* 服务网格架构(类似于微服务的 Istio,但用于 AI 代理)
*支持:* LangChain、CrewAI、AutoGen、自定义代理
*寻求来自多智能体构建者的反馈:*
- 你是否遇到过同样的问题?
- 你会使用共享的代理市场,而不是自己构建所有东西吗?
- 还有什么缺失的?
一个 GitHub 项目,用于收集一系列基于 Bash 的屏幕保护程序/可视化效果。
嗨,HN,
我是尼古拉伊,DroidRun 的软件工程师和联合创始人。我们开发了 DroidRun,这是一个基于大型语言模型(LLM)的代理,利用 Android 可访问性树来精确控制和理解用户界面元素。它可以在真实手机和模拟器上运行,并且是开源的。
**起源:**
我们的联合创始人尼尔斯·施密特(你将在演示中看到他)编写了一个原型并分享了一段快速视频。视频迅速走红,在 X 平台上不到两个小时就获得了大约 5 万次观看。那一刻促使我们全力以赴投入到 DroidRun 的开发中,并不久后将其开源。
**工作原理:**
大多数代理仅依赖截图作为上下文。我们不仅这样做,还将可访问性树输入到 LLM 中。这提供了关于用户界面元素的结构性、层次性和空间元数据。
**示例:**
真实用户界面的截图:
[https://imgur.com/a/ePRLpyv](https://imgur.com/a/ePRLpyv)
与之匹配的可访问性 JSON 片段:
```json
{
"index": 3,
"resourceId": "com.android.settings:id/search_action_bar",
"className": "LinearLayout",
"text": "search_action_bar",
"bounds": "42, 149, 1038, 338",
"children": [
{
"index": 4,
"resourceId": "com.android.settings:id/search_bar_title",
"className": "TextView",
"text": "In Einstellungen suchen",
"bounds": "189, 205, 768, 282",
"children": []
}
]
}
```
我们还在截图中用数字标注用户界面区域,然后在树中进行匹配。这种结构使代理能够深入理解屏幕上显示的内容,即使在不同设备类型(如平板电脑)之间也是如此。
这使得在不同设备和屏幕尺寸之间的泛化能力更强。代理可以更自信地执行操作,减少错误。
**当前状态:**
- 最近在 AndroidWorld 排名第一(现在竞争非常激烈)
- 支持真实设备和模拟器
- 在简单和复杂的用户界面任务上表现良好
- 目前 Gemini 2.5 Pro 的表现最佳,但我们正在快速迭代
**接下来的计划:**
我们正在开发一个云平台,您可以在 Android 设备上运行提示,而无需任何设置。想象一下,LLM 在云中控制手机,随时准备测试您的自动化。
**我们在寻找:**
- 来自 HN 的反馈
- 热爱 Android、LLM 和代理的合作者
- 开源贡献者