企业需要约90%的准确率才能部署网络代理。到目前为止,没有任何代理在实际任务中接近这个标准。TinyFish是首个准备投入生产的网络代理。以下是证据。
在Online-Mind2Web上的困难任务得分结果(300个任务,136个实时网站,人类相关评审):
- TinyFish: 81.9%
- OpenAI Operator: 43.2%
- Claude Computer Use: 32.4%
- 浏览器使用: 8.1%
为什么不和其他人一样使用WebVoyager?
因为它不可靠。简单任务、谷歌搜索快捷方式,以及一个与人类仅62%一致的评审。浏览器使用在WebVoyager上自报89%——但在这里的困难任务中得分仅为8.1%。
我们将TinyFish与Online-Mind2Web进行了评估——300个真实任务,136个实时网站,三个难度级别,以及一个与人类85%一致的评审。没有捷径。没有简单模式。
食谱库是开源的:<a href="https://github.com/tinyfish-io/tinyfish-cookbook" rel="nofollow">https://github.com/tinyfish-io/tinyfish-cookbook</a>
您可以在这里查看所有失败任务的运行情况:<a href="https://tinyurl.com/tinyfish-mind2web" rel="nofollow">https://tinyurl.com/tinyfish-mind2web</a>
欢迎就架构、基准测试方法或我们为何认为WebVoyager得分具有误导性提出问题。
返回首页
最新
我正在开发 chatuino,这是一个功能丰富的终端 Twitch 聊天客户端,使用 Go 和 Bubble Tea 构建。<p>其功能包括多账户支持、渲染表情(包括 7TV 和 BTTV)、支持 Go 模板的自定义命令、平滑滚动、屏蔽词汇/用户、原生 Twitch 功能如聊天投票,以及高度可定制的快捷键、颜色和布局。<p>安装方法:
curl -sSfL <a href="https://chatuino.net/install" rel="nofollow">https://chatuino.net/install</a> | sh<p>或者通过 Go 安装:
go install github.com/julez-dev/chatuino@latest<p>在发布页面上可以找到适用于 Linux、macOS 和 Windows 的预编译二进制文件。<p>GitHub: <a href="https://github.com/julez-dev/chatuino" rel="nofollow">https://github.com/julez-dev/chatuino</a>
网站: <a href="https://chatuino.net" rel="nofollow">https://chatuino.net</a>
这是一个大纲工具,您可以将项目分解为任务,与人工智能协作以完善规格,并将您的偏好编码为可重用的上下文和蓝图。我用它来构建自己。使用了 React、Electron 和 TypeScript。
大家好!我想和大家分享一个我创建并正在开发的开源存储引擎,叫做 TidesDB。希望你们能去看看,也欢迎告诉我你们的想法或问题!<p>你们还可以在网站上找到设计文档、基准测试、库等更多内容。<p>亚历克斯
PardusDB 是一个轻量级的单文件嵌入式向量数据库,使用纯 Rust 编写——可以将其视为针对向量和相似性搜索的 SQLite。
主要亮点:
- 无外部依赖
- 采用熟悉的 SQL 语法进行 CREATE/INSERT/SELECT 和向量相似性查询
- 基于图的近似最近邻(ANN)搜索,线程安全,支持事务
- 包含与 Ollama 的 Python RAG 示例
我们将其作为我们无代码平台的引擎,网址为 [https://pardusai.org](https://pardusai.org)(私有、本地优先的数据分析)。
GitHub: [https://github.com/JasonHonKL/PardusDB](https://github.com/JasonHonKL/PardusDB)
欢迎反馈!
单一代理的语言模型在处理长期复杂任务时表现不佳。我们开源了一款多代理协调器,用于处理长期的语言模型任务。我们发现单一的语言模型代理往往会停滞、循环或生成无法编译的代码,因此我们构建了一个代理协调框架,以便在工作进行时能够在共享上下文中进行协作。
其工作原理如下:
1. 协调代理负责任务分解
2. 子代理进行并行工作
3. 订阅任务状态和进展
4. 代理之间实时共享中间发现
我们在一个普特南级别的数学问题上进行了测试,但这一模式可以推广到重构、应用构建和长期研究等任务。
它被打包为Claude Code技能,设计上小巧、易读且可修改。
欢迎使用、尝试并告诉我我们接下来应该尝试运行哪些工作负载!