12作者: gargi_tinyfish3 个月前原帖
企业需要约90%的准确率才能部署网络代理。到目前为止,没有任何代理在实际任务中接近这个标准。TinyFish是首个准备投入生产的网络代理。以下是证据。 在Online-Mind2Web上的困难任务得分结果(300个任务,136个实时网站,人类相关评审): - TinyFish: 81.9% - OpenAI Operator: 43.2% - Claude Computer Use: 32.4% - 浏览器使用: 8.1% 为什么不和其他人一样使用WebVoyager? 因为它不可靠。简单任务、谷歌搜索快捷方式,以及一个与人类仅62%一致的评审。浏览器使用在WebVoyager上自报89%——但在这里的困难任务中得分仅为8.1%。 我们将TinyFish与Online-Mind2Web进行了评估——300个真实任务,136个实时网站,三个难度级别,以及一个与人类85%一致的评审。没有捷径。没有简单模式。 食谱库是开源的:<a href="https://github.com/tinyfish-io/tinyfish-cookbook" rel="nofollow">https://github.com/tinyfish-io/tinyfish-cookbook</a> 您可以在这里查看所有失败任务的运行情况:<a href="https://tinyurl.com/tinyfish-mind2web" rel="nofollow">https://tinyurl.com/tinyfish-mind2web</a> 欢迎就架构、基准测试方法或我们为何认为WebVoyager得分具有误导性提出问题。
1作者: julezdev3 个月前原帖
我正在开发 chatuino,这是一个功能丰富的终端 Twitch 聊天客户端,使用 Go 和 Bubble Tea 构建。<p>其功能包括多账户支持、渲染表情(包括 7TV 和 BTTV)、支持 Go 模板的自定义命令、平滑滚动、屏蔽词汇/用户、原生 Twitch 功能如聊天投票,以及高度可定制的快捷键、颜色和布局。<p>安装方法: curl -sSfL <a href="https://chatuino.net/install" rel="nofollow">https://chatuino.net/install</a> | sh<p>或者通过 Go 安装: go install github.com/julez-dev/chatuino@latest<p>在发布页面上可以找到适用于 Linux、macOS 和 Windows 的预编译二进制文件。<p>GitHub: <a href="https://github.com/julez-dev/chatuino" rel="nofollow">https://github.com/julez-dev/chatuino</a> 网站: <a href="https://chatuino.net" rel="nofollow">https://chatuino.net</a>
2作者: JasonHEIN3 个月前原帖
PardusDB 是一个轻量级的单文件嵌入式向量数据库,使用纯 Rust 编写——可以将其视为针对向量和相似性搜索的 SQLite。 主要亮点: - 无外部依赖 - 采用熟悉的 SQL 语法进行 CREATE/INSERT/SELECT 和向量相似性查询 - 基于图的近似最近邻(ANN)搜索,线程安全,支持事务 - 包含与 Ollama 的 Python RAG 示例 我们将其作为我们无代码平台的引擎,网址为 [https://pardusai.org](https://pardusai.org)(私有、本地优先的数据分析)。 GitHub: [https://github.com/JasonHonKL/PardusDB](https://github.com/JasonHonKL/PardusDB) 欢迎反馈!
7作者: austinbaggio3 个月前原帖
单一代理的语言模型在处理长期复杂任务时表现不佳。我们开源了一款多代理协调器,用于处理长期的语言模型任务。我们发现单一的语言模型代理往往会停滞、循环或生成无法编译的代码,因此我们构建了一个代理协调框架,以便在工作进行时能够在共享上下文中进行协作。 其工作原理如下: 1. 协调代理负责任务分解 2. 子代理进行并行工作 3. 订阅任务状态和进展 4. 代理之间实时共享中间发现 我们在一个普特南级别的数学问题上进行了测试,但这一模式可以推广到重构、应用构建和长期研究等任务。 它被打包为Claude Code技能,设计上小巧、易读且可修改。 欢迎使用、尝试并告诉我我们接下来应该尝试运行哪些工作负载!