返回首页

24小时热榜

10作者: icyfox大约 15 小时前原帖
嗨,HN!我是Pierce。 Rotunda是一个基于Firefox的分支,主要用于代理使用,我在晚上和周末一直在进行开发。 上周有一场关于计算机使用模型成本的[长篇讨论](https://news.ycombinator.com/item?id=48024859)。成本最终会下降,但我认为在某种程度上,这通常仍然是错误的基础。网络为我们提供了美丽的结构化格式、纯文本等……如果我们不必放弃这些,为什么要这样做呢? 我意识到,对于99%的自动化,我只希望代理能够控制我的Chrome实例。但这说起来容易做起来难:CDP(Chrome自动化协议)泄露了大量关于被程序控制的状态信息,无论是通过切换窗口属性,还是在页面上下文中运行`page.evaluate()`命令。此外,如果你观察一个正在运行的自动化,结果显而易见:鼠标移动不自然,字段瞬间被填充等。 Rotunda试图解决这个问题。它的突出特点包括: - 通过对我过去一周的时间模式进行训练的递归神经网络(RNN),实现逼真的鼠标移动和键盘命令模拟。(虽然选择使用键盘记录器让我感觉有点奇怪,但无所谓) - 不会对其主机规格撒谎,只在某些客户端细节上有所隐瞒。当你在画布像素或音频管道中添加噪声时,隐形浏览器太容易被统计标记。 - 它在本地设备上运行,提供命令行接口(CLI)或Playwright API,供Claude、Codex或你当前的任何工具使用。 - 对现代Firefox(150)进行补丁,以保持代理工具的持续更新。 在GitHub上的MPL-2.0许可证下发布:[https://github.com/monkeysee-ai/rotunda](https://github.com/monkeysee-ai/rotunda) 关于设计选择的更长篇幅说明:[https://pierce.dev/notes/a-browser-for-agents](https://pierce.dev/notes/a-browser-for-agents) 也可以查看网站上的演示![https://www.rotunda.sh/](https://www.rotunda.sh/) 对这个项目的结果感到非常兴奋,但我们仍然处于早期阶段。请试用一下,并反馈任何问题!
8作者: AdarshRao23大约 17 小时前原帖
我是一名SAP集成顾问,这个项目是我作为副业开发的。痛点在于:大多数自托管的LLM可观察性工具需要Postgres、Redis和复杂的基础设施。团队只想了解他们的代理在生产环境中实际做了什么,而这种设置成本让人望而却步。 Torrix作为一个单一的Docker容器运行,后端使用SQLite。完整安装步骤是:<p>curl -o docker-compose.yml <a href="https://raw.githubusercontent.com/torrix-ai/install/main/doc" rel="nofollow">https://raw.githubusercontent.com/torrix-ai/install/main/doc</a>... 然后运行docker compose up<p>没有外部依赖。所有数据保存在您机器上的本地SQLite文件中。<p>它通过HTTP代理或Python/Node SDK记录LLM调用:包括令牌、成本、延迟、完整的提示和响应跟踪,以及推理令牌捕获。支持OpenAI、Anthropic、Gemini、Groq、Mistral、Azure Open AI以及任何兼容Apen AI的端点。<p>在实际使用真实代理管道时,我添加了一些功能:成本预测和严格的预算上限、个人身份信息(PII)遮蔽、模型路由规则、与黄金运行的评估、AI评审、带版本历史的提示库、用于按环境过滤的运行标签、MCP服务器以便AI助手可以查询您自己的日志,以及OTLP/HTTP摄取,适用于已经使用OpenTelemetry的应用程序。<p>社区版对一个用户免费,保留数据7天。专业版增加了团队、基于角色的访问控制(RBAC)、30天保留、API密钥管理、全文搜索和审计日志。<p>SQLite不适合高写入吞吐量。这款工具旨在为每天记录数百到低千的LLM调用的团队服务,而不是数百万次。欢迎大家提出意见和建议。<p>GitHub / 安装:<a href="https://github.com/torrix-ai/install" rel="nofollow">https://github.com/torrix-ai/install</a> 网站:<a href="https://www.torrix.ai" rel="nofollow">https://www.torrix.ai</a>
6作者: mayerwin大约 2 小时前原帖
嗨,HN, 我创建了一个实时跟踪器,用于可视化旗舰AI模型的生命周期和性能变化。 我们都经历过这样的现象:一个旗舰模型在发布时感觉非常出色,但几周后,它突然感觉有些不对劲。我想看看这是否只是感觉上的问题,还是可以量化的现实,因此我构建了一个仪表板来跟踪Arena AI的历史ELO评分。 这个逻辑并不是将每一个模型变体都绘制成一张庞大的意大利面图,而是为每个主要AI实验室绘制一条连续曲线。它动态跟踪他们最高评分的旗舰模型随时间的变化,这使得突然的代际飞跃和缓慢的性能衰退变得更加明显。为了让图表在移动设备上看起来更好,我进行了多次迭代,同时也提供了可选的暗黑模式。 然而,我有一个特定的数据盲点,希望这个社区能提供一些见解。 Arena AI主要依赖于测试API端点。但正如我们所知,消费者聊天用户界面通常会添加大量系统提示、安全包装,或者在高负载下默默切换到高度量化的模型以节省计算资源。API基准测试并不能完全捕捉到日常网络用户所经历的这种“削弱”。 有没有人知道是否有历史ELO或评估数据集,专门从消费者网页用户界面抓取或测试输出,而不是原始API? 我希望能将这些数据整合进来,以便更准确地反映消费者体验。这个项目是开源的(仓库链接在页脚),所以我非常欢迎任何反馈或数据集的指引!