返回首页
最新
我尝试使用基准测试的方法来评估一个人工智能代理。<p>结果出现了我意想不到的失败。<p>大多数失败并不是由于模型质量问题,而是系统层面的问题。以下是一些来自小型测试套件的例子:<p>- 工具调用中的无效 URL → 分数降至 22<p>- 代理在云环境中调用本地主机 → 卡在 46<p>- 被标记为幻觉的真实 CVE → 评估问题,而非模型问题<p>- Reddit 阻止请求 → 外部依赖失败<p>- 生产环境中缺少 API 密钥 → 静默失败<p>每次运行都暴露了一个真实的错误,但并不是我最初想要测量的那种。<p>令我惊讶的是,评估代理不仅仅是对输出进行评分。这是关于验证整个系统:工具、环境、数据访问,以及代理与这些要素的交互方式。<p>换句话说,大多数失败模式更像是软件错误,而不是大型语言模型的错误。<p>这让我思考,代理的评估循环应该更像软件测试,而不是基准测试:
- 可重复的测试套件
- 明确的通过/失败标准
- 回归检测
- 根本原因分析<p>否则,很容易将失败归因于模型,而实际上问题出在其他地方。<p>最后,我构建了一个小工具来结构化这个过程,但对我来说更重要的收获是,现实世界中的代理评估与标准基准相比,实际上是多么复杂。<p>我很好奇其他人是如何处理这个问题的,尤其是在生产环境中。
我是鲁弗斯,Flowershow的创始人之一。我们热爱Markdown,并在网站、文档和知识库等各个地方使用它。此外,现在AI也在各处应用Markdown。
我们厌倦了每次想分享文件或将网站上线时所需的框架、配置和部署的繁琐过程。因此,我们构建了我们想要的工具:文件输入,网站输出。我们的愿景是“内容的Vercel”——让部署(Markdown)内容变得像Vercel为JavaScript所做的那样快速、无缝和简单。
通过命令行,你可以连接到GitHub仓库,使用Obsidian插件,或者拖放文件。
```
npm i -g @flowershow/publish
publish ./my-notes
# → https://your-site.flowershow.app 几秒钟内上线
```
Flowershow是**完全托管**的——无需服务器、构建管道或持续集成/持续部署。只需指向一个Markdown文件夹,即可获得一个URL。
支持完整的Obsidian语法:维基链接、提示框、图表视图、前置信息。
GFM、Mermaid、LaTeX:图表和数学公式原生渲染。
通过Tailwind和CSS变量实现主题:开箱即用的Tailwind。可在不需要构建步骤的情况下进行自定义。
支持HTML:使用HTML、图片等。
目前约有7000个Obsidian插件安装,1400名用户,1100个网站。个人使用永久免费。高级版($5/月)提供自定义域名、搜索和密码保护。
而且它是开源的:[https://github.com/flowershow/flowershow](https://github.com/flowershow/flowershow)
快来试试吧,告诉我们你的想法以及我们可以改进的地方。
我创建了这个服务,用于将 Ruby 的 Gemfile.lock 文件转换为 RSS 源。只需上传你的锁定文件,就能获得一个在你的依赖项发布新版本时通知你的源。<p>在过去的几个周末里,我很享受构建这个服务的过程,希望它对其他人也有用!