8作者: xdotli大约 2 个月前原帖
我创建了 BenchFlow,这是一个开源框架,允许您使用基于 Docker 的基准测试来集成和评估 AI 任务。您可以通过克隆代码库并在几分钟内运行基准测试来立即尝试它。 作为一名 AI 研究人员,我对我的团队花费大量时间设置基准环境而不是实际改进模型感到沮丧。我们会花费数周时间配置环境,却在与其他团队比较结果时发现不一致。BenchFlow 最初是作为一个内部工具来标准化我们的评估过程,看到它为我们节省了如此多的时间后,我们决定将其开源。 与其他专注于特定领域的基准工具不同,BenchFlow 为任何 AI 任务提供了统一的接口。基于 Docker 的方法确保了不同机器和团队之间环境的一致性。您无需担心依赖冲突或环境设置,只需实现一个简单的接口,您就可以开始使用。 如何尝试它?请查看我们的链接,以下是预览: 1. pip install benchflow 2. 加载基准并定义如何调用您的代理/模型 3. 运行并获取结果 您今天可以尝试的可用基准: - MMLU-PRO:测试您模型在 57 个学科上的知识 - Bird:评估商业智能推理能力 - WebArena:查看您的代理在基于网络的任务中的表现 - MedQA-CS:测试医学问答能力 该框架处理所有的容器化、任务分配和结果收集,因此您可以专注于改进模型,而不是管理基础设施。 我很想听听您的反馈,并了解您如何使用它。您希望看到哪些基准被添加? 如果可以,请给我们一个星星,谢谢! GitHub: [https://github.com/benchflow-ai/benchflow](https://github.com/benchflow-ai/benchflow) 网站: [https://benchflow.ai/](https://benchflow.ai/) 基准中心: [https://benchflow.ai/benchmarks](https://benchflow.ai/benchmarks) 灵感来源: [https://github.com/ServiceNow/BrowserGym](https://github.com/ServiceNow/BrowserGym)