返回首页
最新
我很好奇,训练人工智能模型的成本(计算、能源、数据等)是如何随时间变化的。<p>有没有公开的资源或数据集跟踪开放权重模型的训练成本(我猜对于封闭模型来说,这些数据很难获取,但如果我错了,我很乐意接受纠正。)<p>我特别想了解哪些架构变化(例如,注意力变体、参数共享、专家混合)导致了主要的成本优化,而不仅仅是来自这些模型背后的公司,而是来自任何训练或复制过这些模型的人。
嘿,HN!我在Waymo构建了自驾模拟和评估系统。现在,我正在开发Scorecard,旨在将这种方法应用于代理评估:为人工智能提供可重复、自动化的评分。Scorecard让你可以:
- 在代理工作流程中运行大型语言模型作为评审的评估:测试工具使用情况、多步骤推理和在CI/CD或游乐场中的任务完成情况。
- 使用OpenTelemetry追踪调试失败:查看哪个工具失败、为什么你的代理出现循环,以及推理出错的地方。
- 在数据集、模拟代理和评估指标上进行协作。
试试吧 → [https://app.scorecard.io](https://app.scorecard.io)(免费套餐,无需付款!)
文档 → [https://docs.scorecard.io](https://docs.scorecard.io)
我们是一个小团队(4人),刚刚筹集了375万美元,目前已有早期客户在法律科技领域使用Scorecard进行评估。
我们的使命是消除非确定性错误。你见过的最奇怪的LLM输出是什么?