1作者: rjfc1 天前原帖
我注意到有很多专注于离线评估的LLMOps平台,但我找不到任何能够在生产环境中管理A/B测试并将不同的提示与可量化的用户指标关联起来的工具。例如,能够测试两个系统提示,并查看哪个提示实际上提高了用户成功率或参与度。这在销售或客户支持代理等场景中可能会很有用。 因此,我构建了一个平台,使您能够更轻松地在生产环境中实验不同的系统提示。您可以记录自己的指标,并且系统会自动将这些信息与用户所处的实验处理关联起来。您可以在用户界面中更新这些实验和提示,而无需等待下一个部署。 目前仍处于早期阶段,但非常希望能收到任何反馈!
13作者: csmoak1 天前原帖
MTurk是由AWS的两个小团队在一年内开发而成,并于2005年11月2日正式上线。起初人们花了几天时间才发现并适应这个平台,但随后事情就变得繁忙起来。 当时,AWS大约有100名员工(当你在值班时,意味着你要负责整个AWS),亚马逊刚刚达到10,000名员工,S3仍处于私人测试阶段,而EC2还只是一份白皮书。 你利用MTurk和其背后那支耐心且勤奋的劳动力创造了什么呢?