1作者: zuck_vs_musk5 个月前原帖
我们处理来自各种来源的数据和文档,然后: - 将所有文本转换(使用不同的光学字符识别技术) - 将其传递给大型语言模型(LLM)——根据客户的需求,可能会使用更便宜的模型,并且我们确实有模型的备选方案。 工程师如何评估这些系统? 1. 新模型和新库不断涌现。 2. 即使是第三方的部署模型也会随着时间的推移而变化,可能会改善或退化我们的系统。 对于这些评估,有什么好的方法吗?