2作者: ubutler27 天前原帖
嘿,HN, 我很高兴地分享《大规模法律嵌入基准》(Massive Legal Embedding Benchmark,简称MLEB)——这是第一个全面的法律嵌入模型基准。 与以往的法律检索数据集不同,MLEB是由具有实际领域专业知识的人创建的(我拥有法律学位,并曾在澳大利亚总检察长办公室领导人工智能团队)。 我在尝试训练自己的最先进法律嵌入模型时想到了MLEB。我发现没有合适的法律信息检索基准来评估我的模型。 这促使我和我的兄弟花了几个月的时间来识别或在许多情况下构建我们自己的高质量法律评估集。 最终产品是10个数据集,涵盖多个法域(美国、英国、澳大利亚、新加坡和爱尔兰)、文档类型(案例、法律、法规、合同和教科书)以及问题类型(检索、零样本分类和问答),所有数据集都经过质量、多样性和实用性的审核。 为了在MLEB上表现良好,模型需要具备广泛的法律领域知识和强大的法律推理能力。这是有意为之——考虑到高质量嵌入对法律RAG(特别是在减少幻觉方面)的重要性,我们希望我们的基准尽可能与现实世界的实用性相关联。 我们最自豪的数据集名为《澳大利亚税务指导检索》。它将澳大利亚纳税人提出的真实税务问题与相关的澳大利亚政府指导和政策文件配对。 我们通过从澳大利亚税务局的社区论坛中获取问题来构建该数据集,论坛中,澳大利亚纳税人向会计师和ATO官员询问他们的税务问题。 我们发现,在大多数情况下,这些问题可以通过参考政府网页来回答,而用户出于某种原因未能找到这些网页。因此,我们手动筛选了112个具有挑战性的论坛问题,并提取了税务专家确认的相关政府指导材料的相关部分。 该数据集之所以如此有价值,是因为与目前可用的大多数法律信息检索评估集不同,它由真正具有挑战性的真实用户创建的问题组成,而不是有时与嵌入模型实际使用的任务类型相差甚远的人工构造查询。 《澳大利亚税务指导检索》只是我们辛苦构建的几个评估集之一,因为当时没有其他选择。 我们将所有内容,包括用于在MLEB上评估模型的代码,贡献回开源社区。 我们的希望是,MLEB及其内部的数据集能够在未来长期保持价值,以便其他训练法律信息检索模型的人不必绕道去构建自己的“法律MTEB”。 如果您想直接查看排行榜,而不是阅读我们的完整公告,可以在这里找到: [https://isaacus.com/mleb](https://isaacus.com/mleb) 如果您有兴趣尝试我们的模型,截止到2025年10月16日,它在MLEB上排名第一,请查看我们的文档: [https://docs.isaacus.com/quickstart](https://docs.isaacus.com/quickstart)