1作者: eigen-vector大约 2 个月前原帖
我正在构建一个众包的人工智能检测基准。这个基准包含对同一提示的两个响应——一个来自真实人类(2022年前,证明在AI内容泛滥之前),另一个由AI生成。你需要选择出AI生成的内容。三次错误就会被淘汰。 数据集包括来自Reddit、Hacker News和Yelp的16,000条人类帖子,每条帖子都与来自两个提供商(Anthropic和OpenAI)六个模型在三个能力层级下生成的AI内容配对。使用相同的提示,长度匹配,没有对抗性指导——仅仅是模型的自然声音和平台上下文。 每次投票都会记录模型、层级、来源、响应时间和位置。 初步测试结果显示:Reddit的帖子很容易识别(人类的表达太随意,AI难以模仿),而Hacker News则显著更难。 我将把完整的数据集发布在HuggingFace上,如果通过这个众包研究能获得足够的数据,我会发表一篇论文。 如果你选择仅玩Hacker News模式,你是在帮助校准AI在这个平台上的可检测性。 我非常希望能收到关于这些配对的反馈——有没有哪些是显而易见的?有没有一些是真正困难的?