最新

我正在构建一个众包的人工智能检测基准。这个基准包含对同一提示的两个响应——一个来自真实人类（2022年前，证明在AI内容泛滥之前），另一个由AI生成。你需要选择出AI生成的内容。三次错误就会被淘汰。数据集包括来自Reddit、Hacker News和Yelp的16,000条人类帖子，每条帖子都与来自两个提供商（Anthropic和OpenAI）六个模型在三个能力层级下生成的AI内容配对。使用相同的提示，长度匹配，没有对抗性指导——仅仅是模型的自然声音和平台上下文。每次投票都会记录模型、层级、来源、响应时间和位置。初步测试结果显示：Reddit的帖子很容易识别（人类的表达太随意，AI难以模仿），而Hacker News则显著更难。我将把完整的数据集发布在HuggingFace上，如果通过这个众包研究能获得足够的数据，我会发表一篇论文。如果你选择仅玩Hacker News模式，你是在帮助校准AI在这个平台上的可检测性。我非常希望能收到关于这些配对的反馈——有没有哪些是显而易见的？有没有一些是真正困难的？

验证了 Copilot CLI 的编排和成本跟踪。

1 分•作者: bradkinnard•大约 2 个月前•原帖

电子琴电路图

1 分•作者: dmbche•大约 2 个月前•原帖

网络安全产品的简单明了描述。欢迎使用。

1 分•作者: mooreds•大约 2 个月前•原帖

Perlsky 是一个基于 Perl 5 实现的 at 协议个人数据服务器。

26 分•作者: mooreds•大约 2 个月前•原帖

上一页 1...733 734 735 736 737...5996 下一页