返回首页
24小时热榜
帖子作者在这里。我在周末对小规模开放权重模型(Qwen2.5-1.5B、Qwen3-1.7B、Gemma-3-1b-it 和 SmolLM2-1.7B)进行了红队测试。
我发现它们之间存在一个一致的漏洞:安全对齐几乎完全依赖于聊天模板的存在。
当我去掉了 <|im_start|> / 指令标记并传递原始字符串时:
Gemma-3 的拒绝率从 100% 降至 60%。
Qwen3 的拒绝率从 80% 降至 40%。
SmolLM2 显示出 0% 的拒绝率(完全服从)。
定性失败非常明显:之前拒绝生成炸药教程或露骨小说的模型,在没有触发模板的“助手”角色时,立即遵从。
看起来我们将客户端字符串格式化视为一个承重的安全墙。完整的日志、apply_chat_template 消融代码和热图都在帖子中。
阅读完整分析: [https://teendifferent.substack.com/p/apply_chat_template-is-the-safety](https://teendifferent.substack.com/p/apply_chat_template-is-the-safety)
我很想听听正在使用COBOL/大型机的人的看法。你们认为大型语言模型(LLMs)是对你们工作安全的威胁,还是相反?<p>我觉得实际上支撑经济运转的大量代码在AI编程代理的影响下几乎没有受到影响。
大家好!<p>自从我了解到Teenage Engineering的Pocket Operators以来,我就成为了它们的忠实粉丝。今天我甚至拥有一台EP-133 K.O. II,我非常喜欢。<p>几个月前,Reddit用户andiam03分享了一份包含一些鼓点模式的Google表格[1]。我觉得这是一个非常酷的分享和理解节拍的方式。<p>在周末,我编写了一个基本版本的应用程序,今天我想和大家分享。我在空闲时间对它进行了多次迭代,昨天我觉得有了一个相当不错的版本可以分享给大家。<p>这个应用并不是为了作为一个音序器,而是一个用来实验节拍和基本声音的工具,可以保存它们并在你的歌曲中使用。它还具有通过链接分享的功能。<p>这个应用是使用Tone.js [2]、Stimulus [3]构建的,并作为静态网站部署在Render [4]上。我使用了一种大型语言模型(LLM)来阅读Tone.js的文档并生成声音,因为我对声音制作没有知识,然后在此基础上进行了修改。<p>总之,希望你们喜欢!我在构建它的过程中非常开心。<p>[0]: <a href="https://teenage.engineering" rel="nofollow">https://teenage.engineering</a><p>[1]: <a href="https://docs.google.com/spreadsheets/d/1GMRWxEqcZGdBzJg52soeVaY7iUSj1YncfIJZIPScBhM/edit" rel="nofollow">https://docs.google.com/spreadsheets/d/1GMRWxEqcZGdBzJg52soe...</a><p>[2]: <a href="https://tonejs.github.io" rel="nofollow">https://tonejs.github.io</a><p>[3]: <a href="https://stimulus.hotwired.dev" rel="nofollow">https://stimulus.hotwired.dev</a><p>[4]: <a href="http://render.com" rel="nofollow">http://render.com</a>