返回首页
24小时热榜
请访问以下链接获取更多信息: [https://www.swpc.noaa.gov/products/goes-proton-flux](https://www.swpc.noaa.gov/products/goes-proton-flux)
帖子作者在这里。我在周末对小规模开放权重模型(Qwen2.5-1.5B、Qwen3-1.7B、Gemma-3-1b-it 和 SmolLM2-1.7B)进行了红队测试。
我发现它们之间存在一个一致的漏洞:安全对齐几乎完全依赖于聊天模板的存在。
当我去掉了 <|im_start|> / 指令标记并传递原始字符串时:
Gemma-3 的拒绝率从 100% 降至 60%。
Qwen3 的拒绝率从 80% 降至 40%。
SmolLM2 显示出 0% 的拒绝率(完全服从)。
定性失败非常明显:之前拒绝生成炸药教程或露骨小说的模型,在没有触发模板的“助手”角色时,立即遵从。
看起来我们将客户端字符串格式化视为一个承重的安全墙。完整的日志、apply_chat_template 消融代码和热图都在帖子中。
阅读完整分析: [https://teendifferent.substack.com/p/apply_chat_template-is-the-safety](https://teendifferent.substack.com/p/apply_chat_template-is-the-safety)
我很想听听正在使用COBOL/大型机的人的看法。你们认为大型语言模型(LLMs)是对你们工作安全的威胁,还是相反?<p>我觉得实际上支撑经济运转的大量代码在AI编程代理的影响下几乎没有受到影响。