返回首页

24小时热榜

45作者: WorldPeas大约 5 小时前原帖
请访问以下链接获取更多信息: [https://www.swpc.noaa.gov/products/goes-proton-flux](https://www.swpc.noaa.gov/products/goes-proton-flux)
30作者: teendifferent大约 20 小时前原帖
帖子作者在这里。我在周末对小规模开放权重模型(Qwen2.5-1.5B、Qwen3-1.7B、Gemma-3-1b-it 和 SmolLM2-1.7B)进行了红队测试。 我发现它们之间存在一个一致的漏洞:安全对齐几乎完全依赖于聊天模板的存在。 当我去掉了 <|im_start|> / 指令标记并传递原始字符串时: Gemma-3 的拒绝率从 100% 降至 60%。 Qwen3 的拒绝率从 80% 降至 40%。 SmolLM2 显示出 0% 的拒绝率(完全服从)。 定性失败非常明显:之前拒绝生成炸药教程或露骨小说的模型,在没有触发模板的“助手”角色时,立即遵从。 看起来我们将客户端字符串格式化视为一个承重的安全墙。完整的日志、apply_chat_template 消融代码和热图都在帖子中。 阅读完整分析: [https://teendifferent.substack.com/p/apply_chat_template-is-the-safety](https://teendifferent.substack.com/p/apply_chat_template-is-the-safety)