[LG]《Character-Level Perturbations Disrupt LLM Watermarks》Z Zhang, X Zhang, Y Zhang, H Zhang... [University of Technology Sydney & Griffith University] (2025)
LLM水印技术虽为内容版权保护与滥用防范提供新途径,但其鲁棒性被严重低估。最新研究表明,字符级扰动攻击远超词级和句级方法,能以更少修改量高效破坏水印,挑战现有防护策略。
• 字符级扰动(如同形异义字替换、错字、字符插入或删除)通过干扰分词过程,单次修改影响多个token,攻击范围(h+3)显著大于词级(h+1)。
• 在无访问原始水印检测器的限制威胁模型下,随机字符级扰动即展现强水印去除能力,攻击成功率(ASR)和水印分数下降率(WDR)均优于传统方法。
• 设计基于遗传算法的引导攻击,借助有限查询预算训练的轻量参考检测器,有效识别关键修改点,提升去除效率,远超无指导的随机搜索。
• 传统基于梯度的对抗文本攻击因参考检测器与原检测器决策边界不匹配,难以实现有效迁移攻击。
• 针对潜在防御(拼写纠正、OCR重识别、Unicode规范化、异常字符删除),提出适应性复合字符扰动攻击,打破固定防御策略的“对抗困境”,保持高效的去水印效果。
• 多模型、多水印方案实验验证字符级扰动的普适性和稳定性,且跨语言(英文、法文)同样有效。
• 人类评测显示,字符级扰动在保持文本语义和流畅性方面优于词级扰动,且视觉上更隐蔽。
心得:
1. 水印的鲁棒性评价不能仅依赖传统高层修改,应聚焦底层分词机制的脆弱性,字符级扰动揭露了水印设计的根本弱点。
2. 有限查询条件下,构建参考检测器并结合元启发式优化,是提升去水印攻击效率与效果的关键路径。
3. 固定防御策略难以抵抗多样化的复合扰动攻击,未来水印设计需从根本上提升对抗复杂字符扰动的能力。
详见🔗arxiv.org/abs/2509.09112
大语言模型水印技术安全攻击字符级扰动遗传算法AI安全