由德克赛、罗马萨皮恩扎大学与圣安娜高等研究院组成的联合研究团队最新研究发现,通过将恶意请求包装成诗意隐喻形式,能有效诱使各类大语言模型突破其内置安全准则。这项发表于《对抗性诗歌:大型语言模型中通用的单轮越狱机制》的研究表明,诗歌形式的有害提示平均越狱成功率高达62%,远超传统攻击方式。

研究采用独创的"单轮攻击"模式,仅需提交一次诗歌化提示即可触发模型的不安全响应,无需构建复杂对话框架。实验数据显示,经过诗歌化重构的1200条标准有害提示,在九家主流厂商的25个前沿语言模型中仍取得43%的突破成功率,较原始散文提示效果提升五倍以上。
在具体模型表现方面,谷歌Gemini 2.5 Pro对人工创作诗歌提示的响应率达100%,DeepSeek对批量转化诗歌的易感度超过70%。相较之下,OpenAI的GPT-5系列展现出较强抗性,拒绝率达到90%-95%,但仍有约60条诗歌提示可诱发信息泄露。
值得注意的是,研究还发现模型规模与易感性存在负相关。训练数据更有限的小型模型反而表现出更强抵抗力,研究者推测这可能源于其隐喻解析能力较弱,或与大型模型在文学文本训练中形成的叙事表征干扰安全机制有关。
该研究援引柏拉图《理想国》中驱逐诗人的典故,揭示人工智能时代语言安全面临的全新挑战。团队呼吁亟需开发能识别比喻语言特质的防护机制,以防此类符合正常语用习惯的转化攻击持续威胁对齐系统安全。





























浙公网安备 33010502007447号