单词乎下载
首页 手机游戏 手机应用 资讯 攻略 合集

诗意隐喻可稳定突破大语言模型安全防线

2025-11-25 02:27:33 标签:大语言模型

  由德克赛、罗马萨皮恩扎大学与圣安娜高等研究院组成的联合研究团队最新研究发现,通过将恶意请求包装成诗意隐喻形式,能有效诱使各类大语言模型突破其内置安全准则。这项发表于《对抗性诗歌:大型语言模型中通用的单轮越狱机制》的研究表明,诗歌形式的有害提示平均越狱成功率高达62%,远超传统攻击方式。

诗意隐喻可稳定突破大语言模型安全防线

  研究采用独创的"单轮攻击"模式,仅需提交一次诗歌化提示即可触发模型的不安全响应,无需构建复杂对话框架。实验数据显示,经过诗歌化重构的1200条标准有害提示,在九家主流厂商的25个前沿语言模型中仍取得43%的突破成功率,较原始散文提示效果提升五倍以上。

  在具体模型表现方面,谷歌Gemini 2.5 Pro对人工创作诗歌提示的响应率达100%,DeepSeek对批量转化诗歌的易感度超过70%。相较之下,OpenAI的GPT-5系列展现出较强抗性,拒绝率达到90%-95%,但仍有约60条诗歌提示可诱发息泄露。

  值得注意的是,研究还发现模型规模与易感性存在负相关。训练数据更有限的小型模型反而表现出更强抵抗力,研究者推测这可能源于其隐喻解析能力较弱,或与大型模型在文学文本训练中形成的叙事表征干扰安全机制有关。

  该研究援引柏拉图《理想国》中驱逐诗人的典故,揭示人工智能时代语言安全面临的全新挑战。团队呼吁亟需开发能识别比喻语言特质的防护机制,以防此类符合正常语用习惯的转化攻击持续威胁对齐系统安全。

推荐内容

  • ‌《战地6》发布1.2.2.5更新,专注修复提升稳定性‌
      《战地6》开发团队宣布,将于3月31日正式推送游戏1.2.2.5版本更新。本次更新聚焦于多项小型修复与优化,核心目标是提升游戏的总体稳定性与对战体验的一致性,重点解决了画面渲染、对局匹配机制以及地图中出现的各类错误。
    2026-03-30
  • 《生化危机9:安魂曲》上线首更 修复帧率稳定性
      卡普空近日为旗下恐怖大作《生化危机9:安魂曲》发布了上市后的首个重要更新补丁。针对PC玩家,此次更新体积约1.4GB,安装后版本号将升至1.110.000。
    2026-03-07
  • 内存价格翻番苹果照单全收:确保供应链稳定成首要考量
    据韩媒报道,日前三星电子半导体部门(DS)在与苹果洽谈新款移动设备内存价格时展现强势。三星方面将芯片涨幅目标定为60%,但在最终报价中却提出了高达100%的涨幅,出乎三星意料的是,苹果方面未多作议价,便直接接受了这一价格。
    2026-02-28
  • ‌迅雷加速器推出新春特惠,低价畅享稳定游戏网络
      新春假期将至,游戏成为许多用户休闲娱乐的主要方式。无论是除夕夜的家庭团聚后的团队激战,还是长假中的沉浸式游戏体验,都离不开高速稳定的网络支持。为帮助玩家畅享流畅对局,迅雷加速器于新春期间推出专属特惠活动,同时对产品进行了视觉与内核的双重优化升级。
    2026-02-12
  • ‌索尼宣布:PS5关键部件供应稳定 暗示不涨价
      在索尼最新季度财报电话会议上,其首席财务官林涛发表声明,回应了市场对‌内存持续短缺引发PS5主机价格再次上涨的担忧‌,并表示目前情况稳定。他指出,集团已就内存等核心零部件锁定了足够数量的最低保障供应额度,能支持公司在整个下一财年的销售计划。
    2026-02-06
相关推荐
App排行
最新App
单词乎下载频道为你分享最新的手机APP! www.dancihu.com App上传