单词乎下载
首页 手机游戏 手机应用 资讯 攻略 合集

诗意隐喻可稳定突破大语言模型安全防线

2025-11-25 02:27:33 标签:大语言模型

  由德克赛、罗马萨皮恩扎大学与圣安娜高等研究院组成的联合研究团队最新研究发现,通过将恶意请求包装成诗意隐喻形式,能有效诱使各类大语言模型突破其内置安全准则。这项发表于《对抗性诗歌:大型语言模型中通用的单轮越狱机制》的研究表明,诗歌形式的有害提示平均越狱成功率高达62%,远超传统攻击方式。

诗意隐喻可稳定突破大语言模型安全防线

  研究采用独创的"单轮攻击"模式,仅需提交一次诗歌化提示即可触发模型的不安全响应,无需构建复杂对话框架。实验数据显示,经过诗歌化重构的1200条标准有害提示,在九家主流厂商的25个前沿语言模型中仍取得43%的突破成功率,较原始散文提示效果提升五倍以上。

  在具体模型表现方面,谷歌Gemini 2.5 Pro对人工创作诗歌提示的响应率达100%,DeepSeek对批量转化诗歌的易感度超过70%。相较之下,OpenAI的GPT-5系列展现出较强抗性,拒绝率达到90%-95%,但仍有约60条诗歌提示可诱发息泄露。

  值得注意的是,研究还发现模型规模与易感性存在负相关。训练数据更有限的小型模型反而表现出更强抵抗力,研究者推测这可能源于其隐喻解析能力较弱,或与大型模型在文学文本训练中形成的叙事表征干扰安全机制有关。

  该研究援引柏拉图《理想国》中驱逐诗人的典故,揭示人工智能时代语言安全面临的全新挑战。团队呼吁亟需开发能识别比喻语言特质的防护机制,以防此类符合正常语用习惯的转化攻击持续威胁对齐系统安全。

推荐内容

  • 内存价格翻番苹果照单全收:确保供应链稳定成首要考量
    据韩媒报道,日前三星电子半导体部门(DS)在与苹果洽谈新款移动设备内存价格时展现强势。三星方面将芯片涨幅目标定为60%,但在最终报价中却提出了高达100%的涨幅,出乎三星意料的是,苹果方面未多作议价,便直接接受了这一价格。
    2026-02-28
  • ‌迅雷加速器推出新春特惠,低价畅享稳定游戏网络
      新春假期将至,游戏成为许多用户休闲娱乐的主要方式。无论是除夕夜的家庭团聚后的团队激战,还是长假中的沉浸式游戏体验,都离不开高速稳定的网络支持。为帮助玩家畅享流畅对局,迅雷加速器于新春期间推出专属特惠活动,同时对产品进行了视觉与内核的双重优化升级。
    2026-02-12
  • ‌索尼宣布:PS5关键部件供应稳定 暗示不涨价
      在索尼最新季度财报电话会议上,其首席财务官林涛发表声明,回应了市场对‌内存持续短缺引发PS5主机价格再次上涨的担忧‌,并表示目前情况稳定。他指出,集团已就内存等核心零部件锁定了足够数量的最低保障供应额度,能支持公司在整个下一财年的销售计划。
    2026-02-06
  • ‌微软调整战略:减少强制AI集成,回归系统稳定性‌
      过去几年,微软大力推行“AI Everywhere”战略,在各类产品中广泛集成Copilot、Recall等人工智能功能。然而,许多用户对此并不认可,甚至已有PC厂商公开反对过度强调AI。例如,戴尔在CES 2026的新品发布中,已将重点重新转向硬件,这在一定程度上影响了微软的决策方向。
    2026-02-04
  • Win11系统更新变“Bug制造机” 补丁再现性能与稳定性问题‌
    Windows 11系统似乎正在陷入一个“逢更新必出Bug”的怪圈。上周,微软例行发布了开年系统补丁KB5074109,但随之而来的却是一系列影响广泛的问题,包括‌系统无法正常关机、Outlook软件卡死、远程桌面连接失败‌,甚至还有用户报告称‌显卡性能出现下降‌。
    2026-01-22
相关推荐
App排行
最新App
单词乎下载频道为你分享最新的手机APP! www.dancihu.com App上传