单词乎下载
首页 手机游戏 手机应用 资讯 攻略 合集

诗意隐喻可稳定突破大语言模型安全防线

2025-11-25 02:27:33 标签:大语言模型

  由德克赛、罗马萨皮恩扎大学与圣安娜高等研究院组成的联合研究团队最新研究发现,通过将恶意请求包装成诗意隐喻形式,能有效诱使各类大语言模型突破其内置安全准则。这项发表于《对抗性诗歌:大型语言模型中通用的单轮越狱机制》的研究表明,诗歌形式的有害提示平均越狱成功率高达62%,远超传统攻击方式。

诗意隐喻可稳定突破大语言模型安全防线

  研究采用独创的"单轮攻击"模式,仅需提交一次诗歌化提示即可触发模型的不安全响应,无需构建复杂对话框架。实验数据显示,经过诗歌化重构的1200条标准有害提示,在九家主流厂商的25个前沿语言模型中仍取得43%的突破成功率,较原始散文提示效果提升五倍以上。

  在具体模型表现方面,谷歌Gemini 2.5 Pro对人工创作诗歌提示的响应率达100%,DeepSeek对批量转化诗歌的易感度超过70%。相较之下,OpenAI的GPT-5系列展现出较强抗性,拒绝率达到90%-95%,但仍有约60条诗歌提示可诱发信息泄露。

  值得注意的是,研究还发现模型规模与易感性存在负相关。训练数据更有限的小型模型反而表现出更强抵抗力,研究者推测这可能源于其隐喻解析能力较弱,或与大型模型在文学文本训练中形成的叙事表征干扰安全机制有关。

  该研究援引柏拉图《理想国》中驱逐诗人的典故,揭示人工智能时代语言安全面临的全新挑战。团队呼吁亟需开发能识别比喻语言特质的防护机制,以防此类符合正常语用习惯的转化攻击持续威胁对齐系统安全。

推荐内容

  • ‌《inZOI》全面优化游戏稳定性与互动体验
      inZOI工作室近期推出《inZOI》热更新v0.4.2版本,重点强化了游戏运行稳定性并显著提升交互流畅度,同时针对各类系统漏洞进行集中修复。本次更新通过调整服装与家具的污垢积累机制使其更贴近现实逻辑,并丰富了社交与超自然互动内容——例如幽灵角色现可执行坐椅互动,持有骨灰盒的玩家能够触发葬礼策划功能。这些调整展现了开发团队自抢先体验版发布后,持续完善游戏沉浸感并积极采纳玩家反馈的迭代方向。
    2025-11-07
  • 《逃离鸭科夫》金属片稳定获取指南‌
    在游戏过程中,玩家可通过基地售货机稳定获取金属片资源。除了扳手无法分解外,售货机提供的螺丝刀、锤子、剪刀等工具均可分解获得金属片。每次购买可制作三片金属片,而分解打火机、怀表等物品也能获得不同数量的金属片。
    2025-10-29
  • 富士康印度工厂再现工程师撤离潮 全球供应链稳定性引关注
    富士康印度工厂近期再次出现中国工程师撤离现象,这已是该企业数月内第二次采取类似行动。据最新消息,这家苹果公司的主要代工伙伴从其位于印度泰米尔纳德邦的玉展科技工厂召回了约300名中国技术人员。
    2025-08-25
  • 任天堂Switch 2/1推送20.3.0系统更新 重点优化运行稳定性
      7月29日,任天堂官方正式发布Switch 2/1游戏主机的最新系统升级版本20.3.0。本次更新主要针对系统稳定性进行优化,并修复了部分已知问题,具体修复细节官方暂未详细披露。
    2025-07-29
  • 任天堂员工稳定性领跑游戏行业 高留存率成业界标杆
      在全球游戏行业频繁裁员的背景下,任天堂交出了一份令人瞩目的员工稳定性报告。最新数据显示,该公司2024-2025财年全球员工留存率高达98%,这一数字远超行业平均水平。
    2025-07-22
相关推荐
App排行
最新App
单词乎下载频道为你分享最新的手机APP! www.dancihu.com App上传