PAST2HARM：一种用于越狱多模态AI的简单自适应过去时攻击

这篇论文最令人警醒之处，或许不在于它又发明了一种新的攻击技巧——越狱方法在AI安全领域已不鲜见——而在于它精准地揭示了当前安全范式中一个基础性的思维盲区：我们的防护体系似乎在与一个“静态的对手”博弈，而忽略了上下文和语义的微妙演变本身就是最强大的攻击面。

PAST2HARM的核心操作，是将一句直白的有害请求，包裹进“历史研究”、“档案分析”的过去时态外衣中。这听起来有些“取巧”，但它恰恰击中了当前安全训练的一个痛点。模型的安全对齐，很大程度上依赖于识别那些在训练数据中与“有害”标签强相关的模式或关键词。当用户说“生成一张暴力的图片”，模型能立刻识别并拒绝。但当请求变成“请生成一张用于历史课件、展示1940年代某次冲突中典型场景的档案风格图片”，模型内置的安全分类器可能就会陷入犹豫。攻击者正是利用了这种犹豫，并通过“时间深度”——不断添加更具体的年代、档案编号、研究背景等伪细节——来持续施压，一步步侵蚀模型的拒绝边界。这就像对一个严格守卫的城堡，不去正面强攻，而是伪装成考古队，以“学术研究”的名义申请进入，在取得初步许可后，再逐步深入禁区。

更值得深思的是论文发现的“对话中期峰值脆弱窗口”。这暗示模型的安全机制并非一个稳定的状态，而是一个在交互过程中会被消耗和扰动的动态过程。最初的拒绝是基于预设规则，而一旦模型在“历史语境”的诱导下给出了第一个合规响应（比如生成了一张模糊的、看似无害的历史场景图），这个行为本身就会改变其后续的决策上下文。模型可能会进入一种“已完成安全检查，现在正在协作”的模式，导致其后续的审查阈值降低。这种“逐步升级”的攻击，与人类社会中的道德滑坡现象惊人地相似，暴露了模型缺乏一个贯穿多轮对话的、稳固的“价值锚点”。

这项研究暴露的，是多模态安全相对于纯文本安全特有的复杂性。对于文生图模型，有害性不仅存在于文本指令中，更最终体现在生成的视觉内容里。一个历史题材的文本提示，可以生成极具煽动性的仇恨图像。当前的安全训练，可能更多地分别关注了文本输入端和图像输出端的独立安全，却对“文本-语义-视觉”这条因果链路上的风险传导和放大缺乏足够的建模。PAST2HARM就像一根探针，精准地刺向了这个结合部。

从行业观察的角度看，这指向了一个更深层的挑战：AI安全是否正在陷入一场“打地鼠”式的军备竞赛？我们不断针对已知的攻击模式（如特定关键词、直接指令）加固防线，但攻击者总能通过更巧妙的语义重构和上下文操纵，找到新的缝隙。真正的解决之道，可能不在于筑起更高的墙，而在于让模型拥有更深刻、更鲁棒的价值理解能力——能够穿透语言的伪装，识别请求背后潜在的真实意图和可能造成的根本性伤害。这要求安全对齐从“模式匹配”走向“实质理解”，从依赖数据中已有的“有害样本”，走向对价值原则的抽象和推理。PAST2HARM的论文本身也主动开源了攻击数据集

PAST2HARM：一种用于越狱多模态AI的简单自适应过去时攻击

深度分析

相关文章