如今各类语音智能工具深度融入日常生活,涵盖智能语音助手、智能音箱、客服语音机器人等产品。可实现音频分析与内容生成的大型音语模型飞速发展,现已支持语音指令控设备、会议自动转录、背景音乐识别等功能。这类模型还可对接外部服务,联动多款应用程序完成各类操作。
但不法分子可将人耳无法感知的隐蔽声波嵌入普通音频中,在用户毫无察觉的情况下,诱导语音 AI 执行违规指令。将于下周在美国旧金山举办的 IEEE 安全与隐私研讨会上,相关最新研究成果正式对外公布:经过篡改的隐形音频片段,可操控 AI 模型行为,攻击成功率高达 79% 至 96%。该类攻击音频不受用户语音指令干扰,能够反复对同款 AI 模型发起攻击。
研究团队选取 13 款主流开源语音模型开展实测,其中包含微软、米斯特拉尔旗下商用语音 AI 服务。实验证实,借助该攻击手段,可诱导 AI 执行敏感网页检索、下载攻击者投放的恶意文件、擅自发送附带用户隐私数据的邮件等危险操作。
该研究第一作者、浙江大学博士生陈猛表示:“仅需半小时即可完成攻击信号训练,且该信号不受使用场景限制,无论用户下达何种语音指令,都能随时对目标 AI 模型发起攻击。”
本次研究建立在多年对抗性音频样本研究基础之上,这类经过篡改的音频专门用于迷惑人工智能模型。以往相关研究,大多仅针对语音识别、音频分类等单向功能模型,诱导其输出错误识别结果。
陈猛指出,此次研究最大突破在于直击具备自主应答、自主执行动作能力的生成式语音大模型。团队研发的攻击技术命名为音频劫持(AudioHijack),直指大型音语模型的核心安全隐患:这类模型支持音频形式指令输入,恶意隐藏指令便可植入篡改音频,诱发 AI 做出各类违规行为。
以往针对生成式 AI 的攻击,需要攻击者全程掌控输入音频与用户指令,模拟用户身份操作;而本次新型攻击仅篡改 AI 接收处理的音频数据,可在正常用户使用设备的过程中悄然发起入侵。
现实攻击场景十分广泛:在网络视频、音乐音频、语音备忘录中暗藏恶意指令,诱导 AI 解析识别;也可在线上会议语音中植入攻击音频,上传至 AI 语音转录平台完成入侵。团队未公开的最新实验还证实,该技术能够实时向 AI 实时语音对话场景注入恶意音频。
研究团队采用成熟的对抗样本制作方式,调整数字音频波形数值,在几乎不改变人耳听觉效果的前提下,让 AI 解析音频后触发异常行为。依靠优化算法反复调试音频片段,判定模型反馈效果,持续优化音频参数,最终精准操控 AI 完成攻击者指定行为。
对生成式语音大模型实施攻击存在极大技术难点。传统 AI 可精准反馈音频细微改动带来的运行变化,而生成语音模型会将音频拆分处理,转化为文本令牌特征值进行匹配识别,处理方式更为粗放。
这种粗略的解析模式,难以判定音频篡改是否达到预期攻击效果,直接干扰优化算法运行。为此研究团队搭建出精准反馈模拟方案,保障优化算法顺利完成音频篡改调试。
该调试过程需要调取模型底层参数权重,因此初期实验仅能依托开源模型开展。研究同时发现,适配开源模型的攻击手段,可直接套用至架构同源的微软、米斯特拉尔商用语音 AI 模型。
针对此次研究,微软官方回应:“我们认可该研究对同类攻击技术的探索价值,本次实验在可控环境下测试模型防御能力,能够助力我们完善 AI 安全防护体系。商用 AI 均搭载于各类应用场景,我们也为开发者提供完善安全工具与防护方案,全方位守护用户使用安全。”截至发稿,米斯特拉尔暂未对此事作出回应。
陈猛表示,OpenAI、Anthropic 等企业旗下闭源商用语音模型,因底层架构未对外公开,攻击难度大幅提升;但这类模型大多搭载开源预训练音频编码器,可成为重点突破方向,目前团队正对此展开专项研究。
为彻底规避用户语音指令干扰,确保恶意音频稳定生效,研究人员在算法优化阶段,搭配各类不同用户指令反复调试攻击音频。
团队还成功拿捏 AI 模型注意力机制,该机制用于筛选音频中的有效任务信息。研究人员测算模型对恶意音频与用户正常指令的注意力占比,将数据融入优化流程,大幅提升恶意音频对 AI 的引导优先级。
同时团队优化音频篡改方式,将篡改音效伪装成自然环境混响音效,对比传统噪音植入式攻击,隐蔽性大幅提升,普通人耳更难察觉异常。
本次实验成功实现六大恶意攻击行为:强制 AI 终止音频解析、拒绝执行用户指令、输出虚假错误信息、自动植入恶意网络链接、篡改 AI 自身人设身份、擅自调用违规第三方工具。
更值得警惕的是,市面上主流防御手段几乎无法抵御该攻击:提前录入恶意指令样本预警,仅能降低 7% 攻击成功率;让 AI 自主核验回复内容是否匹配用户需求,也仅能拦截 28% 的攻击行为。
陈猛坦言:“单一安全防护手段难以抵御此类攻击,AI 模型很难精准区分用户正常语音意图与隐蔽音频攻击指令。”
目前唯一有效的防御方式,是监测 AI 内部注意力运行机制,拦截恶意音频引导行为。但研究证实,攻击者可微调注意力引导强度,仅小幅降低攻击成功率,即可轻松绕过该防护手段。
马萨诸塞大学阿姆赫斯特分校计算机科学助理教授尤金・巴格达萨里安表示,音频在传播过程中会经历压缩、二次编辑等处理,会在一定程度削弱攻击效果,但多模态 AI 攻击至今仍是行业未攻克的安全难题。
他还提到:“文本攻击极易通过特殊字符、异常语句识别排查,而人类听觉存在极大局限,音频类隐蔽攻击的识别与防御难度远超文本攻击。”