语音 AI 系统易遭受隐秘音频攻击

admin 行业资讯 (1) 刚刚

如今各类语音智能工具深度融入日常生活，涵盖智能语音助手、智能音箱、客服语音机器人等产品。可实现音频分析与内容生成的大型音语模型飞速发展，现已支持语音指令控设备、会议自动转录、背景音乐识别等功能。这类模型还可对接外部服务，联动多款应用程序完成各类操作。

但不法分子可将人耳无法感知的隐蔽声波嵌入普通音频中，在用户毫无察觉的情况下，诱导语音 AI 执行违规指令。将于下周在美国旧金山举办的 IEEE 安全与隐私研讨会上，相关最新研究成果正式对外公布：经过篡改的隐形音频片段，可操控 AI 模型行为，攻击成功率高达 79% 至 96%。该类攻击音频不受用户语音指令干扰，能够反复对同款 AI 模型发起攻击。

研究团队选取 13 款主流开源语音模型开展实测，其中包含微软、米斯特拉尔旗下商用语音 AI 服务。实验证实，借助该攻击手段，可诱导 AI 执行敏感网页检索、下载攻击者投放的恶意文件、擅自发送附带用户隐私数据的邮件等危险操作。

该研究第一作者、浙江大学博士生陈猛表示：“仅需半小时即可完成攻击信号训练，且该信号不受使用场景限制，无论用户下达何种语音指令，都能随时对目标 AI 模型发起攻击。”

本次研究建立在多年对抗性音频样本研究基础之上，这类经过篡改的音频专门用于迷惑人工智能模型。以往相关研究，大多仅针对语音识别、音频分类等单向功能模型，诱导其输出错误识别结果。

陈猛指出，此次研究最大突破在于直击具备自主应答、自主执行动作能力的生成式语音大模型。团队研发的攻击技术命名为音频劫持（AudioHijack），直指大型音语模型的核心安全隐患：这类模型支持音频形式指令输入，恶意隐藏指令便可植入篡改音频，诱发 AI 做出各类违规行为。

以往针对生成式 AI 的攻击，需要攻击者全程掌控输入音频与用户指令，模拟用户身份操作；而本次新型攻击仅篡改 AI 接收处理的音频数据，可在正常用户使用设备的过程中悄然发起入侵。

现实攻击场景十分广泛：在网络视频、音乐音频、语音备忘录中暗藏恶意指令，诱导 AI 解析识别；也可在线上会议语音中植入攻击音频，上传至 AI 语音转录平台完成入侵。团队未公开的最新实验还证实，该技术能够实时向 AI 实时语音对话场景注入恶意音频。

研究团队采用成熟的对抗样本制作方式，调整数字音频波形数值，在几乎不改变人耳听觉效果的前提下，让 AI 解析音频后触发异常行为。依靠优化算法反复调试音频片段，判定模型反馈效果，持续优化音频参数，最终精准操控 AI 完成攻击者指定行为。

对生成式语音大模型实施攻击存在极大技术难点。传统 AI 可精准反馈音频细微改动带来的运行变化，而生成语音模型会将音频拆分处理，转化为文本令牌特征值进行匹配识别，处理方式更为粗放。

这种粗略的解析模式，难以判定音频篡改是否达到预期攻击效果，直接干扰优化算法运行。为此研究团队搭建出精准反馈模拟方案，保障优化算法顺利完成音频篡改调试。

该调试过程需要调取模型底层参数权重，因此初期实验仅能依托开源模型开展。研究同时发现，适配开源模型的攻击手段，可直接套用至架构同源的微软、米斯特拉尔商用语音 AI 模型。

针对此次研究，微软官方回应：“我们认可该研究对同类攻击技术的探索价值，本次实验在可控环境下测试模型防御能力，能够助力我们完善 AI 安全防护体系。商用 AI 均搭载于各类应用场景，我们也为开发者提供完善安全工具与防护方案，全方位守护用户使用安全。”截至发稿，米斯特拉尔暂未对此事作出回应。

陈猛表示，OpenAI、Anthropic 等企业旗下闭源商用语音模型，因底层架构未对外公开，攻击难度大幅提升；但这类模型大多搭载开源预训练音频编码器，可成为重点突破方向，目前团队正对此展开专项研究。

为彻底规避用户语音指令干扰，确保恶意音频稳定生效，研究人员在算法优化阶段，搭配各类不同用户指令反复调试攻击音频。

团队还成功拿捏 AI 模型注意力机制，该机制用于筛选音频中的有效任务信息。研究人员测算模型对恶意音频与用户正常指令的注意力占比，将数据融入优化流程，大幅提升恶意音频对 AI 的引导优先级。

同时团队优化音频篡改方式，将篡改音效伪装成自然环境混响音效，对比传统噪音植入式攻击，隐蔽性大幅提升，普通人耳更难察觉异常。

本次实验成功实现六大恶意攻击行为：强制 AI 终止音频解析、拒绝执行用户指令、输出虚假错误信息、自动植入恶意网络链接、篡改 AI 自身人设身份、擅自调用违规第三方工具。

更值得警惕的是，市面上主流防御手段几乎无法抵御该攻击：提前录入恶意指令样本预警，仅能降低 7% 攻击成功率；让 AI 自主核验回复内容是否匹配用户需求，也仅能拦截 28% 的攻击行为。

陈猛坦言：“单一安全防护手段难以抵御此类攻击，AI 模型很难精准区分用户正常语音意图与隐蔽音频攻击指令。”

目前唯一有效的防御方式，是监测 AI 内部注意力运行机制，拦截恶意音频引导行为。但研究证实，攻击者可微调注意力引导强度，仅小幅降低攻击成功率，即可轻松绕过该防护手段。

马萨诸塞大学阿姆赫斯特分校计算机科学助理教授尤金・巴格达萨里安表示，音频在传播过程中会经历压缩、二次编辑等处理，会在一定程度削弱攻击效果，但多模态 AI 攻击至今仍是行业未攻克的安全难题。

他还提到：“文本攻击极易通过特殊字符、异常语句识别排查，而人类听觉存在极大局限，音频类隐蔽攻击的识别与防御难度远超文本攻击。”

伊朗副外长公布伊对美协议草案提议包括美军从周边地区撤离

AI进入“结果交付时代”，百度率先跨过价值拐点

语音 AI 系统易遭受隐秘音频攻击

相关推荐

普京即将访华，外媒：中俄关系已达前所未有的高水平

伊朗称在东南部摧毁4个极端组织武装小组

尼日利亚男子载棺材骑摩托 在马路上狂飙炫技

本田联手 LG 新能源布局越南，推广换电式电动摩托车业务

最新文章

尼日利亚男子载棺材骑摩托在马路上狂飙炫技