早在 2025 年,语音行业就达成一个共识:语音是最自然的交互方式,这一理念至今依旧适用。语言是人类最早学会的沟通方式,也是日常生活里最顺手的交流途径。但想要实现真正流畅的语音对话,绝不止是把语音转成文字这么简单。
恩智浦认为,人类日常交流中自带的各类隐性社交沟通能力,想要和人类顺畅交流的机器人,尤其是人形机器人,也必须全部具备。
人类沟通时会同步接收多层信息:看懂对方情绪、肢体动作、视线方向;分清说话停顿和语句结束;多人聊天时自然把控发言次序;自动屏蔽环境噪音、回声杂音;还能根据场合氛围、对方年龄身份灵活调整说话方式。
恩智浦在研发方案时始终秉持这一理念:机器人想要贴近人类沟通,就必须练就这些人性化的交互能力。
多年来,人工智能行业陆续落地了关键词唤醒、语音转文字、文字转语音等基础语音技术,大语言模型、视觉语言模型又进一步强化了智能设备的逻辑推理能力。后续音频大模型、语音互译模型不断涌现,试图打通语音交互与智能思考之间的壁垒。但目前这类方案,依旧没法让机器人在本地边缘设备上,实现低延迟、高稳定的流畅对话交互。
很多对话交互产品在实际使用中体验不佳,研发方大多只会一味扩大模型体量、优化提示词,不仅会大幅拉高推理延迟、拖累使用体验,还没能解决最核心的问题 —— 原始收音音频质量差。
恩智浦注意力前端语音交互方案架构示意图恩智浦推出注意力前端交互方案(AFE),从根源解决人机语音交互难题。该方案融合多模态感知技术与音频降噪优化技术,不会盲目收录所有环境声音,而是精准判断用户是否主动想要和机器人对话,同时优化收音音质,实现设备本地低延迟、高稳定的语音交互,不再过度依赖云端超大算力模型。
这套方案整合多种感知能力协同工作:
·视觉感知:实时分析现场画面、识别人数、识别已录入用户身份、判断人与机器距离,锁定正对着机器人说话的目标人员
·语音感知:识别是否有人发声、匹配专属声纹特征、判断声音来源方向,自动将收音焦点对准说话人,同时自动识别分析现场声学环境
只有同时满足视觉锁定目标、语音检测到人声、距离与角度都合适等多重条件,系统才会正式启动语音转文字处理。
依靠这套精准触发机制,搭配恩智浦自研语音音频算法,无论是安静室内还是嘈杂环境、低信噪比场景,都能大幅降低语音识别错误率。
除此之外,方案还融入超宽带 UWB定位技术,进一步补齐空间感知能力。依托 Trimension SR250 等芯片方案,机器人可以精准锁定用户手机或是其他机器人的实时位置,自主判断人和同伴的方位并做出对应回应。UWB 定位精度可达厘米级,功耗低,在复杂环境下运行稳定,能够助力机器人完成室内外导航、近距离跟随、近距离互动等智能行为。

搭载恩智浦注意力前端交互方案的波士顿动力 Spot 机器狗
实测数据可以直观体现效果:搭配恩智浦注意力前端方案后,Whisper 等主流语音转文字模型的识别错误率,相比单独使用模型运行有着明显改善。

简单来说,这套方案让机器人拥有接近人类的倾听能力:专注聆听指定说话人的声音,自动忽略无关杂音,就算身处嘈杂环境也能清晰听懂指令。 依托视觉、语音、近距离定位三大能力融合优化,给到语音识别模型的音频信号更加纯净,既提升交互响应速度与识别准确率,也真正实现了边缘设备端自然流畅的对话式 AI 交互。
开发者可以借助 i.MX 95 开发评估板,快速测评体验这套注意力前端交互方案。
下一篇