赋能边缘端对话式人工智能

admin 行业资讯 (1) 刚刚

早在 2025 年，语音行业就达成一个共识：语音是最自然的交互方式，这一理念至今依旧适用。语言是人类最早学会的沟通方式，也是日常生活里最顺手的交流途径。但想要实现真正流畅的语音对话，绝不止是把语音转成文字这么简单。

恩智浦认为，人类日常交流中自带的各类隐性社交沟通能力，想要和人类顺畅交流的机器人，尤其是人形机器人，也必须全部具备。

人类沟通时会同步接收多层信息：看懂对方情绪、肢体动作、视线方向；分清说话停顿和语句结束；多人聊天时自然把控发言次序；自动屏蔽环境噪音、回声杂音；还能根据场合氛围、对方年龄身份灵活调整说话方式。

恩智浦在研发方案时始终秉持这一理念：机器人想要贴近人类沟通，就必须练就这些人性化的交互能力。

多年来，人工智能行业陆续落地了关键词唤醒、语音转文字、文字转语音等基础语音技术，大语言模型、视觉语言模型又进一步强化了智能设备的逻辑推理能力。后续音频大模型、语音互译模型不断涌现，试图打通语音交互与智能思考之间的壁垒。但目前这类方案，依旧没法让机器人在本地边缘设备上，实现低延迟、高稳定的流畅对话交互。

很多对话交互产品在实际使用中体验不佳，研发方大多只会一味扩大模型体量、优化提示词，不仅会大幅拉高推理延迟、拖累使用体验，还没能解决最核心的问题 —— 原始收音音频质量差。

赋能边缘端对话式人工智能_http://www.hnzqjt.cn_行业资讯_第1张

恩智浦注意力前端语音交互方案架构示意图

恩智浦推出注意力前端交互方案（AFE），从根源解决人机语音交互难题。该方案融合多模态感知技术与音频降噪优化技术，不会盲目收录所有环境声音，而是精准判断用户是否主动想要和机器人对话，同时优化收音音质，实现设备本地低延迟、高稳定的语音交互，不再过度依赖云端超大算力模型。

这套方案整合多种感知能力协同工作：

·视觉感知：实时分析现场画面、识别人数、识别已录入用户身份、判断人与机器距离，锁定正对着机器人说话的目标人员

·语音感知：识别是否有人发声、匹配专属声纹特征、判断声音来源方向，自动将收音焦点对准说话人，同时自动识别分析现场声学环境

只有同时满足视觉锁定目标、语音检测到人声、距离与角度都合适等多重条件，系统才会正式启动语音转文字处理。

依靠这套精准触发机制，搭配恩智浦自研语音音频算法，无论是安静室内还是嘈杂环境、低信噪比场景，都能大幅降低语音识别错误率。

除此之外，方案还融入超宽带 UWB定位技术，进一步补齐空间感知能力。依托 Trimension SR250 等芯片方案，机器人可以精准锁定用户手机或是其他机器人的实时位置，自主判断人和同伴的方位并做出对应回应。UWB 定位精度可达厘米级，功耗低，在复杂环境下运行稳定，能够助力机器人完成室内外导航、近距离跟随、近距离互动等智能行为。

赋能边缘端对话式人工智能_http://www.hnzqjt.cn_行业资讯_第2张

搭载恩智浦注意力前端交互方案的波士顿动力 Spot 机器狗

实测数据可以直观体现效果：搭配恩智浦注意力前端方案后，Whisper 等主流语音转文字模型的识别错误率，相比单独使用模型运行有着明显改善。

赋能边缘端对话式人工智能_http://www.hnzqjt.cn_行业资讯_第3张

简单来说，这套方案让机器人拥有接近人类的倾听能力：专注聆听指定说话人的声音，自动忽略无关杂音，就算身处嘈杂环境也能清晰听懂指令。依托视觉、语音、近距离定位三大能力融合优化，给到语音识别模型的音频信号更加纯净，既提升交互响应速度与识别准确率，也真正实现了边缘设备端自然流畅的对话式 AI 交互。

开发者可以借助 i.MX 95 开发评估板，快速测评体验这套注意力前端交互方案。

美媒曝以色列“反常识”计划：扶伊朗前总统内贾德上位

中纪委连打三虎

赋能边缘端对话式人工智能

相关推荐

韩国股民，怕泡沫破裂

韩国股民，怕泡沫破裂

伊朗媒体：伊朗“正在回应”美方谈判文本

伊朗媒体：伊朗“正在回应”美方谈判文本

最新文章