AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

admin 行业资讯 (1) 刚刚

IT之家 5 月 20 日消息，据通义实验室消息，通义千问团队发布了 Qwen3.5-LiveTranslate-Flash 实时语音翻译模型，该模型在语种覆盖、延迟控制和音色保留等方面实现显著突破，旨在解决跨境直播、跨国会议等场景中的实时同传痛点。

IT之家附官方详细介绍如下：

跨境直播卡顿、跨国会议延迟、AI 配音“机器感”太重…… 实时同传一直卡在“延迟、语种、音色”三大痛点。

Qwen3.5-LiveTranslate-Flash 给出了解决方案：支持 60 种语言的音频输入和文字输出，29 种语言的音频输出，端到端字均延迟低至 2.8 秒，还能保留说话人的原声特征。

核心亮点速览

Qwen3.5-LiveTranslate

Qwen3.5-LiveTranslate 能听懂和翻译 60 种语言，其中 29 种可以实现语音输出。输入音频和输出文本语种从 18 个大幅提升至 60 个，输出音频语向从 10 个提升至 29 个，覆盖更多国家与区域的语言互译组合，满足跨境会议、直播出海、在线课堂、商务谈判等多语同传需求。

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第3张

引入全新 Readable Unit（可读单元）实时翻译技术，在保证译文可读性与语义连贯的前提下，实现更激进的流式输出。端到端字均延迟降低到 2.8 秒，适用于直播、连麦、发布会等对时延极敏感的场景。

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第4张

支持 Real-time Voice Cloning（动态跨语言音色克隆）。在同传过程中自动捕捉并复刻说话人音色特征，译文在不同语言间依旧保持“同一个人”的声音质感与情绪表现力。主播、嘉宾、主持人的身份一致性大幅提升，沉浸感拉满。

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第5张

内置动态热词（Hotword）引擎，最高支持 1000 个自定义词条。对人名、地名、品牌、产品型号、行业术语进行优先识别与优先翻译。支持场景动态配置与实时更新，显著降低技术发布会、医疗 / 法律 / 金融会议、企业内训中“术语翻错、名字听错”的风险。

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第6张

我们将模型放入高频实战环境，复杂场景依旧稳定发挥：

跨国会议 & 出境旅游

多语混说 / 复杂口音：会议室多语种交替发言、带口音表达，模型精准切分并同步译。

智能硬件落地：搭配千问 AI 眼镜在泰国点餐实测，语音交互 + 实时同传无缝衔接，沟通零障碍。

直播带货 & 影视出海

数字与规格精准翻译：直播连麦中，商品参数、价格、折扣数字翻译准确率极高，带货宣发不断档。

古文 / 文化内容同传：准确理解并翻译古典文言文，语义连贯且保留文化韵味，字幕与配音同步流畅。

视觉消歧辅助

结合多模态理解能力，在语境模糊时自动引入视觉信息辅助判断，大幅降低“一词多义”导致的翻译歧义。

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第7张

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第8张

在公开多语言语音翻译基准（FLEURS、CoVoST2）上，Qwen3.5-LiveTranslate-Flash 翻译准确率优于当前主流语音大模型，显著优于前代 Qwen3-LiveTranslate-Flash，在语言覆盖和翻译质量上均实现突破。

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第9张

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第10张

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第11张

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第12张

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第13张

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第14张

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第15张

凭借可读单元流式策略，Qwen3.5-LiveTranslate-Flash 相比 Qwen3-LiveTranslate-Flash 将首字延迟降低 3.45 秒、字均延迟降低 1.88 秒，最终实现端到端字均延迟 2.8 秒，翻译质量几乎无损。

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第16张

相比上一代，Qwen3.5-LiveTranslate-Flash 在核心参数与功能上实现了全面进阶，详细对比如下：

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第17张

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第18张

Qwen3.5-LiveTranslate 是基于 Qwen3.5-Omni Thinker-Talker 架构打造的翻译大模型。面向同声传译场景，我们采用 chunk-wise 流式输入机制，引入可读单元来控制语音合成粒度，在保证同传体感的同时有效降低时延。此外，借助动态跨语言音色克隆技术，模型在翻译时能够实时识别并模仿说话人的原始音色。

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate_http://www.hnzqjt.cn_行业资讯_第19张

从“能翻译”到“实时同传”，Qwen3.5-LiveTranslate-Flash 用更低延迟、更多语种、更自然音色，为跨境协作、内容出海、智能硬件提供新一代语音基础设施。

立即体验

Blog：https://qwen.ai/blog?id=qwen3.5-livetranslate

Demo：https://omni.qwen.ai/live-translate

阿里云百炼：即将上线

陷入“鸡蛋问题”，特斯拉在印建厂计划终止

比亚迪进军F1曝新进展：正与奔驰争夺Alpine车队股份

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

相关推荐

沉寂半年露面！东方甄选前CEO孙东旭离职后首播：准备走出来了 聊天讲书卖书

广汽集团副总经理黄永强提前辞职 上任才半年多

聚焦金融赋能科创 首届金融街·金城坊论坛在京举行

从免费种草到坑位费翻倍 TikTok达人带货三年变天

最新文章

沉寂半年露面！东方甄选前CEO孙东旭离职后首播：准备走出来了聊天讲书卖书

广汽集团副总经理黄永强提前辞职上任才半年多

聚焦金融赋能科创首届金融街·金城坊论坛在京举行