Qwen-TTS重磅发布：方言语音合成新突破，真实感媲美真人

加载中...

2025/07/01 · Ai资讯

昨日，阿里巴巴通义团队正式推出了Qwen-TTS模型，这款文本转语音（TTS）模型以其超高真实感和多方言支持引发行业热议。AIbase编辑团队整理最新信息，为您深入解析这款通过Qwen API提供服务的语音合成利器，及其在AI语音技术领域的突破性意义。

Qwen-TTS:超真实语音合成

Qwen-TTS是通义团队基于大规模语音数据集研发的最新文本转语音模型，通过数百万小时的语音训练，生成的声音在自然度、韵律、节奏和情感表达上达到了极高水平。用户通过Qwen API即可体验到接近真人发声的语音效果，适用于教育、娱乐、智能客服等多种场景。

支持多方言与双语声音

Qwen-TTS的亮点之一是其多样化的语言支持。模型不仅支持标准普通话，还覆盖了北京话、上海话和四川话三种中文方言，为用户提供更具地域特色的语音体验。此外，Qwen-TTS提供七种中英双语音色，包括Cherry、Ethan、Chelsie、Serena、Dylan、Jada和Sunny，每种音色都经过精心调校，确保发音地道且富有表现力。这种多方言、多音色的设计极大拓展了模型的应用场景，满足不同文化背景用户的需求。

技术突破:流式输出与情感调节

Qwen-TTS支持流式音频输出，能够根据输入文本动态调整语调、语速和情感变化，生成的声音不仅真实，还能传递细腻的情感表达。相较于传统TTS模型，Qwen-TTS在真实感和表现力上几乎无差别，甚至在特定评测（如SeedTTS-Eval）中达到业内顶尖水平。这得益于其背后大规模语料库的训练支持，以及通义团队在语音合成算法上的持续优化。

行业影响与未来前景

Qwen-TTS的发布进一步推动了语音合成技术的普及与应用。无论是为影视配音、虚拟主播，还是智能助手提供更自然的交互体验，Qwen-TTS都展现了巨大潜力。AIbase认为，随着语音合成技术在真实感上的差距逐渐缩小，方言支持和个性化音色的创新将成为未来竞争的关键。通义团队此次通过API开放Qwen-TTS，不仅降低了使用门槛，也为开发者提供了更多创作空间。