阿里通义推出Qwen-TTS！真人？AI？分不清！

2025-07-08

技术突破

Qwen-TTS

多语言支持

在Qwen-TTS推出以前市面上的绝大多数AI仅支持普通话或者少数的方言，而Qwen-TTS 模型支持多种中文方言，包括北京话、上海话和四川话等，还具备中英双语音色功能，提供了七种音色选择。这极大地丰富了语音合成的应用场景，能够满足不同地区用户的需求。

高效性能

当前市面上大多数AI模型在真实度和稳定性都存在着一些缺陷，而Qwen-TTS 支持音频流式输出，理论首包在400毫秒以内，实际测试中首包延迟时间平均为350毫秒，稳定性达到99.9%。它能够实现高速语音生成，适合实时应用场景。

模型提供稳定可靠的语音生成，包括中英文长难句，确保在各种复杂场景下的高质量输出。在长文本合成测试中，准确率达到了98%以上。

高合成质量

为什么Qwen-TTS模型那么强大呢？因为阿里巴巴通义团队对Qwen-TTS模型进行了超过300万小时的大规模语料库训练，让Qwen-TTS 在自然度、韵律、节奏和情感表达上达到了极高水平。在SeedTTS-Eval评测集上，其准确率高达95%以上，语音相似度（SIM）也表现出色，性能接近人类水平。

模型能够根据输入的文本调整语速、重音、节奏和情绪表现，例如在表达惊讶或愤怒时，语音会自动体现相应情感，并且情绪识别和表达的准确率达到了90%以上。

实用场景

Qwen-TTS

相信未来在Qwen-TTS模型推出后，许多行业会迎来新一轮的升级，比如在AI语音聊天、AI助理、在线教育和有声读物等行业，有了Qwen-TTS的接入就能变得更加有生命力。

在智能家居、语音互动游戏等场景中，可以利用Qwen-TTS 为角色或者AI助理赋予生动语音，根据场景和氛围，实时调整语调、情绪，增强沉浸感和趣味性，让互动更逼真。

媒体机构可以使用 Qwen-TTS 快速生成新闻语音，保持播报的及时性和准确性，提升听众收听体验；还可以用 Qwen-TTS 制作有声读物，可选的音色和丰富的情感表达，为用户带来更好的听觉享受，而且相较于以往人工录制，它更快、更高效，成本也更低廉。

展望未来

Qwen-TTS

相信未来在Qwen-TTS模型的加入下，AI语音合成市场将迎来进一步的突破，但Qwen-TTS目前还不是AI语音合成的最终形态，尽管 Qwen-TTS 已经支持多种方言和中英双语音色，但在一些小众语言和方言的合成效果上仍有提升空间，目前比较成熟的只有7种中英双语音色。不过近日阿里通义官方预告了更多的语言和风格推出计划，让我们一起期待一下吧！