技术突破
Qwen-TTS
多语言支持
在Qwen-TTS推出以前市面上的绝大多数AI仅支持普通话或者少数的方言,而Qwen-TTS 模型支持多种中文方言,包括北京话、上海话和四川话等,还具备中英双语音色功能,提供了七种音色选择。这极大地丰富了语音合成的应用场景,能够满足不同地区用户的需求。
高效性能
当前市面上大多数AI模型在真实度和稳定性都存在着一些缺陷,而Qwen-TTS 支持音频流式输出,理论首包在400毫秒以内,实际测试中首包延迟时间平均为350毫秒,稳定性达到99.9%。它能够实现高速语音生成,适合实时应用场景。
模型提供稳定可靠的语音生成,包括中英文长难句,确保在各种复杂场景下的高质量输出。在长文本合成测试中,准确率达到了98%以上。
高合成质量
为什么Qwen-TTS模型那么强大呢?因为阿里巴巴通义团队对Qwen-TTS模型进行了超过300万小时的大规模语料库训练,让Qwen-TTS 在自然度、韵律、节奏和情感表达上达到了极高水平。在SeedTTS-Eval评测集上,其准确率高达95%以上,语音相似度(SIM)也表现出色,性能接近人类水平。
模型能够根据输入的文本调整语速、重音、节奏和情绪表现,例如在表达惊讶或愤怒时,语音会自动体现相应情感,并且情绪识别和表达的准确率达到了90%以上。
实用场景
Qwen-TTS
相信未来在Qwen-TTS模型推出后,许多行业会迎来新一轮的升级,比如在AI语音聊天、AI助理、在线教育和有声读物等行业,有了Qwen-TTS的接入就能变得更加有生命力。
在智能家居、语音互动游戏等场景中,可以利用Qwen-TTS 为角色或者AI助理赋予生动语音,根据场景和氛围,实时调整语调、情绪,增强沉浸感和趣味性,让互动更逼真。
媒体机构可以使用 Qwen-TTS 快速生成新闻语音,保持播报的及时性和准确性,提升听众收听体验;还可以用 Qwen-TTS 制作有声读物,可选的音色和丰富的情感表达,为用户带来更好的听觉享受,而且相较于以往人工录制,它更快、更高效,成本也更低廉。
展望未来
Qwen-TTS
相信未来在Qwen-TTS模型的加入下,AI语音合成市场将迎来进一步的突破,但Qwen-TTS目前还不是AI语音合成的最终形态,尽管 Qwen-TTS 已经支持多种方言和中英双语音色,但在一些小众语言和方言的合成效果上仍有提升空间,目前比较成熟的只有7种中英双语音色。不过近日阿里通义官方预告了更多的语言和风格推出计划,让我们一起期待一下吧!