侧边栏壁纸
博主头像
星宇云社区 博主等级

行动起来,活在当下

  • 累计撰写 37 篇文章
  • 累计创建 15 个标签
  • 累计收到 19 条评论

目 录CONTENT

文章目录

阿里通义推出Qwen-TTS!真人?AI?分不清!

星宇
2025-07-10 / 1 评论 / 4 点赞 / 47 阅读 / 0 字
温馨提示:
本文最后更新于2025-07-07,若内容或图片失效,请留言反馈。 部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

技术突破

多语言支持

图片


在Qwen-TTS推出以前市面上的绝大多数AI仅支持普通话或者少数的方言,而Qwen-TTS 模型支持多种中文方言,包括北京话、上海话和四川话等,还具备中英双语音色功能,提供了七种音色选择。这极大地丰富了语音合成的应用场景,能够满足不同地区用户的需求。

高效性能

图片

当前市面上大多数AI模型在真实度和稳定性都存在着一些缺陷,而Qwen-TTS 支持音频流式输出,理论首包在400毫秒以内,实际测试中首包延迟时间平均为350毫秒,稳定性达到99.9%。它能够实现高速语音生成,适合实时应用场景。

模型提供稳定可靠的语音生成,包括中英文长难句,确保在各种复杂场景下的高质量输出。在长文本合成测试中,准确率达到了98%以上。

高合成质量

图片

为什么Qwen-TTS模型那么强大呢?因为阿里巴巴通义团队对Qwen-TTS模型进行了超过300万小时的大规模语料库训练,让Qwen-TTS 在自然度、韵律、节奏和情感表达上达到了极高水平。在SeedTTS-Eval评测集上,其准确率高达95%以上,语音相似度(SIM)也表现出色,性能接近人类水平。

模型能够根据输入的文本调整语速、重音、节奏和情绪表现,例如在表达惊讶或愤怒时,语音会自动体现相应情感,并且情绪识别和表达的准确率达到了90%以上。

实用场景

相信未来在Qwen-TTS模型推出后,许多行业会迎来新一轮的升级,比如在AI语音聊天、AI助理、在线教育和有声读物等行业,有了Qwen-TTS的接入就能变得更加有生命力。

图片

在智能家居、语音互动游戏等场景中,可以利用Qwen-TTS 为角色或者AI助理赋予生动语音,根据场景和氛围,实时调整语调、情绪,增强沉浸感和趣味性,让互动更逼真。

图片

媒体机构可以使用 Qwen-TTS 快速生成新闻语音,保持播报的及时性和准确性,提升听众收听体验;还可以用 Qwen-TTS 制作有声读物,可选的音色和丰富的情感表达,为用户带来更好的听觉享受,而且相较于以往人工录制,它更快、更高效,成本也更低廉。

展望未来

图片

相信未来在Qwen-TTS模型的加入下,AI语音合成市场将迎来进一步的突破,但Qwen-TTS目前还不是AI语音合成的最终形态,尽管 Qwen-TTS 已经支持多种方言和中英双语音色,但在一些小众语言和方言的合成效果上仍有提升空间,目前比较成熟的只有7种中英双语音色。不过近日阿里通义官方预告了更多的语言和风格推出计划,让我们一起期待一下吧!

421412412412421.png

4

评论区