今年过完年之后的一年里TTS大火了一把,发展速度也是惊人地快。

5月份调研整理了一下,表格中是我从各位维度综合评价筛选出来的三个可以直接部署商用的项目,合成效果都很不错,推理稳定。

  • parler_tts_mini_v0.1
  • metaVoice
  • Coqui XTTS v2

下面列出的几个项目也参与了我的调研,但是在功能、效果、代码完整度、代码专业度等各方面略逊一筹,没有详细列出,没有列出的主要原因是因为这个表格太宽了。

  • tortoise-tts-v2
  • vall-E
  • speecht5_tts
  • GPT-SoVITS
  • NaturalSpeech3 FACodec
  • PHEME

TTS 模型对比

字段 parler_tts_mini_v0.1 metaVoice Coqui XTTS v2
中文解释 使用合成注释进行高保真度文本到语音的自然语言指导 类人、富有表现力的 TTS 的基础模型 在 tortoise 和 Vall-E 基础上改进
发布时间 2024年4月 2024年1月 2023年10月
发布者 Stability AI
University of Edinburgh
MetaVoice 核心团队来自 Mozilla 语音项目的一群资深人士
项目链接 Huggingface 链接 Github 链接 Github 链接
Huggingface 链接
论文 阅读论文
是否开源
Github Star - 3k 28.6k
Github Fork - 405 3.3k
Huggingface 下载量 30.9k - -
Huggingface 点赞 257 - -
模型大小(参数量) - 1.2B ≈1.5B
训练数据 45k hours
覆盖53种口音
100k hours
全部为公开数据,无内部数据
覆盖1100种语言
已部署 Demo
多语言支持 支持英文 支持英文,需跨语言微调 支持17种语言(如 English, Spanish, French, Chinese, Japanese 等)
语音克隆(0样本) 不支持 ✅ 支持美国和英国口音
音色控制 文本描述控制 ✅ 30种集内音色
语速控制 文本描述控制 kaldi 后处理 kaldi 后处理
情绪控制 文本描述控制
技术实现 1. 冻结的 T5 模型提取 token
2. decoder-only transformer 解码
3. RVQ decoder 生成语音波形
1. GPT 交错预测前两级 token
2. 非因果 transformer 预测其余6级 token
3. 多频带 diffusion 模型生成波形
4. DeepFilterNet 后处理
1. 使用 Perceiver 模型生成32个说话者信息向量
2. 使用 Tokens + 32 Vectors -> Vocoder生成语音
License Apache 2.0 Apache 2.0 V1: MPL-2.0(修改源码后需开源)
V2: Coqui Public Model License 1.0.0(非商业用途)
优势 1. 更灵活的文本控制 1. 支持 few-shot 微调(1分钟语音可在印度语上微调)
2. 声音自然干净
1. 支持多语言,包括中文
2. 推理速度快
劣势 1. 不能音频控制
2. 推理时间较长
1. 新推出,使用者较少
2. 多语言需额外微调,开发量大
1. MPL 协议要求修改后需开源
2. V2 版本仅限非商业用途
示例 在线示例 MetaVoice Demo
另一个 Demo
Coqui Demo
输入 Prompt: I am the Thin Red Line and Apple is my subsidiary.
Descriptions:(见详细内容)
文本: This is a demo of text to speech by MetaVoice-1B. 文本: 苹果公司是我的子公司
语言: zh
输出 采样率: 16k Hz 采样率: 16k Hz 采样率: 24k Hz
部署方式 server 本地部署 云服务器 Docker 部署 UI server 本地部署
CPU 推理时间 30s 15s 6.98s
GPU 推理时间 - - 3.16s
显存使用(单进程) 5G 4G 4G
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐