生成式AI | 2024年开源TTS方案精选
今年过完年之后的一年里TTS大火了一把,发展速度也是惊人地快。5月份调研整理了一下,表格中是我从各位维度综合评价筛选出来的三个可以直接部署商用的项目,合成效果都很不错,推理稳定。下面列出的几个项目也参与了我的调研,但是在功能、效果、代码完整度、代码专业度等各方面略胜一筹。
·
今年过完年之后的一年里TTS大火了一把,发展速度也是惊人地快。
5月份调研整理了一下,表格中是我从各位维度综合评价筛选出来的三个可以直接部署商用的项目,合成效果都很不错,推理稳定。
- parler_tts_mini_v0.1
- metaVoice
- Coqui XTTS v2
下面列出的几个项目也参与了我的调研,但是在功能、效果、代码完整度、代码专业度等各方面略逊一筹,没有详细列出,没有列出的主要原因是因为这个表格太宽了。
- tortoise-tts-v2
- vall-E
- speecht5_tts
- GPT-SoVITS
- NaturalSpeech3 FACodec
- PHEME
TTS 模型对比
字段 | parler_tts_mini_v0.1 | metaVoice | Coqui XTTS v2 |
---|---|---|---|
中文解释 | 使用合成注释进行高保真度文本到语音的自然语言指导 | 类人、富有表现力的 TTS 的基础模型 | 在 tortoise 和 Vall-E 基础上改进 |
发布时间 | 2024年4月 | 2024年1月 | 2023年10月 |
发布者 | Stability AI University of Edinburgh |
MetaVoice | 核心团队来自 Mozilla 语音项目的一群资深人士 |
项目链接 | Huggingface 链接 | Github 链接 | Github 链接 Huggingface 链接 |
论文 | 阅读论文 | 无 | 无 |
是否开源 | 是 | 是 | 是 |
Github Star | - | 3k | 28.6k |
Github Fork | - | 405 | 3.3k |
Huggingface 下载量 | 30.9k | - | - |
Huggingface 点赞 | 257 | - | - |
模型大小(参数量) | - | 1.2B | ≈1.5B |
训练数据 | 45k hours 覆盖53种口音 |
100k hours 全部为公开数据,无内部数据 |
覆盖1100种语言 |
已部署 Demo | ✅ | ✅ | ✅ |
多语言支持 | 支持英文 | 支持英文,需跨语言微调 | 支持17种语言(如 English, Spanish, French, Chinese, Japanese 等) |
语音克隆(0样本) | 不支持 | ✅ 支持美国和英国口音 | ✅ |
音色控制 | 文本描述控制 | ✅ 30种集内音色 | ✅ |
语速控制 | 文本描述控制 | kaldi 后处理 | kaldi 后处理 |
情绪控制 | 文本描述控制 | ✅ | ✅ |
技术实现 | 1. 冻结的 T5 模型提取 token 2. decoder-only transformer 解码 3. RVQ decoder 生成语音波形 |
1. GPT 交错预测前两级 token 2. 非因果 transformer 预测其余6级 token 3. 多频带 diffusion 模型生成波形 4. DeepFilterNet 后处理 |
1. 使用 Perceiver 模型生成32个说话者信息向量 2. 使用 Tokens + 32 Vectors -> Vocoder生成语音 |
License | Apache 2.0 | Apache 2.0 | V1: MPL-2.0(修改源码后需开源) V2: Coqui Public Model License 1.0.0(非商业用途) |
优势 | 1. 更灵活的文本控制 | 1. 支持 few-shot 微调(1分钟语音可在印度语上微调) 2. 声音自然干净 |
1. 支持多语言,包括中文 2. 推理速度快 |
劣势 | 1. 不能音频控制 2. 推理时间较长 |
1. 新推出,使用者较少 2. 多语言需额外微调,开发量大 |
1. MPL 协议要求修改后需开源 2. V2 版本仅限非商业用途 |
示例 | 在线示例 | MetaVoice Demo 另一个 Demo |
Coqui Demo |
输入 | Prompt: I am the Thin Red Line and Apple is my subsidiary. Descriptions:(见详细内容) |
文本: This is a demo of text to speech by MetaVoice-1B. | 文本: 苹果公司是我的子公司 语言: zh |
输出 | 采样率: 16k Hz | 采样率: 16k Hz | 采样率: 24k Hz |
部署方式 | server 本地部署 | 云服务器 Docker 部署 UI | server 本地部署 |
CPU 推理时间 | 30s | 15s | 6.98s |
GPU 推理时间 | - | - | 3.16s |
显存使用(单进程) | 5G | 4G | 4G |

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)