生成式AI ｜ 2024年开源TTS方案精选

今年过完年之后的一年里TTS大火了一把，发展速度也是惊人地快。5月份调研整理了一下，表格中是我从各位维度综合评价筛选出来的三个可以直接部署商用的项目，合成效果都很不错，推理稳定。下面列出的几个项目也参与了我的调研，但是在功能、效果、代码完整度、代码专业度等各方面略胜一筹。

大数据AI笔记

1730人浏览 · 2024-12-12 19:47:26

大数据AI笔记 · 2024-12-12 19:47:26 发布

今年过完年之后的一年里TTS大火了一把，发展速度也是惊人地快。

5月份调研整理了一下，表格中是我从各位维度综合评价筛选出来的三个可以直接部署商用的项目，合成效果都很不错，推理稳定。

parler_tts_mini_v0.1
metaVoice
Coqui XTTS v2

下面列出的几个项目也参与了我的调研，但是在功能、效果、代码完整度、代码专业度等各方面略逊一筹，没有详细列出，没有列出的主要原因是因为这个表格太宽了。

tortoise-tts-v2
vall-E
speecht5_tts
GPT-SoVITS
NaturalSpeech3 FACodec
PHEME

TTS 模型对比

字段	parler_tts_mini_v0.1	metaVoice	Coqui XTTS v2
中文解释	使用合成注释进行高保真度文本到语音的自然语言指导	类人、富有表现力的 TTS 的基础模型	在 tortoise 和 Vall-E 基础上改进
发布时间	2024年4月	2024年1月	2023年10月
发布者	Stability AI University of Edinburgh	MetaVoice	核心团队来自 Mozilla 语音项目的一群资深人士
项目链接	Huggingface 链接	Github 链接	Github 链接 Huggingface 链接
论文	阅读论文	无	无
是否开源	是	是	是
Github Star	-	3k	28.6k
Github Fork	-	405	3.3k
Huggingface 下载量	30.9k	-	-
Huggingface 点赞	257	-	-
模型大小（参数量）	-	1.2B	≈1.5B
训练数据	45k hours 覆盖53种口音	100k hours 全部为公开数据，无内部数据	覆盖1100种语言
已部署 Demo	✅	✅	✅
多语言支持	支持英文	支持英文，需跨语言微调	支持17种语言（如 English, Spanish, French, Chinese, Japanese 等）
语音克隆（0样本）	不支持	✅ 支持美国和英国口音	✅
音色控制	文本描述控制	✅ 30种集内音色	✅
语速控制	文本描述控制	kaldi 后处理	kaldi 后处理
情绪控制	文本描述控制	✅	✅
技术实现	1. 冻结的 T5 模型提取 token 2. decoder-only transformer 解码 3. RVQ decoder 生成语音波形	1. GPT 交错预测前两级 token 2. 非因果 transformer 预测其余6级 token 3. 多频带 diffusion 模型生成波形 4. DeepFilterNet 后处理	1. 使用 Perceiver 模型生成32个说话者信息向量 2. 使用 Tokens + 32 Vectors -> Vocoder生成语音
License	Apache 2.0	Apache 2.0	V1: MPL-2.0（修改源码后需开源） V2: Coqui Public Model License 1.0.0（非商业用途）
优势	1. 更灵活的文本控制	1. 支持 few-shot 微调（1分钟语音可在印度语上微调） 2. 声音自然干净	1. 支持多语言，包括中文 2. 推理速度快
劣势	1. 不能音频控制 2. 推理时间较长	1. 新推出，使用者较少 2. 多语言需额外微调，开发量大	1. MPL 协议要求修改后需开源 2. V2 版本仅限非商业用途
示例	在线示例	MetaVoice Demo 另一个 Demo	Coqui Demo
输入	Prompt: I am the Thin Red Line and Apple is my subsidiary. Descriptions:（见详细内容）	文本: This is a demo of text to speech by MetaVoice-1B.	文本: 苹果公司是我的子公司语言: zh
输出	采样率: 16k Hz	采样率: 16k Hz	采样率: 24k Hz
部署方式	server 本地部署	云服务器 Docker 部署 UI	server 本地部署
CPU 推理时间	30s	15s	6.98s
GPU 推理时间	-	-	3.16s
显存使用（单进程）	5G	4G	4G

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

首次用AI Agent的思路来研究VLN，实现3B小模型端侧实时部署

DAMO开发者矩阵

深度观察：从静态路牌到智能交互，城市导视系统的三次进化

在过去的三十年里，城市导视系统经历了三次革命性的进化，从最初的静态路牌，到数字化电子屏，再到如今能够主动交互、智能指引的指路机器人，每一次进化都深刻改变着我们与城市的互动方式。更重要的是，电子导视系统只是解决了 "信息展示" 的问题，并没有解决 "指引" 的问题。这种 "看的时候明白，走的时候糊涂" 的现象，成为了 2.0 时代导视系统最大的痛点。在技术创新和政策支持的双重驱动下，中国的智慧导视产