网易有道强力开源中英双语语音克隆

EmotiVoice是一个强大的开源TTS引擎，支持中英文双语，包含2000多种不同的音色，以及特色的情感合成功能，支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

伪_装

995人浏览 · 2023-11-14 21:14:42

伪_装 · 2023-11-14 21:14:42 发布

项目地址：

GitHub - netease-youdao/EmotiVoice: EmotiVoice 😊: a Multi-Voice and Prompt-Controlled TTS EngineEmotiVoice 😊: a Multi-Voice and Prompt-Controlled TTS Engine - GitHub - netease-youdao/EmotiVoice: EmotiVoice 😊: a Multi-Voice and Prompt-Controlled TTS Enginehttps://github.com/netease-youdao/EmotiVoice

EmotiVoice Docker镜像

尝试EmotiVoice最简单的方法是运行docker镜像。你需要一台带有NVidia GPU的机器。先按照Linux和Windows WSL2平台的说明安装NVidia容器工具包。然后可以直接运行EmotiVoice镜像：


docker run -dp 127.0.0.1:8501:8501 syq163/emoti-voice:latest

现在打开浏览器，导航到http://localhost:8501，就可以体验EmotiVoice强大的TTS功能。

完整安装

conda create -n EmotiVoice python=3.8 -y
conda activate EmotiVoice
pip install torch torchaudio
pip install numpy numba scipy transformers==4.26.1 soundfile yacs g2p_en jieba pypinyin

准备模型文件

git lfs install
git lfs clone https://huggingface.co/WangZeJun/simbert-base-chinese WangZeJun/simbert-base-chinese

推理

1. 下载预训练模型, 然后运行:

mkdir -p outputs/style_encoder/ckpt
mkdir -p outputs/prompt_tts_open_source_joint/ckpt

2. 将g_*, do_*文件放到outputs/ prompt_tts_open_source_joint/ ckpt

将checkpoint_*放到outputs/ style_encoder/ ckpt中

3. 推理输入文本格式是：

<speaker>|<style_prompt/emotion_prompt/content>|<phoneme>|<content>.

例如: Maria_Kasper|非常开心|<sos/eos> uo3 sp1 l ai2 sp0 d ao4 sp1 b ei3 sp0 j ing1 sp3 q ing1 sp0 h ua2 sp0 d a4 sp0 x ve2 <sos/eos>|我来到北京，清华大学.

4. 其中的音素（phonemes）可以这样得到：

python frontend.py data/my_text.txt > data/my_text_for_tts.txt.

5. 然后运行：

TEXT=data/inference/text
python inference_am_vocoder_joint.py \
--logdir prompt_tts_open_source_joint \
--config_folder config/joint \
--checkpoint g_00140000 \
--test_file $TEXT

合成的语音结果在：outputs/prompt_tts_open_source_joint/test_audio.

6. 或者你可以直接使用交互的网页界面：

pip install streamlit
streamlit run demo_page.py

未来工作

当前的实现侧重于通过提示控制情绪/风格。它只使用音高、速度、能量和情感作为风格因素，而不使用性别。但是将其更改为样式、音色控制并不复杂，类似于PromptTTS的原始闭源实现。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

扫地机器人行业深度分析报告

DAMO开发者矩阵

Prompt 调试与优化全技巧（附聊天机器人 Prompt 优化）

Prompt 调试与优化的核心：「精准控场 + 循环测试」—— 先明确 AI 的身份、规则、边界，再通过多场景测试，找到跑偏原因，逐个修改（最小改动原则）。聊天机器人的优化重点：「上下文记忆 + 语气适配 + 准确回应」，避免 “记不住、聊跑偏、太生硬”。优化后的 Prompt 和代码：可直接运行，适配豆包 API，解决了之前的核心问题，对话更流畅、回答更精准，还能自我纠错、控制对话节奏。

DAMO开发者矩阵

定制智能体

定制智能体并非简单的对话机器人或规则引擎，而是具备“感知-决策-执行-反馈”闭环的自主系统。其技术栈通常包含基础模型层、记忆与知识库层、工具调用层（API/插件）以及多智能体编排层。通过结构化数据注入与业务逻辑映射，智能体可在限定边界内完成复杂工作流的自动化处理，并支持基于交互日志的持续优化。定制智能体是一种旨在解决特定领域问题的创新方案，近年来因其高效性而备受关注。