EchoMimic 阿里开源数字人项目的复现过程

EchoMimic 是一个由阿里巴巴蚂蚁集团开发的开源AI 数字人项目，通过可编辑地标调节实现逼真的音频驱动肖像动画，它能够将静态图像转化为具有动态语音和表情的数字人像。

qq_39838728

787人浏览 · 2025-04-30 12:18:28

qq_39838728 · 2025-04-30 12:18:28 发布

今天咱们来复现下，看看有哪些坑，再看看数字人效果如何。

先来看下本地环境，跑起来项目后会有如下输出。

1、clone代码

  git clone https://github.com/antgroup/echomimic_v2  cd echomimic_v2

2、conda创建环境。首先要安装conda,后台回复"conda"可获取Ubuntu安装包，直接安装即可。

  conda create -n echomimic python=3.10  conda activate echomimic

3、开始安装环境，根据自己实际的cuda版本安装，附pytorch地址：https://pytorch.ac.cn/get-started/previous-versions/。我的cuda版本是12.4

  pip install pip -U  pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124  pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124  pip install -r requirements.txt  pip install --no-deps facenet_pytorch==2.6.0

整个过程在安装requirements.txt时出点问题，因为当时安装不上clip了，我就先把这句注释了，手动下载，传导服务器上面安装了下。

安装整个过程还比较顺利。

4、下载ffmpeg-static

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

5、整个安装过程结束了就，我就试着运行了下

python app.py

毫无意外报错了，如图：

这是gradio版本太低了，需要升级下

pip install --upgrade gradio

6、升级好后接着再跑下试试

打开如图：

用自带的形象试试。点击生成视频报错了。

没有模型文件，哦忘记下载模型文件了。下载模型文件，按照下图目录放进去。

然后再启动试下。

7、点击生成视频，等待了七分钟左右终于成功了。显存使用情况如下：

生成视频效果还是很不错的。

8、这既然支持自定义数字人，我自己上传个人物图像试试。

效果不是很理想，有时候没上传带手的人物形象，但是还生成了个手，有点不忍直视。我就不贴视频了。

这就是我的整个的搭建的过程。后台回复“EchoMimic”获取项目代码，模型文件，ffmpeg-static下载链接

大家在搭建或者使用的过程中有遇到什么问题，欢迎大家关注留言。大家一起来讨论学习。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

KingbaseES数据库：医疗信创潮涌沅江，国产化信创打造医疗新质生产力

DAMO开发者矩阵

告别迁移焦虑：金仓KDMS V4带你轻松搞定数据库国产化替代

DAMO开发者矩阵

KingbaseES数据库在常德二院全栈国产化信创中产生新质生产力,医疗信创的部署如何实现，如何操作？

DAMO开发者矩阵

所有评论(0)

查看更多评论

qq_39838728

@qq_39838728

已为社区贡献1条内容