数字人开源代码运行---wav2lip

手把手教你数字人wav2lip项目运行

流泪的猪

1275人浏览 · 2024-06-19 16:58:52

流泪的猪 · 2024-06-19 16:58:52 发布

代码地址：

Rudrabha/Wav2Lip: This repository contains the codes of "A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild", published at ACM Multimedia 2020. For HD commercial model, please try out Sync Labs (github.com)

论文地址：

2008.10010 (arxiv.org)

1、下载代码

2、安装环境

conda create -n wav2lip python==3.9.0
conda activate wav2lip
conda install ffmpeg

修改requirements.txt中依赖版本号为

安装依赖

pip install -r requirements.txt

2、下载模型

下载s3fd.pth模型，下载后放在face_detection/detection/sfd/s3fd.pth

项目地址中给出了训练好的模型链接，下载就可以了，四个下载后都放在checkpoints目录下。

3、推理

根据参考视频和音频生成对应的说话视频

python inference.py --checkpoint_path ./checkpoints/wav2lip_gan.pth --face ./demo/short_demo.mp4 --audio ./demo/test.wav

4、可能会遇到的问题：

issues中给出了答案：

修改audio.py 第一百行代码：
return librosa.filters.mel(sr=hp.sample_rate, n_fft=hp.n_fft, n_mels=hp.num_mels,
fmin=hp.fmin, fmax=hp.fmax)

Wav2Lip 报错TypeError: mel() takes 0 positional arguments but 2 positional arguments (and 3 keyword-only arguments) were given · Issue #634 · Rudrabha/Wav2Lip · GitHub

5、评价指标

evaluation目录中给出了Average Confidence，Average Minimum Distance评价指标的计算。利用的是syncnet项目计算。

参考：AI数字人：语音驱动人脸模型Wav2Lip-CSDN博客

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

【无人船】基于模型预测控制(MPC)对USV进行自主控制研究附Matlab代码

无人水面艇（Unmanned Surface Vehicle, USV）作为海洋工程领域的核心装备，凭借无人员伤亡风险、作业范围广、续航能力强等优势，已广泛应用于海洋环境监测、水上安防巡逻、港口物流运输、应急搜救及军事侦察等多元场景。其自主控制性能直接决定任务执行的精度、效率与安全性，是衡量USV智能化水平的核心指标。与无人机、地面机器人相比，USV的运行环境具有强扰动、高耦合、动态多变等显著特征