数字人开源代码：audio2head音频加单张图像驱动视频生成

手把手教你数字人项目audio2head运行

流泪的猪

743人浏览 · 2024-07-04 17:03:29

流泪的猪 · 2024-07-04 17:03:29 发布

项目地址：

wangsuzhen/Audio2Head: code for paper "Audio2Head: Audio-driven One-shot Talking-head Generation with Natural Head Motion" in the conference of IJCAI 2021 (github.com)

论文地址：

Audio2Head: Audio-driven One-shot Talking-head Generation with Natural Head Motion (ijcai.org)

1、下载代码：

git clone https://github.com/TMElyralab/MuseTalk.git

2、安装环境

创建conda环境：

conda create -n audio2head python=3.6
conda activate audio2head

安装依赖

先安装一个python3.6适配的opencv
pip install opencv-python==4.3.0.38
安装requirements.txt
pip install -r requirements.txt

下载模型

也可以在我的资源获取：【免费】audio2head预处理文件资源-CSDN文库

3、运行推理代码

python inference.py --audio_path ./demo/audio/intro.wav --img_path ./demo/img/trump.jpg

出现问题：

这个问题在issues中有人提到，并且有解决办法，附上链接issuses TypeError: load() missing 1 required positional argument: 'Loader' · Issue #8 · wangsuzhen/Audio2Head · GitHub

将inference.py中的load改成safe_load可以解决

修改后继续运行，又出错了：

经试验，安装版本0.3.0不会出错

pip install imageio-ffmpeg==0.3.0

继续运行，成功了，结果保存在results中

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

识别物体 3D 位置 + 自动生成机器人抓取位姿」

的 3 条主流实现路径，从到，每条都讲清楚原理、硬件、流程、怎么生成抓取点。

DAMO开发者矩阵

Unitree MuJoCo 键盘替代手柄控制说明

DAMO开发者矩阵

Context Engineering

摘要： Context Engineering（上下文工程）是通过设计和管理上下文信息优化AI模型理解与生成能力的技术。其核心策略包括：保存（短期/长期存储用户数据）；选择（动态筛选相关上下文）；压缩（摘要或结构化处理以节省资源）；隔离（防止多任务/用户间信息混淆）。这些方法可提升AI回答的准确性、效率及安全性，适用于聊天机器人、个性化推荐等场景。