数字人github上有意思的项目


整理github上个人可直接使用的数字开源项目

1 二次元直播

https://github.com/yakami129/VirtualWife
支持b站读弹幕并回复,二次元人物直播

实时数字人

https://github.com/kleinlee/DH_live
实时直播数字人,需要测试看下效果

2 训练自己的数字人

https://github.com/anliyuan/Ultralight-Digital-Human
训练自己的数字人

3 字节V2V

https://github.com/bytedance/LatentSync
字节V2V,将原视频换音色

https://huggingface.co/spaces/fffiloni/LatentSync
输入:mp4+wav , 32秒的音频
输出:mp4,8秒的音频

4 EchoMimicV2 效果最好的一批开源项目

https://github.com/antgroup/echomimic_v2
EchoMimicV2,
显存占用单卡18G,wav2lip出6秒的视频需要5分钟。推理成本有点高了,效率低,但算是开源的效果最好的一批

4 EchoMimicV2 ComfyUI

https://github.com/smthemex/ComfyUI_EchoMimic
EchoMimicV2的comfyui

5 Unet Wav2Lip 成本低

https://github.com/anliyuan/Ultralight-Digital-Human
Unet模型,成本低
训练自己的数字人,换嘴型,本机单卡5G训练需要6*15=1.5h,

6 LSTM Wav2Lip 成本低 自定义训练

https://github.com/kleinlee/DH_live
可用,音频驱动,可支持自定义训练
Audio:LSTM
Motion:DINet,GAN loss
后
训练情况:单张图比较难训练,loss会有抖动

7 实时肖像驱动

https://github.com/warmshao/FasterLivePortrait
实时肖像驱动

8 数字人集成版

https://github.com/lipku/LiveTalking
数字人集成版

9 其他

在上述数字人基础上,加上视频剪辑效果会更好
视频编辑:
https://videoanydoor.github.io/
插入或替换任意视频中物体

https://github.com/mdswyz/ReAtCo
开源,原视频+文本 生成 新的视频

https://ljzycmd.github.io/projects/InstructMove/
多模态LLM 生成的指令对视频中的帧对进行训练

https://clipchamp.com/zh-hans/ai-video-editing-clipchamp/
微软的工作,做的确实很不错,功能很多

https://github.com/xinntao/ESRGAN
超分的工作

10 跳舞

跳舞工作:
https://github.com/antgroup/animate-x
阿里蚂蚁的工作,通用角色的跳舞生成
官网goodcase都是输入人的跳舞视频和一张参考图如猫,输出猫的跳舞。没有输出人的跳舞goodcase

https://github.com/Francis-Rings/StableAnimator
模型开源了,效果是开源的很好的一个项目
比之前工作优化的是人脸特征用Arcface编码,且不会将ID adapter直接嵌入到Unet中(时序层会改变空间分布,导致人脸embed与扩散潜变量不匹配)而是将人脸和扩散潜变量随时间分别进行crossattn,且会逐步对齐均值和方差。以及推理阶段基于HJB方程最优化人脸

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐