本地部署无限用!效果吊打付费工具的数字人开源项目合集
本地部署无限用!效果吊打付费工具的数字人开源项目合集
数字人github上有意思的项目
目录
整理github上个人可直接使用的数字开源项目
1 二次元直播
https://github.com/yakami129/VirtualWife
支持b站读弹幕并回复,二次元人物直播
实时数字人
https://github.com/kleinlee/DH_live
实时直播数字人,需要测试看下效果
2 训练自己的数字人
https://github.com/anliyuan/Ultralight-Digital-Human
训练自己的数字人
3 字节V2V
https://github.com/bytedance/LatentSync
字节V2V,将原视频换音色
https://huggingface.co/spaces/fffiloni/LatentSync
输入:mp4+wav , 32秒的音频
输出:mp4,8秒的音频
4 EchoMimicV2 效果最好的一批开源项目
https://github.com/antgroup/echomimic_v2
EchoMimicV2,
显存占用单卡18G,wav2lip出6秒的视频需要5分钟。推理成本有点高了,效率低,但算是开源的效果最好的一批
4 EchoMimicV2 ComfyUI
https://github.com/smthemex/ComfyUI_EchoMimic
EchoMimicV2的comfyui
5 Unet Wav2Lip 成本低
https://github.com/anliyuan/Ultralight-Digital-Human
Unet模型,成本低
训练自己的数字人,换嘴型,本机单卡5G训练需要6*15=1.5h,
6 LSTM Wav2Lip 成本低 自定义训练
https://github.com/kleinlee/DH_live
可用,音频驱动,可支持自定义训练
Audio:LSTM
Motion:DINet,GAN loss
训练情况:单张图比较难训练,loss会有抖动
7 实时肖像驱动
https://github.com/warmshao/FasterLivePortrait
实时肖像驱动
8 数字人集成版
https://github.com/lipku/LiveTalking
数字人集成版
9 其他
在上述数字人基础上,加上视频剪辑效果会更好
视频编辑:
https://videoanydoor.github.io/
插入或替换任意视频中物体
https://github.com/mdswyz/ReAtCo
开源,原视频+文本 生成 新的视频
https://ljzycmd.github.io/projects/InstructMove/
多模态LLM 生成的指令对视频中的帧对进行训练
https://clipchamp.com/zh-hans/ai-video-editing-clipchamp/
微软的工作,做的确实很不错,功能很多
https://github.com/xinntao/ESRGAN
超分的工作
10 跳舞
跳舞工作:
https://github.com/antgroup/animate-x
阿里蚂蚁的工作,通用角色的跳舞生成
官网goodcase都是输入人的跳舞视频和一张参考图如猫,输出猫的跳舞。没有输出人的跳舞goodcase
https://github.com/Francis-Rings/StableAnimator
模型开源了,效果是开源的很好的一个项目
比之前工作优化的是人脸特征用Arcface编码,且不会将ID adapter直接嵌入到Unet中(时序层会改变空间分布,导致人脸embed与扩散潜变量不匹配)而是将人脸和扩散潜变量随时间分别进行crossattn,且会逐步对齐均值和方差。以及推理阶段基于HJB方程最优化人脸
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)