3D虚拟数字人创作人机交互引擎方案
素材支持添加过度特技。3.2.★应用Audio to Face技术:分析语音信号,自动生成匹配的面部表情,结合高精度面部捕捉技术收集丰富的表情数据,训练数字人的表情模型,提高表情真实感;8.场景中大屏物件需要支持可替换为本地视频、图片、PPT、摄像机信号、IVGA信号、网络信号等;1.海量3D场景道具,屏幕,展示台,建筑,装饰,自然,其他等多种个性搭建,可设置直播间背景和前景,道具和贴图,背景音乐
一键自定义捏脸、换装,千种形象任意搭配任
一、超写实3D数字人创作模块:
1.高自由度数字人形象创作与定制
1.1.脸型生成与定制
1.1.1.支持多种脸型的融合生成与形象定制
1.1.2.★提供头型、身体、腰部等自由定制功能
1.1.3.支持五官处精细调整以及贴图自由设置
1.1.4.★支持对头颈部进行细致调整
1.2.容貌定制
1.2.1.提供多种肤色的选择,支持真实肤感的调整
1.2.2.支持多种精致妆面的定制,可对五官妆容进行微调
1.2.3.★支持体型体态的自由调整
1.3.发型定制
1.3.1.提供多种发型样式,支持自由搭配
1.3.2.★支持随心选择搭配颜色和深浅
1.4.换装系统
1.4.1.提供数十套服装任意搭配
1.4.2.★支持服装颜色、材质自由选择
1.4.3.支持服装贴图一键上传功能
1.4.4.支持细致配饰的随心搭配
2.外部创建的角色模型导入
2.1.支持多种文件格式的角色模型导入,包括FBX, OBJ等格式
2.2.★支持3D物体模型按照制作规范进行导入
3.★外部创建的3D场景模型按照制作规范可进行导入
4.动作库表情设置
4.1.支持静态动作、动态动作(含表情)进行预设导入
4.2.★支持自行配置和添加动作模组,扩展数字人的动作库
4.3.资源库包含几十种静、动态人物常用动作,多种静态、动态表情、姿势,神态生动逼真
4.4.可直接将动作应用于角色预览,支持 720 度全方位视角查看
4.5.主流的动作文件,可应用于 3DMax、Maya、MotionBuilder、Unity3D、UnrealEngine4 等主流 3D 软件及开发引擎使用
5.资产管理
5.1.数十种3D场景道具,个性搭建,可设置直播间背景和前景,道具和贴图,背景音乐等
5.2.可基于资产库自由创作新的场景、人物资源后进行保存
6.运镜功能
6.1.★支持自定义运镜效果,支持直播内容预览和储存,支持视频云端存储和本地播放。满足大片级视觉享受
6.2.★支持键盘和XBOX手柄进行自由控制运镜,实现渲染效果
6.3.★运镜的每个镜头的时间都是单独可以根据需求进行设置时长,精确到秒
7.录制功能
★支持在线实时录制渲染视频功能以及支持实时拍照截图功能
二、数字人动捕驱动模块
1.全身动捕驱动
1.1.★支持单目摄像头驱动,实现全身动作的自然连贯性
1.2.支持多种动捕设备、光学动捕设备、光惯一体设备进行全身动捕驱动
1.3.★支持根据动捕驱动调节人物大小、位置
1.4.提供实时动作预览功能,通过鼠标移动可全方位视角查看动作预览
1.5.根据需求自由调节动作持续时间
1.6.主流的动作文件,可应用于 3DMax、Maya、MotionBuilder、Unity3D、UnrealEngine4 等主流 3D 软件及开发引擎使用
2.面部捕捉驱动
2.1.★支持单目摄像头面部表情的实时捕捉与驱动,无需额外捕捉设备
2.2.支持使用Livelinkface实时面部表情捕捉驱动模型
3.特效
3.1.提供海量趣味身体特效和手持特效,增强画面冲击感,提升视觉表现力
3.2.提供实时特效预览功能,通过鼠标移动可全方位视角查看动作预览
三、3D场景编辑模块
1.场景编辑模块
1.1.提供多种动态与静态场景选择,包括但不限于纯绿幕、发布会场景、科技场景等
1.2.★支持多种文件格式、HDR文件上传以创建自定义场景
1.3.★支持人物大小、位置的精细调节
1.4.集成背景虚化功能,增强视觉层次感
1.5.支持输出透明背景的NDI推流
2.海量道具库
2.1.内含丰富的道具类型,如装饰品、自然元素、展示台、屏幕等。
2.2.低门槛的场景编辑工具,轻松调整道具的位置、大小和旋转角度
2.3.支持多个屏幕同时播放视频和图片,丰富场景表现力。
四、数字人智能交互模块
1.AI数字人交互软件功能
1.1.★问答库定制:根据需求个性化定制问答数据库,确保特定领域内的回答的高效率和准确性
1.2.★开放API接口:依托国内的大模型实现更准确、自然的问答结果和交互体验
1.3.★实时对话交互:集成AI驱动的动作逻辑、动捕设备预置动作以及语音和面部捕捉技术,实现流畅的动作与表情同步
1.4.AI弹幕互动:依据问答库和大模型进行语言、行为互动
1.5.★AIGC算法:智能问答、长文本撰写与精简、短文本交流
1.6.★声音定制:根据需求调整包括音调、音色、语速等参数;具备安全防卫功能,防止克隆声音泄露
1.7.支持大模型定制化、多并发、敏感词屏蔽、公有云、私有云和本地部署
1.8.多模态输入:支持语音、文本、键盘、鼠标、触屏、预设指令、手柄、Optitrack等输入方式;
1.9.★支持软件界面定制或OEM
2.AI智能短视频
2.1.AI播报功能:上传文本、音频文件即可一键生成数字人播报短视频
2.2.★内容识别生成:支持上传图片或视频,自动识别图片视频内容并快速生成直播文本
2.3.脚本文案创作;输入关键词或描述短语,AI自动生成文案脚本;
3.技术实现
3.1.基于人工智能技术和深度学习模型的数字人形象
3.2.★应用Audio to Face技术:分析语音信号,自动生成匹配的面部表情,结合高精度面部捕捉技术收集丰富的表情数据,训练数字人的表情模型,提高表情真实感;
3.3.高级的语音合成技术和音频处理算法,确保音频自然生动
3.4.采用物理引擎实时渲染、Lumen等先进光照系统,实现高质量的视觉效果
五、XR虚拟演播功能
1.海量3D场景道具,屏幕,展示台,建筑,装饰,自然,其他等多种个性搭建,可设置直播间背景和前景,道具和贴图,背景音乐
2.自定义运镜效果,静态运镜,动态运镜。支持直播内容预览和储存,支持视频云端存储和本地播放
3.★需要提供场景编辑软件,编辑软件能对场景中的物件进行大小,位置,纹理贴图等属性进行调整;并且支持导入3DMAX、FBX、OBJ等格式的模型文件以及jpg、png等图片文件的导入
4.支持手柄控制720度运镜动态模式
5.★需支持一次性载入多个场景,场景之间可做特技快速切换,可边播边载入场景
6.需支持过高精度三角形和四角形面片数组成的三维模型场景,纹理贴图容量不小于20G
7.★场景中需支持添加多盏虚拟灯光,且能独立调整没盏灯光的位置和方向;灯光调整后,虚拟物体的表面亮度会跟着一起变化,以实现动态光效
8.场景中大屏物件需要支持可替换为本地视频、图片、PPT、摄像机信号、IVGA信号、网络信号等;大屏物件的纹理支持“播出动画”效果,且运动方向和速度可调
9.需要支持混合编单,能把场景、前景、图文等节目元素放到一个播出单中;播出单能通过快捷键控制,以实现快速播出的效果
10…需要支持虚拟变焦效果;近景人物清晰,背景变虚;远景人物及背景都清晰
11.★需要支持视频、图片及音频等素材的预览及设置入出点;并且可以一起放到播单中播放;素材需要支持预加载,以保证素材的完整播出;支持多种播放方式,例如:顺序播放、循环播放、断点播放、备播等;素材支持添加过度特技
12.专业运镜
12.1.多角度静态与动态镜头选择,满足不同场景需求
12.2.根据需求自由调节运镜速度,模拟真实摄像机移动

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)