登录社区云,与社区用户共同成长
邀请您加入社区
背景 多模态大语言模型普遍基于二维图片和文本数据来训练,难以理解三维世界。为构建具备三维世界交互能力的 AI Agent,北京通用人工智能研究院与北京大学、清华大学、卡耐基梅隆大学等联合开发了首个精通 3D 任务的具身智能体。 2022 年 Google Robotics 的一项名为 SayCan 的研究展示了机器人听取人类指令后自主规划,清理洒掉的饮料的场景。在这样的场景中,关键挑战在于如何将
背景 动作捕捉技术是将人体动作转换为数字化记录的方法。常见的动作捕捉技术分为光学与惯性两大主流门类,前者利用工作在 850nm 至 900nm 红外波段的高速相机系统,捕捉人体动捕服上的马克点(Marker)计算动作姿态;而后者依靠穿戴于人体关键肢体位置的惯性测量单元(IMU,由陀螺仪、加速度计以及磁力计构成)估算人的动作姿态。 为了获得较好的智能水平,让机器人能够获得在各种环境下自主完成任务
背景 在生成式 AI 技术热潮下,3D AIGC 也开始展现潜力。虽然目前 3D AIGC 尚不如文本、图像的生成技术成熟,但 Clay 等模型已经开始有了行业应用。 传统的计算机图形技术(CG)所做的主要工作同样是数字内容生成(GC),涉及建模与光线追踪渲染等过程。 但传统方法的主要缺陷是成本过高,很难满足智能手机和未来 XR 头显设备的内容需求,而 AIGC 技术为 3D 内容生成提供
背景 当前流行的生成式模型,其主要任务并非视频编码和评价。在视频处理领域,研究人员也在思考生成式模型是否有能力参与视频编码和质量评价的应用,并产生一定影响。 以 Sora 为代表的生成式模型已经能够生成比较逼真的视频画面场景,但这类生成式任务与视频编码有着很大区别。生成式模型输出画面时,只需要画面的质量接近人类想象的真实场景即可,并不需要像视频编码一样,需要较为准确地还原一段原始视频内容。
“达摩链接”生态系列讲座作为连接达摩院与学术界、产业界的社区活动,通过组织内外部的沙龙、讲座等形式,旨在促进前沿技术的分享交流,推动技术成果的转化、合作与应用落地。 本期达摩链接特邀上海交通大学电子信息与电气工程学院副教授潘烨进行分享,如果你对多模态表情生成、沉浸式动画工具和动态远程交互方面的内容感兴趣。
作者 |丁文伯 清华大学深圳国际研究生院副教授,博士生导师 01 在机器人触觉传感器领域的研发历程 02 光电融合的传感器探索 03 更多模态融合的传感器 04 结合触觉感知与人类反馈的一体化系统 05 探索机器人触觉领域的杀手级应用 在机器人触觉传感器领域的研发历程 传感器是智能机器人系统的核心组件,机器人传感器包括了视觉、听觉、嗅觉、味觉、位置、压力和触觉等多种模态类型。其中,视觉传感