登录社区云,与社区用户共同成长
邀请您加入社区
作者|涂远鹏 阿里巴巴达摩院实习生 引言 香港大学和阿里达摩院联合提出头号玩家(PlayerOne)模型,该方法可以根据用户提供的图像构建一个支持用户自由动作控制且场景一致的真实世界,通过摄像设备实时捕捉用户的动作序列,PlayerOne能够将这些动态信息无缝融入到构建的虚拟世界中,使用户能够以第一人称视角,在如同顶级AAA游戏般的高质量场景中,自由地进行探索与互动。 项目主页:https://
作者|冷思聪 阿里巴巴达摩院实习生 引言 阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了全新的评价基准--多模态的诅咒 (CMM),这是一个系统性地研究面向语言,视觉,和音频的多模态大模型 (LMMs) 幻觉问题的工作,对幻觉问题提供深入的分析和评估方法。 近年来,多模态大模型(LMMs)在人工智能的前沿领域取得了突破性进展,但仍然面临“幻觉”问题,即模型会生成与输入不符的信息。面对这一挑
作者|袁瑜谦 阿里巴巴达摩院实习生 引言 在厨房手忙脚乱时,你问AI助手:“我煮的菜熟了吗?”——它却连已经煮了几分钟都记不得。现有多模态大模型(MLLMs)在动态第一视角场景中近乎“盲人”:认不出已经清洗过的碗;预测不了即将烧焦的锅;记不住3秒前剪刀位置...... 浙大和达摩院重磅推出EOC-Bench——首个聚焦第一视角下「动态物体时空认知」的评测基准,用3277道灵魂拷问揭穿MLLMs
作者|陈浩邦 阿里巴巴达摩院算法工程师 摘要 在多模态表征学习领域,CLIP范式长期以来占据主导地位,但它正面临难以忽视的缩放瓶颈。例如,一些工作需要使用高达几万的batch size和十亿级别的图文对数据才能取得进展 。与此同时,多模态大语言模型(MLLM)在表征任务上展现出巨大的潜力,仅需轻量级的对比学习就能激活强大的表征能力,在困难任务上已大幅超越CLIP模型 。 这引出了一系列亟待解答
作者|岑嘉诚 阿里巴巴达摩院实习生 摘要 等变图神经网络(Equivariant Graph Neural Networks, GNNs)在多种应用中已展现出显著成功。为了实现完备性——即在等变函数空间上的通用逼近性质——网络必须能够有效捕捉不同节点之间复杂的多体相互作用。以往的方法通常通过加深网络结构、提高交互阶数或增加可导向特征的维度来实现,但往往伴随着巨大的计算开销,且缺乏多项式时间的解法
作者|袁超豪 阿里巴巴达摩院实习生 导语 在学习和模拟物理动力学(如分子运动、蛋白质折叠)时,图神经网络(GNN)已展现出巨大潜力。为了提升模型的泛化能力,一系列“等变GNN”(Equivariant GNNs)被开发出来,它们将平移、旋转等物理对称性作为归纳偏置(inductive bias)融入模型。然而,现有的方法普遍忽略了物理动力学的一个关键特性:非平稳性(non-stationarit
作者|袁杭杰 阿里巴巴达摩院算法工程师 引言 图像与视频重光照(Relighting)技术在计算机视觉与图形学中备受关注,尤其在电影、游戏及增强现实等领域应用广泛。当前,基于扩散模型的方法能够生成多样且可控的光照效果,但其优化过程通常依赖于语义空间,而语义上的相似性无法保证视觉空间中的物理合理性,导致生成结果常出现高光过曝、阴影错位、遮挡关系错误等不合理现象。 针对上述问题,我们提出了 UniL
作者|常舒宁 阿里巴巴达摩院算法工程师 引言 本文提出了SparseDiT,一种通过空间 (Model Structure) 和时间维度 (Timestep) 的token稀疏化来提高Diffusion Transformer(DiT)计算效率的新框架。 在空间维度上,SparseDiT采用三段式架构:底层使用Poolingformer进行高效全局特征提取,中层利用Sparse-dense g