登录社区云,与社区用户共同成长
邀请您加入社区
作者|曹辰捷 阿里巴巴达摩院算法工程师 【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿,旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。 摘要 当前视频生成技术发展迅猛,对于视频内容的可控生成需求也与日俱增。然而现在的技术对相机轨迹和人体运动的控制往往分开处理,依赖高质量标注数
作者|李毅恒中科院自动化研究所硕士、阿里巴巴达摩院实习生 【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿,旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。本文为文章作者的观点/研究数据,仅供参考,不代表本账号的观点和研究内容,版权归分享人所有。 摘要 为了应对多模态虚假新闻带
作者|赵望博 阿里巴巴达摩院实习生 【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿,旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。 摘要 视觉语言模型(VLMs)在多模态任务中表现出色,但大型VLM在处理大量视觉token时面临效率挑战。为加速推理,我们提出Small VLM
作者|李柯涵 阿里巴巴达摩院算法工程师 【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿,旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。 摘要 一种Contrastive Loss的实现方式(Inf-CL),通过分块计算策略,在单台A800机器上就能把batch size扩展
作者|袁瑜谦 阿里巴巴达摩院实习生 【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿,旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。 摘要 当前视频大模型(Video LLM)在整体视频理解上表现出色,却难以精准捕捉视频中特定物体的细节变化(细粒度时空理解)。针对该挑战,本研究
作者|刘子豪 阿里巴巴达摩院架构工程师 【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿,旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。 摘要 压缩伪影去除Compression artifacts removal (CAR),是一种有效的后处理方法,用于减轻边缘侧编解码器中的
作者|王艺楷、曹辰捷等(复旦大学,阿里巴巴达摩院) 【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿,旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。 摘要 本文提出的ASUKA(Aligned Stable Inpainting with UnKnown Areas pri
作者|张祺珲,阿里巴巴达摩院实习生 【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿,旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。 摘要 多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉问答(Visual Quest
一文带你回顾达摩院 CVPR 2025 中稿论文解读!