技术漫游-CVPR 2025专栏_DAMO开发者矩阵

技术漫游-CVPR 2025

技术漫游-CVPR 2025

15篇内容

技术漫游｜CVPR'25论文预讲会来了！3场特邀报告+3个团队专场+5个主题方向

7 

DAMO开发者矩阵 · 2025-12-01 15:27:21

达摩院CVPR'25｜可控视频生成新范式Uni3C：无需联合标注数据，一套框架统一相机与人体控制

作者｜曹辰捷阿里巴巴达摩院算法工程师【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿，旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。摘要当前视频生成技术发展迅猛，对于视频内容的可控生成需求也与日俱增。然而现在的技术对相机轨迹和人体运动的控制往往分开处理，依赖高质量标注数

62 

DAMO开发者矩阵 · 2025-12-01 15:11:57

达摩院 CVPR'25｜突破多模态虚假新闻检测瓶颈：基于“上下文-语义一致性”的创新方法

作者｜李毅恒中科院自动化研究所硕士、阿里巴巴达摩院实习生【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿，旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。本文为文章作者的观点/研究数据，仅供参考，不代表本账号的观点和研究内容，版权归分享人所有。摘要为了应对多模态虚假新闻带

31 

DAMO开发者矩阵 · 2025-12-01 15:09:27

达摩院CVPR’25｜最高 91% 的视觉标记裁剪率！优化视觉语言模型推理的创新方法

作者｜赵望博阿里巴巴达摩院实习生【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿，旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。摘要视觉语言模型（VLMs）在多模态任务中表现出色，但大型VLM在处理大量视觉token时面临效率挑战。为加速推理，我们提出Small VLM

34 

DAMO开发者矩阵 · 2025-11-29 11:00:42

达摩院CVPR'25 highlight｜把Contrastive Loss的Batch Size冲到100M!

作者｜李柯涵阿里巴巴达摩院算法工程师【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿，旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。摘要一种Contrastive Loss的实现方式(Inf-CL)，通过分块计算策略，在单台A800机器上就能把batch size扩展

24 

DAMO开发者矩阵 · 2025-11-29 10:58:15

达摩院CVPR'25｜让Video LLM精准理解任意物体！VideoRefer Suite：实现视频大模型“细粒度”时空理解

作者｜袁瑜谦阿里巴巴达摩院实习生【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿，旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。摘要当前视频大模型（Video LLM）在整体视频理解上表现出色，却难以精准捕捉视频中特定物体的细节变化（细粒度时空理解）。针对该挑战，本研究

52 

DAMO开发者矩阵 · 2025-11-29 10:48:27

达摩院CVPR'25｜打破冗余瓶颈：频率偏置驱动的图像压缩补偿新方法

作者｜刘子豪阿里巴巴达摩院架构工程师【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿，旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。摘要压缩伪影去除Compression artifacts removal (CAR)，是一种有效的后处理方法，用于减轻边缘侧编解码器中的

26 

DAMO开发者矩阵 · 2025-11-29 10:44:05

CVPR'25 highlight｜ASUKA：提升图像修复稳定性，减轻幻觉生成和维持色彩一致性

作者｜王艺楷、曹辰捷等（复旦大学，阿里巴巴达摩院）【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿，旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。摘要本文提出的ASUKA（Aligned Stable Inpainting with UnKnown Areas pri

83 

DAMO开发者矩阵 · 2025-11-29 10:42:20

达摩院 CVPR'25 ｜告别人工标注，无监督同行评审如何精准评估多模态大语言模型？

作者｜张祺珲，阿里巴巴达摩院实习生【CVPR 2025预讲会】系列内容 CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿，旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。摘要多模态大语言模型（Multimodal Large Language Models, MLLMs）在视觉问答（Visual Quest

30 

DAMO开发者矩阵 · 2025-11-29 10:33:58

一文带你回顾达摩院 CVPR 2025 中稿论文解读！

一文带你回顾达摩院 CVPR 2025 中稿论文解读！

10 

DAMO开发者矩阵 · 2025-11-28 15:03:26