美团LongCat-Video视频大模型震撼开源:推理效率跃升10倍,常识理解能力登顶业界...
2025年10月25日,美团正式向全球开发者开源其首个视频生成大模型LongCat-Video,标志着这家生活服务巨头在通用人工智能领域迈出关键一步。该模型突破性地实现文生视频、图生视频、视频续写三大核心能力的统一架构支持,原生支持5分钟超长视频生成,推理速度较传统模型提升超900%,在常识理解等关键指标上超越多款闭源商业模型。LongCat-Video采用创新的多任务联合训练机制,通过零帧、..
美团LongCat-Video视频大模型震撼开源:推理效率跃升10倍,常识理解能力登顶业界
【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
2025年10月25日,美团正式向全球开发者开源其首个视频生成大模型LongCat-Video,标志着这家生活服务巨头在通用人工智能领域迈出关键一步。该模型突破性地实现文生视频、图生视频、视频续写三大核心能力的统一架构支持,原生支持5分钟超长视频生成,推理速度较传统模型提升超900%,在常识理解等关键指标上超越多款闭源商业模型。
LongCat-Video采用创新的多任务联合训练机制,通过零帧、单帧、多帧条件输入的智能识别,实现不同生成任务的无缝切换。针对长视频生成中普遍存在的画面漂移问题,模型通过视频续写任务的原生预训练,构建起强大的时间一致性保持能力。在推理优化方面,美团团队独创"粗到细"两阶段生成策略,结合块稀疏注意力机制与模型蒸馏技术,将720P/30fps视频的生成效率提升至传统方法的10.1倍,彻底改变了视频大模型"慢生成"的行业痛点。
作为美团世界模型(World Model)研发战略的核心成果,LongCat-Video通过视频生成任务构建物理规律、时空演化与场景逻辑的智能建模系统。目前,该模型已在Gitcode平台开放完整代码仓库、模型权重及技术报告,开发者可直接基于此进行二次开发与应用创新。
三维数据压缩技术突破,构建高效视频生成底座
LongCat-Video的研发团队深刻认识到高质量训练数据是模型性能的基础。为此,他们构建了业界领先的视频数据处理流水线:通过多源异构数据采集、智能镜头切分、动态去重等技术,从海量互联网视频中筛选出兼具多样性与专业性的训练素材。特别值得关注的是,团队创新性地采用4×16×16倍三维压缩技术,将原始视频数据转化为高效的潜空间表示,在保留关键视觉信息的同时,大幅降低存储与计算成本。
在模型架构设计上,LongCat-Video采用基于Diffusion Transformer的单流三维结构,融合扩散模型的生成能力与Transformer的长时序建模优势。每个Transformer模块包含三维自注意力层、跨模态注意力层及SwiGLU激活前馈网络,通过RMSNorm与QKNorm双重归一化机制保障训练稳定性。文本输入则采用umT5多语言编码器处理,原生支持中英文双语指令,显著提升模型的场景适应性。
如上图所示,该页面详细展示了LongCat-Video的技术参数、支持的三大核心任务及开源许可证信息。这一开源举措充分体现了美团推动AI技术普惠的决心,为开发者提供了零门槛接触前沿视频生成技术的机会。
统一任务框架与稀疏注意力技术,重塑视频生成效率
LongCat-Video在训练范式上实现重大突破,采用三阶段渐进式训练流程:首先通过Flow Matching框架替代传统扩散过程,提升训练稳定性;随后利用高质量数据集进行监督微调,强化视觉美学与运动流畅度;最后通过创新的组相对策略优化(GRPO)强化学习,引入人类偏好反馈。这种科学的训练策略使模型实现从静态图像理解到动态视频生成的能力跃迁。
任务设计的创新性是LongCat-Video的核心竞争力。团队摒弃传统模型为不同任务单独设计网络的做法,发明"条件帧数量识别"机制:当输入零帧时自动激活文生视频模式,单帧触发图生视频功能,多帧则启动视频续写流程。这种统一任务框架不仅使模型参数量减少40%,更实现了跨任务特征知识的高效共享,大幅提升整体性能。
在长视频生成效率优化方面,LongCat-Video引入可缓存键值特征机制,使条件帧表示在采样过程中可重复使用,减少60%的冗余计算。块稀疏注意力技术的应用则仅计算最相关的10%注意力块,将计算复杂度降至传统方法的十分之一。这些优化使单卡H800 GPU可在几分钟内完成一分钟视频的生成,为产业级应用奠定坚实基础。
常识理解能力登顶,多维度测评彰显技术实力
美团在严格的内部评测体系中,从文本对齐度、视觉质量、运动流畅性等维度对LongCat-Video进行全面验证。结果显示,该模型在文生视频任务的视觉质量指标上与谷歌Veo3持平,整体表现超越PixVerse-V5等主流开源模型。特别在物理合理性评估中,LongCat-Video生成的视频展现出卓越的运动规律遵循能力,为后续机器人训练等专业场景应用创造可能。
在国际权威评测平台VBench 2.0上,LongCat-Video更是交出亮眼答卷。其总得分达62.11%,仅次于Veo3和Vidu Q1两款闭源商业模型。令人瞩目的是,该模型在"常识理解"单项以70.94%的得分位居所有参评模型第一,不仅超越Stable Video Diffusion等开源竞品,更领先于Sora、Kling 1.6等闭源商业模型,展现出深厚的语义理解能力。
表格清晰呈现了LongCat-Video与国内外主流视频生成模型的横向对比。其中常识理解指标的领先,证明美团在多模态语义融合技术上的深厚积累,为视频内容创作提供了更符合人类认知习惯的AI辅助工具。
LongCat-Video的开源释放,不仅为学术界提供了先进的研究基座,更为产业界带来革命性的应用可能。美团在技术报告中特别展示了该模型在自动驾驶仿真数据生成、机器人操作演示视频制作等专业领域的应用案例,预示着视频大模型将成为连接虚拟与现实世界的关键纽带。
展望未来,美团计划持续优化LongCat-Video的物理知识建模能力,集成多模态记忆系统,并与大语言模型深度融合,构建真正理解世界运行规律的智能系统。随着技术的不断迭代,我们有理由相信,视频生成大模型将在内容创作、教育培训、工业仿真等领域引发颠覆性变革,而美团正通过开源共享的方式,引领这场技术革命的方向。
【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)