本文系统综述了统一多模态基础模型(UFMs),一种能同时处理文本、图像、视频、音频等多模态数据的通用AI架构。文章详细分析了UFMs的概念、三大建模范式(外部专家集成、模块化联合、端到端统一)、编码解码策略、预训练方法及微调技术,并探讨了其在机器人、自动驾驶等领域的应用。UFMs突破传统"模态孤岛"限制,推动AI向人工通用智能(AGI)演进。


“正文开始

本文参考两篇UFMs综述类文章,系统性综述754篇+322篇论文精华,旨在全面、深入地剖析UFMs,将从其核心定义与研究动机出发,系统梳理其主流模型架构与关键的跨模态融合机制,详细探讨其训练范式,包括海量数据处理、核心训练目标与硬件需求。

统一多模态基础模型(Unified Multimodal Foundation Models, UFMs)代表了人工智能领域的最新前沿,它致力于构建一种能够同时处理文本、图像、视频、音频等多种模态数据,并实现跨模态理解与生成的通用基础模型。

如图 1 所示,这种统一化经历了三个阶段:从各自独立的模型所具备的孤立专业知识,到统一框架下的集成能力,再到作为未来愿景的涌现行为,从而实现复杂的交错推理。

图1:统一多模态模型演进:从特定阶段(其中独立的理解模型处理图像描述和动作识别等任务,生成模型执行文本到图像的创建和图像修复);到组合阶段(实现视觉标注驱动的理解,例如,绘制辅助线以更好地理解几何等问题)和基于知识的图像生成(例如,创建受现实世界上下文启发的图像);到涌现阶段(作为未来愿景),促进对复杂任务的交错推理,例如基于脚本的多模态电影生成(例如,理解完整的剧本并生成其对应的电影)和基于图像的迷宫导航空间推理(例如,使用视觉信息来推理路径和环境),而目前尚无任何工作完全实现这些任务

UFMs的核心价值在于突破传统AI模型的"模态孤岛"限制,使机器能够像人类一样,通过整合不同感官信息来形成更全面的认知与理解。

随着GPT-4o、Gemini等闭源模型的惊艳亮相,开源社区也推出了如BAGEL、Emu3等代表性UFMs,它们在架构设计、训练策略和应用场景上各具特色,共同推动着AI向人工通用智能(AGI)演进。

然而,开源社区在构建强大的统一多模态模型方面仍面临诸多挑战:技术路线不统一、关键设计缺乏共识、训练策略与数据管理复杂等。

文末可领福利!!

为弥合这一差距,来自南京大学、中科院自动化所、北京大学的研究团队联手,参考754篇论文精华,形成80+页综述,推出《统一多模态理解与生成的综述:进展与挑战》!!

以及来自HKUST发布在Arxiv 2025的工作,322篇文献,形成30+页综述,推出《统一多模态理解与生成模型:进展、挑战与机遇》!!

论文标题:《A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges》

论文标题:《Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities》

一、UFMs的概念与核心架构

UFMs的核心概念是将不同模态的数据统一表示为一种通用的"语言" ,并通过单一架构实现跨模态的理解与生成。

这与人类认知世界的方式高度相似——我们能够无缝地整合视觉、听觉、触觉等多感官信息,形成对复杂场景的完整理解。

UFMs试图模拟这一过程,通过统一的编码、解码和交互机制,使AI能够同时处理和生成多种模态的内容。

图2:UFM 研究领域概览,分为六个关键维度:编码、解码、建模、训练、应用和基准测试。代表性研究成果按类别和发布年份(2023 年至今)进行分类,展现了整个技术栈的发展历程

在技术路线方面,UFMs主要分为三大范式:基于扩散模型的架构、基于自回归模型的架构,以及融合自回归和扩散机制的混合方法。

图3:统一多模态理解与生成模型的分类。根据其核心架构,这些模型主要分为三大类:扩散模型、自回归模型及自回归 + 扩散模型。每一类别又依据所采用的编码策略进一步细分,包括像素编码、语义编码、可学习查询编码以及混合编码。展示了这些类别中的架构变体及其对应的编码器-解码器配置

尽管统一基础模型已经取得了显著进展,但“统一基础模型(Unified Foundation Model)”这一概念的精确定义仍然较为模糊。为构建一个严谨的研究框架,本文首先对相关任务进行形式化定义。

给定任意输入数据 x,其对应的任务类型可表示为:

与数据对应的任务类型

本文所讨论的统一基础模型,是指能够同时处理多模态理解任务多模态生成任务的模型。为此,我们首先定义理解任务与生成任务的集合:

是理解任务是生成任务

基于上述定义,我们认为统一基础模型所覆盖的任务集合

必须同时包含理解任务与生成任务。因此,所有合法的统一任务集合构成的集合,记为 ,可形式化表示为:

如图 4 所示。该定义确保统一基础模型必须具备同时处理两类任务的能力,而非仅专注于其中一类。

图4:统一任务集示意图。统一任务集定义为包含理解任务 (T) 和生成任务 (T) 的任务集合

二、多模态理解与多模态生成

在 UFMs 出现之前多模态理解和多模态生成的研究是独立发展的。这些研究显著提升了多模态模型在各个领域的应用能力,为 UFMs 的后续发展奠定了基础。

本节首先概述多模态理解模型和多模态生成模型,为理解 UFMs 奠定基础。随后,基于 UFMs 的综合任务范围对其进行正式定义,该范围涵盖了跨多种模态的理解和生成能力。

2.1 多模态理解模型

多模态理解模型指的是基于大语言模型(LLM)的架构,能够接收、推理并生成来自多模态输入的输出。这些模型将 LLM 的生成和推理能力扩展到文本数据之外,实现了跨多种信息模态的丰富语义理解。

图5:多模态理解模型架构,包含多模态编码器、连接器和大语言模型。多模态编码器将图像、音频或视频转换为特征,连接器对这些特征进行处理后作为 LLM 的输入。连接器的架构大致可分为三种类型:基于投影的、基于查询的以及基于融合的连接器

现有方法大致可分为判别式和生成式判别式模型学习决策边界以对多模态数据进行分类,而生成式模型则捕捉联合数据分布,通过生成数据来促进理解。

判别式模型

给定一个训练集**(X, Y),其中 X 表示数据,Y 表示标签**,判别模型旨在估计标签预测的条件概率 p(y|x)。这些模型是分类和识别等任务的基础。早期的判别模型,例如 ResNet,显著提升了机器学习的表征能力。

大规模预训练模型的出现进一步推动了该领域的发展。诸如 MoCo 和 SimCLR 等方法利用无监督预训练从未标记数据中学习可迁移特征,然后进行特定任务的微调。

随后通过对齐的潜在表示进行联合推理,包括 CLIP、ALIGN、SigLip和 BiT,在各种领域都展现出了卓越的泛化能力和性能。

判别模型通常根据训练期间标注数据的可用性分为自监督模型和监督模型。

(1)自监督模型。自监督学习是模型训练的基础范式。其主要优势在于利用数据本身提供的监督信号,从而显著减少对人工标注数据的需求,并支持跨多种模型的大规模训练。根据这些信号的生成方式,自监督学习主要分为对比式和非对比式方法。

对比学习在大模型的预训练中获得了显著进展,尤其是 CLIP的成功。它通过对比正负样本对来学习表征,从而有效地区分语义相似和语义不相似的实例。其基本原理是最大化语义相似的正样本对之间的相似度,同时最小化语义不相似的负样本对之间的相似度。这通常通过对比损失函数来实现。最常用的是 InfoNCE 损失,其公式如下:

非对比学习方法与对比学习的主要区别在于它们使用负样本来构建自我监督信号。例如,SimSiam通过最大化两个增强视图之间的相似性来训练模型,而不依赖于正负样本对。同样,DINO涉及将相同的随机转换输入到不同的学生和教师网络中,**旨在使学生网络的输出与教师网络的输出保持一致。**这种方法体现了没有对比元素的自我监督学习。

**(2)监督模型。**监督训练在传统的机器学习中是必不可少的,其中模型使用标注数据优化参数以实现特定任务。在人类标注的数据集上预训练模型可以显著提高其泛化能力。经典模型,如BiT,利用JFT和I2E等大规模分类数据集来提高泛化能力。尽管在数据标注方面存在挑战,但监督模型仍然发展良好,是训练过程中不可或缺的一部分。

在这里插入图片描述

生成式模型

与判别模型不同,生成模型旨在学习联合分布 P(X, Y),而非直接对条件概率 p(y|x) 进行建模。通过捕捉潜在的数据分布,生成模型能够实现稳健的表征学习,并通过数据合成促进理解。

该领域的基础方法主要分为掩码图像建模 (MIM) 和自回归范式

(1)掩码图像建模。随机掩码建模策略被广泛应用于模型预训练,并在自然语言处理(NLP)领域被证明非常有效,例如 BERT 及其后续发展。BERT 采用随机掩码进行双向语言建模,使模型能够理解语言含义并执行 NLP 中的理解任务。

受此启发,BEIT 引入了掩码预测训练进行图像编码,以解决图像理解任务,而 BEVT 将掩码建模应用于视频理解。

为了提高预训练的有效性和可扩展性,MAE 被提出,并利用 MAE 式的预训练取得了显著成果。通过使用高掩码率并直接预测像素,MAE 具有更高的可扩展性和更易于训练的特点。VideoMAE 进一步将此策略扩展到视频理解领域。基于这些进展,SimMIM 通过将繁重的解码器替换为单层预测头来改进 MIM 策略,从而提高了效率。

近期研究探索了如何扩展掩码视觉表征以用于大规模视觉预训练。EVA 和 EVA02 通过直接预测视觉特征来改进掩码信息模型 (MIM),从而促进视觉模型的大规模预训练。**EVA-CLIP 整合了这一概念,通过广泛的预训练来增强 CLIP。**总而言之,MIM 能够高效地构建视觉模型的基础能力,从而促进下游应用。

**(2)自回归模型。**自回归(AR)建模是一种广泛应用于数据建模和预测的基础技术。在大规模预训练模型的背景下,AR 方法变得越来越重要,尤其是在 GPT-2 取得成功之后。AR 模型通过根据前面的元素依次预测每个元素,因此非常适合各种现实世界的任务。

最近的研究表明,自回归模型在多模态理解方面非常有效LLaVA、LLaVA-1.5、Qwen-VL、DeepSeek-VL、Qwen2VL、Qwen2-Audio、Qwen2.5-Omni等代表性工作都采用了自回归框架进行多模态理解。这些模型利用自回归机制来执行图像解释、视频理解、音频分析和多模态输入处理等任务。

自回归方法在建模和解释多模态信息方面展现出的稳健性和通用性,使其成为当代模型开发的主流范式。

2.2 多模态生成模型

生成模型机器学习中扮演着至关重要的角色,它们能够合成多样化且逼真的数据。例如基于能量的模型、生成对抗网络GAN)和自编码器等经典方法已在各个领域展现出强大的生成能力。

扩散模型、流匹配和自回归模型的最新进展进一步提升了生成模型的保真度和通用性,支持跨多种模态的高质量合成,并促进统一的多模态融合。

(1)基于能量的模型

基于能量的模型是统计物理学中常用的方法,近年来在生成式人工智能领域也得到了新的发展。这些模型采用能量函数来表示数据的概率密度,并利用神经网络来最小化与数据相关的能量。公式表示如下:

基于能量的模型可应用于各种任务,例如图像合成、3D 数据合成、图像恢复和超分辨率重建。虽然这些模型具有稳定性和灵活性,但能量函数的归一化带来了巨大的计算挑战。

(2)GAN

生成对抗网络**(GAN)是****生成模型领域的一项重大突破**,为生成式 AI 开辟了无限可能性。它通过模型中生成器模块和判别器模块之间的博弈,隐式地学习数据集的分布 q(x)。判别器的目标是区分生成数据和真实数据,而生成器的目标是生成能够欺骗判别器的数据。

这个过程可以表示为如下具有价值函数****V(G, D) 的双人极小极大博弈:

(3)AE&VAE

自编码器用于重构一组输入观测值**,主要由三部分组成:编码器、潜在特征表示和****解码器。**

编码器和解码器通常由神经网络构成,分别记为 E 和 D。因此,对于输入 x,模型的输出可以表示为ˆx = D(E(x))。潜在特征由中间变量 h = E(x)表示。因此,自编码器模型的训练目标可以表示如下:

**基于自编码器的重构模型能够有效地捕捉多模态信息。**然而,由于它们本身并不生成新数据,因此最初在数据生成任务中的应用受到限制。

变分自编码器**(**VAE)的引入解决了这一限制,它用数值分布代替了固定的潜在变量,从而允许对潜在变量进行采样以生成数据

在训练过程中,VAE结合了经典的重构损失和KL****散度,以确保潜在变量保持正态分布。这种方法有效地对多模态信息进行建模,许多后续方法都利用 VAE 模块来解释输入数据。其后续改进及扩展框架如:VQVAE、VQGAN等。

(4)扩散模型

扩散模型通过正向-反向策略实现了强大的生成能力。前向过程在时间步长 T 内逐步向初始数据 x 添加高斯噪声,得到 x’。随后,反向过程经过训练,学习如何对随机高斯噪声进行去噪,从而重建数据样本。

图6:扩散式文本到图像生成模型的示意图,其中引入了超越文本的多种条件以引导生成结果。图像生成被构造成一对马尔可夫链:一个前向过程,通过添加高斯噪声逐步破坏输入数据;以及一个反向过程,学习参数化分布以迭代去噪,最终还原至输入数据

扩散模型的架构通常包括:

  • 编码器:如CLIP或ViT,用于将文本和图像编码为潜在表示。
  • 降噪器:如UNet,用于在反向过程中逐步去除噪声。
  • 解码器:如VAE,用于将潜在表示解码为最终的图像。

基于扩散模型的典型工作,以下是一些具有代表性的方法:

  • GLIDE:是早期在像素空间进行扩散的模型,它直接在像素级别生成图像,通过引入“无分类器引导”机制,能够根据文本描述生成高质量的图像。不过,由于其在像素空间操作,计算成本较高,训练和推理过程较为耗时。
  • Imagen:采用预训练的大型语言模型T5-XXL作为文本编码器,将文本描述转换为条件信息,然后在像素空间中进行扩散生成。它在文本与图像的匹配度以及生成图像的质量上都取得了显著效果,但同样面临着像素空间操作带来的高计算代价。
  • Stable Diffusion:是目前应用最为广泛的潜在空间扩散模型之一。它先使用变分自编码器(VAE)将图像编码到低维的潜在空间,然后在该空间内进行扩散过程,最后通过VAE解码器将潜在表示解码为最终的图像。该模型结合了UNet架构和基于CLIP的文本编码器,能够生成高质量、多样化的图像,并且在计算效率上有较大提升。
  • DALL-E 2:也称为unCLIP,它利用CLIP的文本编码器和图像编码器,将文本和图像映射到同一个多模态表示空间中。然后通过一个扩散模型作为解码器,从CLIP的潜在空间生成图像。它还引入了文本-图像潜在先验,通过自回归方法或扩散模型来学习文本和图像潜在空间之间的映射关系,进一步提升了生成图像的质量和可控性。
  • OmniGen:实现了文本到图像的生成能力,并支持如图像编辑、主题驱动生成和视觉条件生成等多种下游任务,能够处理多种数据生成任务,具有较好的可扩展性。
  • UniReal:将图像级任务视为不连续的视频生成,将不同数量的输入和输出图像视为帧,从而无缝支持图像生成、编辑、定制和组合等任务,为图像生成领域带来了新的视角和方法。
  • GenArtist:提供了一个由多模态大语言模型(MLLM)智能体协调的统一图像生成与编辑系统,通过整合多种模态的信息,实现了更高效和灵活的图像生成与编辑功能。
  • UniVG:将多模态输入视为统一条件,采用单一权重集,以支持各种下游应用,简化了模型结构,提高了模型的通用性和适应性。

(5)Normalizing Flow

归一化流模型遵循生成模型中数据分布建模的原理,通过学习样本分布来生成概率。其最显著的特点是可逆性,能够构建双射变换。

在归一化流中,模型被视为一个变换 f,它将输入 x 映射到输出 o = f(x),同时将原始分布

变换为目标分布 。x 的概率密度可以表示如下:

归一化流模型通过其可逆性和高效采样能力,生成模型领域中占据重要地位,并且在多种模态的数据生成任务中表现出色。流匹配简化了连续归一化流的训练目标,显著降低了训练难度,同时保持了优异的性能,这有望为更强大的模型铺平道路。

(6)自回归模型

自回归模型已逐渐成为人工智能的主导框架,尤其是在多模态理解领域。它们在多模态生成中的重要性也日益增长。

通过将图像映射为一维离散token序列,并基于所有先前生成的元素预测下一个元素。其核心优势包括:

  • 结构一致性:与大语言模型(LLMs)的结构一致,便于开发统一的多模态系统。
  • 高效推理:在生成过程中可以利用并行化技术提高效率。

图7:自回归模型核心组件图解,涵盖自回归序列建模与离散向量量化。现有自回归模型大致可归为三类:Next-Pixel Prediction 将图像展平为像素序列,Next-Token Prediction 借助视觉 tokenizer 将图像转化为 token 序列,而Next-Multiple-Tokens Prediction 则在一个自回归步骤中输出多个 token

基于像素的模型:如PixelRNN和PixelCNN,将图像展平为像素序列进行建模。优点是能够捕捉空间依赖性,但计算成本高。

基于Token的模型:通过向量量化(VQ)将图像转换为紧凑的离散Token序列。例如VQ-VAE-2和VQGAN,显著缩短了序列长度,提高了生成效率。

基于多Token的方法:如Next Patch Prediction(NPP)和Next Block Prediction(NBP),通过预测多个Token组成的组来加速生成过程。

三、统一多模态基础模型建模

由于不同模态的不同表征形式、生成机制和任务特征,设计有效的建模方法是开发UFM的一个根本挑战。

与传统的多模态理解模型或生成模型不同,UFM应该共同优化理解和生成目标,这通常会导致相互冲突的要求,例如在学习高级语义表示的同时保留低级纹理细节。

此外,UFM通常需要整合不同的建模范式(例如,结合自回归和基于扩散的框架),这给训练和推理带来了极大的复杂性。因此,建模策略关键地决定了理论严谨性和实际实施之间的平衡,从根本上塑造了UFM在研究和部署环境中的发展轨迹。

基于不同建模方法之间的耦合机制,我们将当前的统一基础模型(UFMs)划分为三大类别:外部专家集成建模(External Expert Integration Modeling,见第 3.1 节)、模块化联合建模(Modular Joint Modeling,见第 3.2 节)以及端到端统一建模(End-to-End Unified Modeling,见第 3.3 节)。

该分类依据包括:模型组件之间的耦合程度、对外部生成模块的依赖性,以及生成过程的一致性与统一性。通过这一分类框架,可以系统性地分析不同建模策略在系统架构设计、能力整合方式、推理效率等方面的差异及其影响,同时也有助于评估其在可扩展性、资源消耗等关键维度上的优劣权衡。

3.1 外部专家集成建模

图8:外部专家集成建模。整个过程包括三个步骤:(1)任务规划和调度,(2)任务执行,以及(3)响应后处理和集成

如图 8 所示,该建模策略的核心思想是充分利用 LLM 在上下文理解、任务规划以及统一语言接口方面的优势,将其置于系统中心,充当编排器(orchestrator)或控制器(controller

在这种架构下,LLM****并不直接执行图像识别、语音处理或图像生成等具体任务;相反,当接收到可能涉及语音、图像或视频等多模态信息的用户指令时,LLM 会首先分析用户意图与任务目标,自主确定所需的处理步骤与工具链组合,并以自然语言形式构造格式化提示(prompts),以调用外部专家模型来完成诸如图像识别、语音识别、图像生成和语音合成等具体任务。随后,LLM 对各专家模型返回的结果进行汇总与整合,最终生成面向用户的输出。

外部专家集成建模的设计与实现通常包含以下三个关键组成部分:

第一,任务规划与编排(Task Planning and Orchestration)。 在这一阶段,LLM 负责解析用户意图,将整体任务分解为若干子任务,并生成结构化的控制指令以调用外部模块。该过程通常由基于提示的自然语言引导机制驱动,具体包括:(1)任务分解,即在保持正确输入–输出依赖关系和执行顺序的前提下,将复杂输入拆解为可管理的子任务;(2)外部专家模型的选择与模态规划(例如语音识别、图像生成等),以确保跨模态数据流的一致性与连贯性;(3)结构化提示的生成,明确任务类型及其输入参数。

第二,外部专家模型的执行(Execution of External Expert Models)。 在该阶段,LLM 使用生成的提示调用特定的外部专家模型。为确保与 LLM 的可靠交互,这些专家模型通常需要遵循统一的接口规范。

第三,结果的后处理与集成(Post-processing and Integration of Results)。 这一过程不仅仅是对各模型输出的简单汇总,而是需要将结果与用户的初始意图和任务目标进行对齐与融合。在某些情况下,当所需功能超出当前外部专家模型的能力范围时,系统还应能够给出合理的回退响应(fallback responses)或引导性建议

在实际实现中,该建模范式展现出显著的灵活性与可扩展性。例如,Visual ChatGPT 通过引入 Prompt Manager 来管理多个视觉基础模型的输入–输出接口,使 ChatGPT 能够执行视觉问答、图像生成等视觉相关任务。HuggingGPT 在此基础上进一步发展出一套较为完整的专家模型编排系统,使 LLM 能够动态整合来自 HuggingFace 社区的各类模型来解决复杂任务,并针对任务调度过程进行了专门优化。

AudioGPT 将这种服务调用机制扩展至音频领域,支持语音识别、音频编辑与音频合成等任务。与上述无需训练的方法不同,SwitchGPT 通过轻量级指令微调(instruction tuning)增强了 LLM 对模态转换任务的管理能力,实现了模态对齐,而无需进行大规模再训练。这种方式使得外部专家模型的使用更加灵活,并进一步提升了系统能力上限。

3.2 模块化联合建模

模块化联合建模是一种旨在在理解能力与生成能力之间建立灵活连接机制的建模范式。其核心思想是在多模态系统中采用模块化架构,在以大语言模型(LLM)为主干(backbone)的基础上,引入相对独立的生成模块,从而实现多模态任务的灵活组合与执行。

具体而言,LLM 作为系统中的核心处理单元,主要负责输入理解与上下文建模。当任务需要生成非文本模态(如图像或视频)时,LLM 并不直接生成目标模态内容,而是输出描述性文本中间表示(intermediate representations),以引导外部生成模块生成最终的目标模态结果。这些外部模块通常是经过充分训练的、面向特定模态的生成模型(例如扩散模型),它们具备强大的生成能力,能够显著提升多模态生成结果的质量。

图9:模块化联合建模。多模态内容的生成通常需要调用外部生成模型(例如,扩散模型)

**图 9 展示了模块化联合建模的整体架构。**为更细致地刻画该建模范式的内部机制,可根据生成条件的不同,将其进一步划分为两类。

第一类是基于提示中介的建模(Prompt-Mediated Modeling),该方式通过生成自然语言指令来引导外部模型生成图像、视频等内容。

第二类是基于表示中介的建模(Representation-Mediated Modeling),该方式利用中间表示对外部生成模块进行条件约束。

尽管这两种方法在表示形式和接口设计上存在差异,但它们均遵循以“理解–中介–生成(understanding–mediation–generation)”为核心原则的模块化架构。

3.3 端到端统一建模(End-to-End Unified Modeling)

与前述两种模块化建模方法相比,端到端统一建模代表了一种高度集成的建模范式。该方法通过端到端训练,在统一的模型架构内对多模态理解与生成能力进行联合建模

不同于依赖外部生成模块的模块化方法,端到端统一建模在模型内部同时完成输入模态的感知与目标模态的生成,从而实现更高程度的耦合与语义一致性。

一方面,这种高度紧耦合的设计有助于减少模态转换过程中产生的信息损失;另一方面,它使模型能够在共享表示空间(shared representation space)中处理多模态任务,从而同时提升模型的表达能力与生成质量。

图10:端到端统一建模,按输入特性、技术路线和架构创新进行分类

图 10 给出了端到端统一建模的整体分类框架。基于模型结构、生成机制及其底层原理的差异,当前的端到端统一建模方法大致可划分为以下四类:(1)自回归建模****(AutoregressiveModeling),(2)扩散建模(Diffusion Modeling),(3)自回归–扩散混合建模(Autoregressive–Diffusion Hybrid Modeling),以及(4)其他类型(Other Types)。

图11:端到端统一建模典型工作概览

建模类型 代表模型 架构类型 适用任务 优势 局限
Autoregressive Emu3 / Emu3.5 / LWM / Liquid / CM3 / Chameleon / VARGPT Decoder-only Transformer,统一 token 序列,支持多模态输入 文本生成、图像生成、视频生成、跨模态任务(text→image, image→text, multimodal interleaving) - 自然对齐 LLM,架构简单- 端到端优化理解与生成- 参数共享,跨任务知识迁移强 - 训练需大规模高质量数据- token-based 图像生成信息瓶颈- 长序列生成易累积误差- 推理效率低,实时性差
Diffusion Versatile Diffusion / UniDiffuser / CoDi / UniD3 / OmniFlow Diffusion 或 Rectified Flow,连续或离散采样 图像生成、图像编辑、多模态生成(text↔image) - 高质量、细节丰富的生成- 支持多模态任意条件生成- 稳定训练 - 推理慢,多步去噪- 多模态理解能力较弱- 训练与部署成本高
Autoregressive-Diffusion Hybrid Transfusion / MonoFormer / Show-o / JanusFlow / BAGEL / Mogao 单 Transformer 结合自回归与连续/离散 diffusion 或 rectified flow,双目标训练 文本-图像生成、跨模态生成、长上下文视觉推理 - 兼顾离散与连续模态- 提升视觉生成质量- 消除信息瓶颈 - 噪声注入可能损害理解能力- 参数共享增加训练冲突- 计算复杂度高,训练资源需求大
Other Types OFA / Unified-IO / OmniMamba / GraphGPT-o / Davinci Encoder-Decoder Transformer / State Space Model / 图结构模型 图像生成与理解、文本-图像互译、深度估计、关键点检测、跨模态关系建模 - 架构创新,可覆盖多种任务- 状态空间模型降低计算复杂度- 可捕获跨模态复杂关系 - 部分架构训练稳定性需优化- 泛化能力依赖数据规模- 跨模态一致性需额外机制

四、编码(Encoding)

**核心目标:**将图像、视频、音频等非文本模态编码为 可与LLMtoken embedding 对齐的潜在表示,以支持统一的理解与生成。

在统一基础模型(UFMs)的编码阶段,为了实现有效的多模态理解与生成,诸如图像、视频和音频等输入模态需要被转换为合适的潜在表示形式,从而能够与大语言模型(LLMs)中固有的文本表示实现无缝对齐与融合

图12:UFM的典型编码策略。基于潜在表示类型,UFM的编码策略分为3类:连续、离散和混合。每个类别中都说明了编码模块、潜在表示和骨干,并附有参考经典UFM方法的注释

根据模态信息的编码方式与表示形式的不同,将现有编码方法划分为三大类:连续表示离散表示以及混合表示

Encoding 是 UFMs 的“第一性设计问题”。Continuous 编码解决语义对齐,Discrete 编码解决生成可控,而 Hybrid 编码通过结构化融合二者,成为支撑统一多模态理解与生成的核心技术基座

4.1 Continuous Representation:Image / Video / Audio 对比全览

连续表示是指将多模态输入编码为可微的、实值向量序列,从而在 UFM 框架内实现跨模态的语义对齐。这类表示方式在语义理解要求较高的任务中尤为有效,例如视觉问答、跨模态检索以及多模态推理。

表 4-1 连续表示范式对比总览(Image / Video / Audio)

模态 代表编码范式 核心编码器 / 模块 表示形式 主要适用任务 优势 局限
Image VAE-based VAE / σ-VAE 连续潜变量(latent vectors) 图像生成、编辑、重建、多模态生成 高压缩比;保留低频与全局结构;适合扩散/流模型 语义抽象能力弱;高层理解不足
CLIP ViT-based CLIP / EVA-CLIP / SigLIP Patch-level 连续向量 VQA、跨模态检索、多模态推理 语义对齐强;大规模图文预训练;理解能力突出 空间细节与结构建模不足;不可直接重建图像
CLIP + Q-Former 冻结 ViT + Q-Former 少量压缩视觉 token 多模态对话、复杂推理、LLM 对齐 高效压缩;减少冗余;与 LLM 语义强对齐 性能依赖底层视觉特征质量
Video Frame-wise + Temporal Aggregation CLIP ViT + Pooling / RNN 帧级连续向量 简单视频理解、粗粒度事件识别 实现简单;计算成本低 无法建模显式运动与跨帧依赖
Video Swin Transformer Video Swin 3D Patch 连续表示 动作识别、视频检索 局部时空建模高效;层次化结构 长时依赖需多层传播,效率受限
ViViT-style Transformer ViViT + Video Adapter 全局时空 token 复杂事件理解、视频推理 全局时空建模能力强 计算与显存随帧数急剧增长
Audio Spectrogram Transformer AST 频谱 Patch 连续向量 音频-文本对齐、事件识别 隐式时频建模;通用性强 局部时序建模能力有限
Hybrid Attention + Memory SAN-M (DFSMN + Attn) 连续声学嵌入 语音理解、音频推理 短期与长期依赖互补;高效稳定 结构相对复杂
Pretrained Audio Encoder MERT + Adapter 高层语义嵌入 音乐理解、音频语义分析 语义表达强;迁移性好 生成能力受限;依赖适配器
  • Image:在 语义对齐(CLIP)生成保真(VAE 之间权衡,Q-Former 是效率最优解
  • Video:核心挑战在 时序与长程依赖,ViViT 强能力但高成本,Swin 更工程友好
  • Audio:关键在 时频 + 时序,AST 偏通用理解,SAN-M 更偏精细建模

本质上解决的是 “如何在不破坏LLM语义空间结构的前提下,引入非文本模态的信息密度”。 图像强调空间语义,视频强调时序结构,音频强调频域与时间记忆——三者的编码差异,决定了后续 UFM 在理解与生成任务上的能力上限。

4.2 离散表示(Discrete Representation)

核心思想:将连续多模态信号通过向量量化映射为离散 token,使视觉、视频、音频与文本在 LLM 中实现“同构建模”。

离散表示是指通过量化等技术(如向量量化,Vector Quantization, VQ),将多模态输入映射为离散 token 序列的过程,从而支持统一的多模态建模与生成。

对于图像模态,基于向量量化的主流范式,包括 VQ-VAE、VQ-GAN 以及多层级量化策略;视频模态和音频模态的离散编码方法

表 4-2:离散编码在 Image / Video / Audio 中的统一对比

模态 核心编码范式 代表方法 / 模型 Token 结构 主要适用任务 关键优势 核心局限
Image 单层 VQ VQ-VAE, VQ-GANUnifiedIO, RA-CM3 Patch → Codebook Index 图像生成视觉理解 与 LLM token 天然兼容统一词表 语义抽象能力有限重建-语义权衡明显
多层 / 多通道 VQ RQ-VAE (VILA-U)MoVQ (EMU3) 多码本并行 / 级联 高保真生成复杂视觉建模 细节保留能力强表达更灵活 计算复杂度上升Token 冗余风险
多尺度 VQ MSVQ (TokenFlow) Coarse → Fine Tokens 结构感知生成 捕获层级结构生成更稳定 训练与调度复杂
Video 帧级离散化 Emu3 (MoVQGAN)LWM (VQ-GAN) Frame Tokens + Time Order 视频生成视频理解 纯自回归建模无需扩散 长视频 token 爆炸
采样 + 离散 MIO (SEED-Tokenizer) Selected Frames → Tokens 多模态理解 计算可控工程友好 时序建模能力受限
Audio 层级量化 EnCodec (C3LLM, AnyGPT) Multi-Layer Audio Tokens 语音生成音乐建模 捕获多尺度声学特征 语义对齐仍困难
语音专用量化 SpeechTokenizer (MIO) Speech Codebooks 语音-文本-视觉 与 LLM 深度融合 跨任务泛化有限

离散编码是“把世界变成语言”的极致路线,但代价是表示设计的复杂性。

4.3 混合表示(Hybrid Representation)

**核心思想:**用连续表示解决“懂不懂”,用离散表示解决“像不像”,混合编码解决“既要懂、又要会画”。

混合表示策略连续编码离散编码相结合,以弥补二者各自的局限性。连续表示在理解任务中具有较强的语义建模能力,但通常缺乏生成高质量图像所需的像素级细节;而离散表示虽然能够保留精细的重建信息,却往往与文本嵌入空间的对齐性较差,从而限制其在理解任务中的表现。

为了解决上述问题,近年来的统一基础模型(UFMs)越来越多地采用混合编码策略,以构建同时支持复杂语义推理高保真生成的综合视觉表示。这类方法通过融合连续特征所提供的语义丰富性与离散 token 所具备的细节重建能力,在统一框架中弥合理解与生成任务之间的表示鸿沟。

当前的混合编码方法主要遵循两种架构范式

级联结构:在单一路径中交替地对特征进行连续与离散表示转换;

双分支结构:采用并行编码路径,一条路径专注于语义理解,另一条路径专注于细节生成,并在 tokenizer 或模型主干阶段进行融合。

Hybrid Encoding 是当前 UFM 从“能看懂”走向“既能理解、又能生成”的关键过渡形态,其本质是在连续语义空间与离散生成空间之间构建可控、可对齐、可扩展的统一表示桥梁。

五、解码(Decoding)

在统一基础模型(UFMs)的解码阶段,非文本模态通常需要专用的解码器与大语言模型(LLM)进行对齐,从而将潜在表示转换为对应的原始模态输出。根据表示建模方式的不同,将解码策略划分为三类:连续表示(Continuous)离散表示(Discrete)和混合表示(Hybrid)

图13:UFM的典型解码策略。基于潜在表示类型,UFM的解码策略分为3类:连续、离散和混合

表5-1 UFMs 解码策略全景对比表

解码类型 解码策略 优点 缺点 代表模型/方法
连续表示 外部生成 (External Generation):通过连接器将 LLM latent 对齐扩散模型条件;文本空间对齐图像空间对齐动态对齐 优化稳定,训练易收敛 固定解码器能力限制视觉精度,信息传递可能受限 SD 1.x/2.x/3.x、SDXL、Sana、FLUX.1、MiniGPT-5、NExT-GPT、Vitron、Emu2、WeGen
**内部生成 (Internal Generation)**:将 latent 注入解码器,联合 LLM 生成 支持全视觉 token 双向注意力,建模丰富视觉特征 培训使用噪声 token,推理使用干净 token 存在域差距 Transfusion、LMFusion、MonoFormer、JanusFlow、XFusion、BAGEL、Mogao
离散表示 离散自回归 (Discrete Auto-Regression):LLM 预测下一个 token,通过 VAE decoder 重构连续图像 可统一文本与图像输出格式 自回归效率低,token 数量大,不利于 LLM 学习 CM3、Divter、DaVinci、OFA、RACM3、Unified-IO、VARGPT、Chameleon、Emu3
离散去噪 (Discrete Denoising):Masked Token Prediction,训练阶段并行预测,推理逐步预测 支持多 token 并行去噪,推理速度快 训练/推理不一致可能导致性能下降 Show-o、UniDisc、UniCMs、UniGen、UniCTokens
混合表示 文本空间对齐 :离散 token → 连续特征 → 冻结扩散模型 降低 LLM 训练负担,推理使用解码器即可 信息瓶颈限制细粒度控制,解码器独立训练限制联合优化 SEED、UniCode²
图像空间对齐 :离散 token → 语义特征图/量化特征 → 扩散模型 兼顾高低层信息,可加入空间引导实现可控生成 同样受制于外部生成的信息瓶颈 LaVIT、ILLUME、ILLUME+、Tar、DDT、FOCUS
帧级生成或关键帧 + 运动向量流式解码 降低 token 数量,控制视频生成效率 离散 token 数量仍随视频长度增长 Video-LaViT、MIO、FOCUS
离散 token → 流匹配解码器 → Mel 谱图 保留语义信息,结合说话人嵌入提高音色保真 仅语义 token 可能缺乏细节 LM-MSN、M2-Omni、MingOmni

六、构建 UFM 的预训练

UFM 的预训练旨在构建一个能够同时处理多模态理解与生成任务的统一系统。为了系统化分析其构建范式,本节将从两个维度进行阐述:预训练模块预训练策略

在预训练模块部分,通过模块化地分解现有模型,总结预训练阶段的核心参数组成。在预训练策略部分,系统回顾这些模型在训练目标、数据格式和训练流程上的常用方法。

6.1 预训练模块

图14:UFM的预训练。模型的预训练过程根据其参数组成分为编码器-解码器、对齐和骨干模块。此图说明了构建每个模块的主流方法

UFM 的架构可拆解为三个核心模块:编码器-解码器(Encoder-Decoder)对齐模块(Alignment module)主干网络(Backbone)。每个模块具有独特功能,并采用专门的预训练策略进行优化。

图15:Backbone + Encoder + Decoder + Alignment 流程图

编码阶段:将图像、视频、音频等模态信息转换为适合主干处理的特征表示,支持多模态对齐。

对齐阶段:跨模态特征映射到统一语义空间或通过注意力机制交互,为统一建模奠定基础。

主干阶段:是统一模型的核心,负责多模态理解和任务生成,包含早期探索、LLM 自回归、冻结主干、扩散模型等多种范式。

解码/生成阶段:根据不同任务采用自回归或扩散生成,输出可为文本、图像、视频或音频。

全流程图:展示从多模态输入 → 编码 → 对齐 → 主干处理 → 生成的完整路径。

6.2 预训练策略

预训练统一多模态模型(UFMs)需要对多个组件进行协调优化,包括统一的分词器、对齐模块以及骨干网络。训练策略应确保这些组件协同工作,从而建立统一的多模态理解与生成能力。本节从三个维度系统性地探讨预训练方法:训练目标、数据格式以及训练流程。

模块 核心内容 技术实现 / 方法 示例 / 数据
训练目标 (Training Objectives) 协调优化 tokenizer、alignment、backbone 三个模块 灵活权重调节:冻结或重点训练模块 Ltokenizer:编码解码多模态数据Lalign:跨模态特征对齐Lbackbone:核心模型建模(如自回归、扩散)
数据格式**(Data Formats)** 指令式多模态数据构建,实现跨模态统一表示 统一分隔符系统 特殊 token 标识模态边界 任务指令模板化生成 指令式样例:“描述图像中的物体:”公开数据集:LLaVA-1.5, SEED-Data-Edit
分阶段训练 (Staged Training) 分阶段构建理解与生成能力,保证训练稳定性 1. 编码器-解码器预训练(自编码/条件生成)2. 多模态对齐训练(共享语义空间)3. 统一骨干训练(联合优化)可选:MoE 模块训练增强任务适应性 示例:UNIFIED-IO、Janus-Pro(跳过编码器-解码器阶段)OFA、D-DiT(端到端联合优化)Uni-MoE(稀疏 MoE)
  • 训练目标模块体现了灵活的多组件优化策略,可针对不同模型架构调整损失权重。
  • 数据格式模块通过指令式模板和特殊 token,解决了跨模态序列表示与任务指令传递问题。
  • 分阶段训练模块提供了一套稳健的训练范式,保证了模型在多模态理解与生成上的能力,同时可集成 MoE 进行任务适应性增强。

七、通过微调提升统一模型性能

为了进一步提升统一模型的性能,各种微调策略被提出。如图 16 所示,这些策略大体可分为两大范式:任务监督微调基于人类偏好的对齐微调

图16:统一模型微调概述。这些方法分为任务监督微调(包括一般任务和多任务微调)和基于人类偏好的对齐微调

任务监督微调通过学习带注释的数据集来优化模型性能,无需直接的人类干预;而基于人类偏好的对齐微调则引入人类反馈信号来指导优化过程。研究表明,基于对齐的方法能够显著提升性能,已成为多模态大模型高级优化的重要技术路径。

表7-1 任务监督微调 vs 对齐微调概览表

任务监督微调 (Task-supervised Fine-tuning) 对齐微调 (Alignment Fine-tuning)
核心思想 利用标注数据进行微调,无需直接人类偏好反馈,提升模型多任务理解与生成能力 利用人类偏好信号优化模型输出,使生成结果更符合人类期望
目标 提高模型在各类任务上的性能和泛化能力 对齐模型输出与人类价值/偏好,减少幻觉和不合理生成
数据来源 带标注的多模态任务数据,包括:• 预训练数据精加工• 结构化指令/多任务数据集 人类偏好数据,例如三元组 (提示、首选响应、拒绝响应)
主要策略 1.通用任务微调:• 统一训练目标,多任务混合数据• 自回归训练,分阶段微调 2. 多任务微调:• 任务专用数据集+复合损失函数• 任务间差异化优化 1.DPO:直接偏好优化,可与指令微调结合;可迭代交替 SFT & DPO 2. GRPO:强化学习策略,利用策略损失+KL约束;可多维奖励优化
损失函数设计 通用任务微调:统一损失多任务微调:任务特定复合损失 以人类偏好为主的优化目标,可与原始监督损失加权组合
优点 • 简化训练流程• 提升模型综合能力• 构建基础通用能力 • 输出更符合人类预期• 降低生成幻觉• 交互任务可靠性高
缺点 • 不同任务目标可能冲突• 特定任务性能可能不如专用模型• 容易出现灾难性遗忘 • 收集人类偏好成本高• 可能引入标注者偏差• 实施复杂且耗时
典型应用 构建基础统一模型,支持多任务泛化 提升生成质量、对话系统、视觉/文本生成的输出可信度
发展策略 先通用微调,再针对特定任务多任务微调 在基础微调模型上进一步对齐优化,实现人类偏好一致性

八、训练数据

统一多模态模型(UFM)的成功,根本上取决于训练数据的规模、质量和多样性。训练数据并非独立类别,而是对传统用于多模态理解和生成任务的数据集的精心汇总,涵盖四类主要来源:互联网爬取数据、公共数据集、企业内部数据和合成数据

通过多阶段数据过滤,包括初步清理、内容质量与安全审查、模态对齐以及高级去重与数据平衡,确保数据准确、对齐且安全。

数据构建则通过公共数据转换、大模型生成以及人工标注/众包,形成统一的指令-输入-输出格式,兼顾理解与生成能力。

最终,训练数据类型涵盖图像、视频、音频、文档、交错图文、多视角场景、智能体轨迹、对话理解和图像生成等多模态形式,为模型提供多样化、高质量的学习素材,支撑其在理解、生成与推理任务上的卓越能力。

图17:按数据类型分类的现有数据集摘要,以及每个类别的代表性示例。现有数据集主要分为12种数据形式

九、基准(Benchmark)

UFM在多模态智能领域取得了显著进展,因此需要全面、系统的评估协议。本章将现有基准测试分为三个主要部分:首先,9.1节回顾了理解能力相关的基准测试,包括图像、视频、音频和混合模态理解任务。其次,9.2节探讨了生成能力的评估基准,包括图像、视频、音频和混合模态生成。最后,9.3节介绍了混合模态生成的最新进展,体现了理解与生成在复杂多模态场景中的融合能力。

9.1 理解基准
  • 图像:从基础感知和推理(如VQA、OCR、图表和文档理解)到世界知识推理和数学推理,评估范围不断扩展,包括大规模数据集、细粒度能力、真实世界场景和防止幻觉(hallucination)、安全与偏差的检测。
  • 视频:除了基础视频理解和动作识别,还涵盖长视频理解、时序推理、世界知识应用、OCR、幻觉检测以及安全与偏差评估。
  • 音频:涵盖语音、环境声、音乐的理解,评估模型的推理、指令执行和知识运用能力。
  • 混合模态:评估模型跨模态理解能力,如音频-视频交互、图像到视频的生成理解等。
9.2 生成基准
  • 图像生成:包括文本到图像(T2I)和图像编辑,评估模型的合成能力、组合生成、世界知识、幻觉、安全与公平性,以及综合质量指标。
  • 视频生成:涵盖文本到视频(T2V)、文本驱动的视频编辑、图像到视频(I2V)生成,评估时序一致性、物理合理性、叙事连贯性及安全性。
  • 音频生成:包括文本到语音(TTS)、语音到语音(S2S)任务,重点评估清晰度、自然度、语义准确性及指令遵循能力。
  • 混合模态生成:评估跨模态生成任务,如图像/视频编辑、图像到视频生成,采用多样化指标(自动化、人工评估、大模型评分)确保内容一致性和跨模态对齐。
9.3 混合模态生成评估

随着UFM将理解和生成能力整合,出现了针对混合模态生成的多种评估框架,包括SEED-Bench-2、CoMM、InterleavedEval、ISGBENCH、MMIE、MME-Unify、UniEval和RealUnify等。

这些基准通过不同方法测量模型在文本、图像、视频等跨模态任务中的推理能力、生成质量和跨模态一致性,同时探索理解与生成之间的协同潜力,但当前架构尚未能充分实现双向增强。

十、应用

随着统一多模态模型(UFMs)的发展,“统一(Unify)”概念已成为超越传统多模态学习的主导范式,扩展到机器人、自主驾驶、世界模型、医学及各类视觉任务等多个领域。通过生成和预测异构多模态数据,这些任务中的模型能够从大规模数据集中获取隐含的世界知识,从而提升其可扩展性与通用性。

图18:UFM的下游应用。总结UFM在机器人、自动驾驶、世界模型、医学和视觉任务中的应用

10.1 机器人(Robotics)

统一多模态模型在机器人领域的应用主要集中于**视觉-语言-动作(VLA)**策略,实现从观察与指令到动作规划的端到端生成。关键进展包括:

  • 可解释性:通过构建文本推理数据集与链式推理机制,使模型在动作生成前提供明确分析(LCB、DexVLA、ChatVLA、CoA)。
  • 泛化性:利用辅助扩散模型、深度与语义预测(SEER、DreamVLA),以及大规模视频预训练(GR-2、UVA、UWM)提升模型对未知环境的适应能力。
  • 多功能性:训练中选择输入-输出模态,实现策略学习以外的功能,如正向/逆向动力学建模和视频生成。

总体来看,UFMs 为机器人任务提供了可解释、可扩展且多模态融合的规划能力。

10.2 自动驾驶(Autonomous Driving)

在自动驾驶领域,UFMs推动了端到端驾驶模型的发展,同时替代传统依赖大量标注的辅助感知任务。主要特点:

  • 统一生成与规划:模型能同时生成未来场景和预测车辆轨迹(DrivingGPT、Epona、UMGen)。
  • 多模态融合:结合图像、光栅地图、LiDAR 和物理先验,实现高分辨率、长时域的预测(Adriver-I、FSDrive、Hermes)。
  • 语义理解与可靠性:采用占据网络和空间体素表示进行未来占据流预测,提高决策可靠性和动态环境理解(OccLlama、Occ-LLM)。

UFMs使自动驾驶模型能够更好地理解动态交通环境,实现更稳健的决策与泛化能力。

10.3 世界模型(World Model)

统一世界模型旨在从历史观察与潜在动作推断未来状态,为自主智能提供物理约束下的生成能力。核心贡献包括:

  • 空间一致性:4D 世界模型(Aether、DeepVerse)将视频、深度和相机姿态联合预测,实现时空一致的动态场景生成。
  • 物理可控性:TesserAct、GEM 提供丰富的几何与交互表示,使模型可模拟三维交互和物理约束下的操作。
  • 多视角融合:DiST-4D 通过多摄像头依赖建模,实现一致的全景 4D 预测。

这些方法奠定了物理约束、多模态融合的自主智能基础。

10.4 医疗(Medicine)

在医疗领域,UFMs通过联合理解与生成,提升多模态医疗任务的效率与通用性:

  • 轻量化与多任务能力:LLM-CXR、MedXChat、HealthGPT 可在无需昂贵预训练的情况下执行胸片生成、VQA、OCT、CT-to-MRI 等任务。
  • 数据与安全限制:受隐私和安全约束限制,大规模数据训练和泛化能力受限。
  • 临床可靠性挑战:生成幻觉和不一致性问题在医疗场景中尤为严重,制约实际临床部署。

UFMs在医疗上具备显著潜力,但其落地需克服数据隐私与安全性问题。

10.5 视觉任务(Vision Tasks)

视觉任务中,UFMs推动了从单任务到通用多任务模型的转变:

  • 任务统一化:通过文本与视觉提示实现对象检测、语义分割、姿态估计等高阶任务统一(LLMBind、VisionLLM v2、Vitron)。
  • 生成驱动的感知:利用生成能力直接输出结构化标签,减少对任务特定视觉模型的依赖(UniWorld-V1、X-Prompt)。
  • 三维与几何统一:OBJ 格式文本、3D VQVAE 和统一几何基础模型(LLaMA-Mesh、ShapeLLMOmni、VGGT)支持三维生成与理解,实现多任务整合与稠密点云重建。

总体来看,UFMs在视觉任务中实现了高效整合、多任务统一及 2D/3D 感知的协同提升。

如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐