NUS、NTU等提出通用像素级视觉大语言模型，实现理解、生成、分割、编辑大统一...

PaperWeekly

1364人浏览 · 2024-10-27 18:07:17

PaperWeekly · 2024-10-27 18:07:17 发布

©PaperWeekly 原创 · 作者 | 费豪

单位 | Skywork AI、NUS

近年来，视觉大型语言模型（MLLM）的发展取得了显著进展，但在迈向多模态通用性时仍面临一些挑战，例如粗粒度的实例级理解、缺乏对图像和视频的统一支持，以及对不同视觉任务的覆盖不足。

来自新加坡国立大学、南洋理工大学和 Skywork AI 的团队提出了 VITRON——一个为全面理解、生成、分割和编辑静态图像与动态视频而设计的通用像素级视觉大型语言模型。VITRON 基于 LLM 框架构建，前端模块集成了图像、视频和像素级区域视觉的编码器，后端则采用了最先进的视觉专家系统。

通过这种设计，VITRON 支持从视觉理解到视觉生成的一系列任务，涵盖了从低级到高级的各种功能。为了确保从 LLM 到后端模块的信息传递既有效又精确，作者提出了一种新颖的混合方法，结合了离散的文本指令和连续的信号嵌入。

此外，作者为 VITRON 设计了多种像素级的时空视觉-语言对齐学习机制，以实现最佳的细粒度视觉能力。最后，作者建议采用跨任务协同模块，最大化任务不变的细粒度视觉特征的利用，增强不同视觉任务之间的协同效应。

通过在 12 种视觉任务上的展示，并在 22 个数据集上的评估，VITRON 展示了其在四大主要视觉任务类别中的广泛能力。总体而言，这项工作展示了开发更统一的多模态通用模型的巨大潜力。

论文题目：

VITRON: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing

项目网页：

https://vitron-llm.github.io/

论文链接：

https://is.gd/aGu0VV

团队单位：

新加坡国立大学、南洋理工大学、Skywork AI

研究背景

近年来，多模态大语言模型（MLLMs）在多个领域迅速蓬勃发展。大量研究致力于通过为纯语言的大型语言模型（LLMs）添加视觉感知模块，将其扩展为多模态模型。例如，BLIP、LLaVA、MiniGPT-4 和 GPT-4V 等模型在图像理解方面展示了强大而卓越的能力，可与深度语义理解的语言模型相媲美。

在视觉领域，处理和理解动态视频的能力同样至关重要。同时，专注于视频理解的多模态大型语言模型，如 VideoChat 和 Video-LLaMA，也在视频理解方面取得了重大进展。

后续研究试图进一步扩展多模态大型语言模型的能力，主要分为两个方向。一方面，深化模型对视觉的理解，从粗略的实例级理解过渡到像素级、精细的图像理解，实现视觉区域的定位能力，如 GLaMM、PixelLM 和 MiniGPT-v2 等模型，以及在像素定位的视频大型语言模型中的对应方法。

另一方面，拓展模型在视觉领域所支持的功能广度。一些研究已经尝试使多模态大型语言模型不仅理解输入的视觉信号，还能生成和输出视觉内容。例如，GILL、Emu 等系统能够灵活地生成图像内容，GPT4Video 和 NExT-GPT 则实现了视频生成。

我们认为，视觉大型语言模型的未来趋势必然是朝着高度统一化的方向发展，即成为多模态的通用专家。然而，我们观察到，尽管社区开发了多样化的视觉大型语言模型，但仍然明显缺乏统一性。

首先，几乎所有现有的模型都将图像和视频视为独立的实体，要么仅支持图像，要么仅支持视频。我们倡导构建一个统一的视觉多模态大型语言模型框架，同时支持图像和视频，认识到视觉本质上包括静态图像和动态视频——这两者是我们世界的核心组成部分，在许多场景中可以相互转换。

其次，当前的模型在视觉功能的支持上仍显不足，大多数只能理解或最多生成图像或视频。我们主张，未来的多模态大型语言模型应该支持更广泛的视觉任务和功能，实现对所有视觉相关任务的统一支持，达到“一站式”的能力。

这对于实际应用，尤其是经常涉及一系列迭代和交互操作的视觉创作，至关重要。例如，用户通常首先从文本生成图像，将想法转化为视觉内容；然后通过进一步的精细编辑添加更多细节来优化这些内容；接着，通过从图像生成视频来创建动态内容；最后，进行多轮交互，如视频编辑，以完善和最终完成他们的创作。

最后，对于一个集成了各种多模态功能的通用模型来说，确保所有任务都能尽可能地高效执行是关键。这包括：1）大型语言模型的指令能够精确传达给下游解码器；2）不同任务之间不仅不会相互削弱，还应相互协作。

为了解决上述差距，本文引入了VITRON，一个开创性的通用像素级视觉大型语言模型，如图所示。

首先，VITRON 利用大型语言模型作为核心，进行理解、推理、决策和多轮用户交互。为了感知图像和视频的模态信号并支持用户的细粒度视觉输入，VITRON 集成了图像、视频和区域框/草图等指定输入的编码器。

在后端，集成了多个最先进的图像和视频模块，用于解码并执行从低级到高级的一系列视觉任务，如视觉理解（感知和推理）、生成、分割（定位和跟踪）、编辑（修复）。

为确保 VITRON 能精确地将大型语言模型的决策传达给各种后端解码模块以调用功能，我们提出了一种新颖的指令传递混合方法。具体而言，我们使大型语言模型不仅输出离散的文本指令，还传递连续的信号特征嵌入给模块。

最后，为了最大化 VITRON 内部不同模块的功能，我们进一步设计了一个协同模块，通过充分利用可在不同视觉任务之间共享的任务不变的细粒度视觉特征，使 VITRON 的性能超越了现有的最先进专家模型。

VITRON 的整体训练旨在赋予其强大而稳健的视觉理解和操作能力。我们首先通过以下步骤为 VITRON 注入基本的多模态大型语言模型技能：1）在前端编码器与核心大型语言模型之间进行视觉-语言对齐学习；2）面向调用的指令微调；3）在大型语言模型与后端模块之间进行基于嵌入的对齐微调。

在此基础上，我们进一步增强 VITRON 的能力。一方面，我们引入细粒度的时空视觉定位指令微调，训练大型语言模型进行定位预测和对图像及视频的像素级感知，使 VITRON 具备出色的像素级视觉感知能力。

另一方面，我们利用对抗性训练来解耦信号特征表示中的任务特定特征与任务不变的细粒度视觉特征，从而增强不同任务之间的协同作用。

通过在 12 项任务和 22 个数据集上进行的广泛实验，VITRON 利用其作为多模态通用模型的先进架构，展示了在广泛视觉任务中的出色能力。值得注意的是，这一统一系统的性能与特定任务上的单个的最先进 Specialists 相当，甚至超越了它们。进一步的分析揭示了系统各个设计的有效性。我们的主要贡献如下：

首创性地提出了一个宏大的统一视觉多模态大型语言模型 VITRON，能够在像素级理解、生成、分割和编辑图像与视频。
引入了一种比单纯使用离散文本和连续信号嵌入更有效的从大型语言模型到解码器的指令传递机制。
提出了各种像素级视觉-语言时空对齐的学习方法，使多模态大型语言模型达到最佳的细粒度视觉能力。
设计了一个协同模块，通过最大化在不同视觉任务之间可共享的任务不变细粒度视觉特征，使 VITRON 的性能超越了现有的最先进专家模型。

VITRON系统架构

VITRON 采用了最常见的“编码器-大型语言模型-解码器”架构范式，如同现有的流行多模态大型语言模型所使用的架构。

整个框架如图 2 所示，包括三个关键部分：1）前端视觉与语言编码器；2）中心大型语言模型，用于语义理解和文本生成；3）后端解码模块，用于用户响应和视觉操控。

2.1 前端视觉-语言编码

对于图像和视频，我们分别采用 CLIP ViT-L/14@336px 作为编码器。视频编码器独立处理每一帧，然后在时间维度上进行平均池化，得到整体的时间特征表示。接着，我们使用一种区域像素感知的视觉提取器作为用户交互的草图编码器，例如点击、绘制框或多边形，以及涂鸦等。

我们主要参考了相关研究，使用来自用户输入的遮罩区域的基于对象的表示，这不仅编码了像素级的视觉特征，还包含了每个区域的空间位置信息。区域特征与对象区域的二值空间几何遮罩一起进行池化，生成的嵌入向量被用于后续处理。然后，这些多模态特征表示通过线性投影传递给大型语言模型。

2.2 核心大型语言模型

在 VITRON 中，大型语言模型作为核心代理。按照常见的实践，我们使用了 Vicuna（7B，版本 1.5）。大型语言模型处理来自语言和视觉模态的输入，进行语义理解和推理，然后做出决策。对于视觉理解任务，模型直接向用户输出文本响应。

另一方面，模型还需要向后端模块传递信号和指令，引导它们执行超出文本生成的更复杂任务，如视觉分割、生成和编辑。正如之前强调的，模型有效且精确地传递信息的能力对于复杂多模态任务的性能至关重要。

为此，我们提出充分结合两种常见信息传递方法的优势：离散的文本指令和连续的信号嵌入。前者有助于准确调用不同的后端模块（得益于模型在任务调度方面的熟练程度），而后者则补充了无法通过离散文本直接描述的更丰富的、保留模态的视觉特征。

如图 2 所示，模型输出 1）给用户的文本响应，2）用于模块调用的文本指令，3）特殊标记的特征嵌入。这些特征嵌入被划分为任务特定特征和任务不变的细粒度视觉-语言特征。文本指令和特征嵌入都会传递给后端模块。

2.3 后端视觉专家

为了弥补基于文本的大型语言模型在处理各种视觉任务方面的不足，我们决定集成现成的外部视觉专家模块，使我们的多模态大型语言模型具备多种视觉任务的能力。当模型通过理解输入和识别用户意图生成调用细节后，相应的模块会被激活，产生非文本的输出。

在技术实现上，我们采用了多种当前最先进的视觉处理模型。对于图像生成和编辑，我们集成了基于扩散模型的 GLIGEN。对于图像和视频分割，我们选择了 SEEM。在视频生成任务中，我们分别使用 ZeroScope 和 I2VGen-XL 来处理文本到视频和图像到视频的转换。最后，在视频编辑功能方面，我们引入了 StableVideo。

模型生成的文本指令首先确定要调用的任务模块；同时，特征嵌入被输入到相应模块的特征编码器，以协助任务执行。具体而言，我们设计了一个结构化的调用模板，包括：1）模块名称，2）调用命令，3）区域（可选），用于指定某些任务所需的细粒度视觉特征。

特征嵌入包含任务特定特征和任务不变的细粒度特征。这样的设计旨在实现特征的解耦，我们希望任务不变的细粒度特征能够在所有任务之间尽可能广泛地共享，以增强不同任务之间的协同作用。在表 13 中，我们总结了每个后端模块的功能，并详细说明了它们的输入和输出。

像素感知的协同视觉-语言理解微调

VITRON 的训练分为三个阶段。首先，我们尝试赋予其基础的多模态能力，即理解和生成。然后，我们进行细粒度的视觉定位指令微调，以进一步增强模型的像素级感知能力。最后，我们执行跨任务的协同学习，最大化所有任务之间共享的细粒度特征。

3.1 基础多模态理解和生成技能训练

在训练的第一阶段，主要目标是使 MLLM 具备基本的多模态理解和生成能力，包括编码器与 LLM 的前端对齐，以及 LLM 与解码器的后端对齐。附录 B.1 详细介绍了以下三种训练类型。

总体视觉-语言对齐学习。这是为了确保输入的视觉和语言被映射到统一的特征空间。遵循常见的做法，我们利用了包含“图像-标题”对（CC3M）、“视频-标题”对（Webvid）和“区域-标题”对（RefCOCO）的数据集，这些数据集来自现有的语料库和基准。当提供图像、视频或特定的视觉区域时，我们让冻结的 LLM 生成与参考标题对齐的文本描述或标题。

文本调用指令微调。这一训练步骤旨在赋予系统精确执行命令的能力，使 LLM 能够生成适当且正确的调用文本指令。为此，我们收集了超过 55,000 个指令微调样本。

基于嵌入的解码器对齐微调。除了使用显式的文本指令来调用下游模块外，来自 LLM 的信号特征嵌入也应输入到模块中。遵循之前的研究，我们通过解码端的投影层，将特征嵌入与所有视觉模块的输入编码器对齐，即通过最小化它们之间的距离。

3.2 细粒度的时空视觉定位指令微调

一个视觉通用模型应具备对图像和视频的像素级视觉理解的强大能力。因此，我们为 VITRON 提出了一种细粒度的时空视觉定位指令微调。核心思想是使 LLM 能够定位图像的精细空间信息和视频的详细时间信息。

图像空间定位。考虑到 LLM 只能输出文本，我们设计其以对应的边界框区域作为回应。我们关注两种类型的任务：有定位的图像描述和指代图像分割。

视频时空定位。对于视频，LLM 必须识别空间区域并在视频的时间上下文中定位它们，实质上实现视频跟踪。类似地，我们探索了有定位的视频描述和指代视频跟踪等任务。

基于定位的视觉问答。上述定位任务只涉及视觉感知的低层次方面。然而，在许多场景中，LLM 需要具备高层次、深入的视觉推理能力，基于基础的像素级定位。因此，我们进一步引入了基于定位的视觉问答，包括图像问答和视频问答，使 LLM 能够基于定位结果执行语义层面的问答任务。

3.3 跨任务协同学习

作为一个通用模型，直接调用不同的专家模块会引发一个关键问题：如何确保不同的模块（任务）能够协同工作？否则，缺乏这种协作，将它们整合到一个复合系统中就没有意义。

为此，我们提出将信号特征嵌入分解为任务特定特征和任务不变的细粒度特征。直观地说，由于我们关注的所有视觉任务都是细粒度的，任务不变的细粒度特征在不同任务之间共享得越广泛，这些任务就能彼此受益，从而获得更大的协同效应。

为此，我们引入了一个跨任务协同学习模块，如图 3 所示。我们采用对抗训练来解耦任务特定特征与任务不变特征。首先，让不同的主干视觉专家基于这两个特征（通过拼接）进行任务预测。

同时，我们引入一个第三方判别器（充当分类器），仅基于共享的特征表示来判断当前任务是哪一个。理想情况下，一旦判别器无法准确识别任务，共享特征就可以被视为在各任务间最纯净且广泛适用的特征。

实验和分析

4.1 主要实验结果

我们在四个主要的视觉任务组上对 VITRON 的性能进行了量化评估，涵盖了 22 个数据集中的 12 项任务，例如：

图像分割
视频分割
区域级图像理解（包括图像指代表达理解、图像区域描述、基于图像的视觉问答）
区域级视频理解（视频问答）
文本到图像生成
文本到视频生成
图像到视频生成
图像编辑
视频编辑

4.2 定性可视化展示

我们进一步提供了一些 case study 可视化例子，展示了 VITRON 如何与用户以交互方式处理各种图像和视频任务。

4.3 分析与讨论

我们进一步通过深入的分析探索系统是如何以及为何取得成效的。

离散文本指令还是连续信号嵌入，哪个更好？

首先，我们探讨不同的信息传递机制，确定离散的文本指令是否更有利，还是连续的信号嵌入更适合构建多模态通用模型。同时，我们验证了所提出的混合信息传递方法的优缺点。

我们在 6 个任务上进行了测试，比较了 VITRON 在使用混合方法（默认设置）、仅使用文本指令、仅使用信号嵌入的情况下的任务性能，以及后端任务模块的成功执行率。图 4 展示了结果。

可以观察到，总体而言，同时使用两种方法的性能始终更好，这证实了我们混合模式的有效性。同时，我们发现文本指令的方法更有利于后端模块的成功执行，而软特征嵌入在提升特定任务性能方面更为有效。

每种细粒度视觉定位学习贡献多少？

接下来，我们验证在 4.2 中提出的各种细粒度视觉定位学习策略的具体贡献。图 5（前 4 个与图像任务相关，后 4 个与视频任务相关）展示了当移除某一特定学习策略时对性能的影响。

总体而言，这三种细粒度视觉定位学习策略对不同的下游任务都至关重要。例如，定位和指代分割任务直接影响细粒度的视觉识别任务，而针对定位感知的视觉问答的微调显著提升了认知层面的问答任务。这验证了我们所提出的细粒度视觉定位微调策略的有效性。

VITRON 是否真正实现了跨任务协同？

最后，我们研究了我们的系统是否能够充分支持跨任务的协同。基于表 2 到表 12 中关于“协同模块”的消融实验结果，我们可以观察到协同学习机制确实对整体性能产生了积极影响。

在图 6 中，我们进一步研究了不同任务之间是否存在协同作用及其协作关系。为便于研究，我们考虑了一对一的映射关系，每次研究一对任务之间的合作。显然，不同任务之间的协同效果各不相同。那些更依赖细粒度视觉特征的任务或主干模块获得了更显著的提升。这也证明了我们的协同学习模块能够成功促进跨任务的协同。

结论

在本研究中，我们提出了 VITRON，这是一种宏大的统一像素级视觉大语言模型，能够无缝地理解（感知和推理）、生成、分割（定位和跟踪）以及编辑（修复）图像和视频。我们进一步引入了一种新颖的混合信息传递方法，将离散的文本指令与连续的信号嵌入相结合，以确保精确的功能调用。

此外，VITRON 采用了像素级的时空视觉-语言对齐技术，以增强其细粒度的视觉能力。我们还开发了一个跨任务协同模块，优化任务不变的细粒度视觉特征的使用，提升了各视觉任务之间的协同效应。

在 22 个数据集的 12 项视觉任务上，VITRON 展示了在视觉分割、细粒度视觉理解、生成和编辑方面的卓越能力。总体而言，这项研究展示了构建能够迈向更统一的人工智能的视觉-语言通用模型的巨大潜力。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

基于 ROS Noetic 的参数服务器功能设计与实现

项目采用标准 catkin 工作空间架构，设计并实现了参数写入节点与参数操作节点，完整覆盖参数写入、读取、修改、删除四大核心功能，并通过 roslaunch 实现多节点一键启动。参数服务器的出现解决了这一痛点，它以 ROS Master 为载体，提供全局共享的字典存储服务，所有节点均可通过统一的 API 进行参数读写，实现配置的集中管理。实验结果表明，ROS 参数服务器能够稳定支持多类型数据的存储