顶刊GRSM | 北大北邮团队提出GeoPix, 面向遥感像素级图像理解的多模态大语言模型, 数据代码模型开源

之前遥感MLLM主要支持图像级（IC/VQA）和区域级（visual grounding）任务，而**GeoPix支持像素级实例分割对话**（Referring Segmentation & Multi-Referring Segmentation）

小马不会过河

1362人浏览 · 2025-06-17 21:00:57

小马不会过河 · 2025-06-17 21:00:57 发布

创新点

实现遥感领域的像素级多模态对话：
- 之前遥感MLLM主要支持图像级（IC/VQA）和区域级（visual grounding）任务，而GeoPix支持像素级实例分割对话（Referring Segmentation & Multi-Referring Segmentation）。
提出CLM模块（Class-wise Learnable Memory）：
- 存储并检索类内共享的地理上下文信息，用于增强实例掩码的表示，提高多尺度对象分割精度。
构建了新的大规模数据集 GeoPixInstruct：
- 包含 65,463 张遥感图像 和 140,412 个实例，每个实例有文本描述、bbox、像素级掩码。
设计了两阶段训练策略：
- 第一步聚焦文本生成任务；第二步提升掩码预测精度，缓解生成任务与分割任务之间的训练冲突。

数据

*数据集名称*：GeoPixInstruct

*图像和实例规模*：
包含 65,463 张遥感图像和 140,412 个实例，每个实例均具备：
- 像素级掩码（segmentation mask）
- 边界框（bounding box）
- 文本描述（text description）
*数据来源与构建方式*：
基于 SAMRS 数据集中的三个子集（SIOR, FAST, SOTA）进行扩展，生成对应的 SIOR-T、FAST-T、SOTA-T 子集。
*文本描述生成*：
- 对 SIOR-T，借助现有 RSVGD 数据集的描述与 SIOR 的掩码进行匹配。
- 对 FAST-T 和 SOTA-T，自行构建描述生成管线：
  使用 GPT-4o 进行结构化描述生成，并通过人类反馈微调部分数据，提升文本质量。
*数据过滤策略*：
- 保证图像中同类实例不超过 5 个，总实例数不超过 11 个。
- 以避免因密集场景带来的描述歧义和分割混淆。
*实例分布与难度控制*：
- 三个子集覆盖不同类别、空间分辨率和实例密度。
- SOTA-T 是最具挑战性的数据子集（目标更小、更密集），而 SIOR-T 难度相对较低。
*掩码覆盖度统计*：
- 提供每张图像中目标掩码的平均占比，用于衡量小目标的比例与分割难度。

方法

GeoPix 是一个多模态大语言模型，旨在统一遥感图像的图像级、区域级和像素级理解。其关键在于支持基于指令的掩码生成任务，实现用户“说什么，图就分什么”。

模型架构组成

GeoPix 包含三大模块：

Vision Encoder：提取遥感图像的多尺度视觉特征，用于文本理解和掩码生成。
LLM（Large Language Model）：基于 LLaVA 架构，接受用户指令和深层视觉特征，输出文本和 segmentation tokens。
Mask Predictor：接收 segmentation tokens 和多尺度视觉特征，预测 pixel-level 掩码。

Segmentation Tokens 的引入

GeoPix 在 LLM 中加入 segmentation tokens，作为指导模型生成 pixel-level 掩码的“指令槽”。
每个 token 对应一个目标，LLM 输出的 token embedding 作为 mask predictor 的条件输入。
多尺度视觉路径 + 多个 segmentation tokens 实现灵活、精细的分割。

CLM（Class-wise Learnable Memory）模块

为提升对多尺度小目标的分割效果，GeoPix 引入 CLM 模块：

目的：捕捉并记忆遥感图像中相同类别实例的共享地理上下文（如形状、纹理、背景等）。
三大组成：
- Memory Encoder：对初步生成的掩码进行特征编码。
- Memory Bank：为每一类对象、每一尺度维护一组 learnable memory，表示其“通用语义”。
- Memory Attention：结合 memory 和当前特征，引导生成更准确的最终掩码。
关键点：CLM 提供了一种软引导，让模型能结合“历史经验”来优化当前预测。

多尺度掩码融合机制

Mask Predictor 会对每个尺度独立生成掩码。
多个尺度的掩码通过一组可学习的参数进行融合，得到最终掩码输出。
此融合考虑了不同尺度在不同目标上的表达优势，提高整体分割质量。

两阶段训练策略

考虑到文本生成和掩码预测任务在训练过程中的收敛速率不同，GeoPix 采用分阶段训练：

Stage 1：
- 训练重点是文本生成。
- 同时引入 segmentation tokens，使模型具备基本掩码能力。
- 使用大数据集快速适配 LLM 到遥感领域。
Stage 2：
- 聚焦掩码预测任务。
- 增加 pixel-level 样本比例，延长训练周期，显著提升 segmentation 精度。
- 保留一部分文本任务样本，防止模型遗忘语言能力。

其他设计优化

独立视觉投影器（Projectors）：
- 针对不同尺度的特征使用不同的投影器，比共享投影器效果更优。
Memory Fusion 策略优化：
- 在多种融合策略中（如 Argmax、Conv2D、Attention），Conv3D 表现最佳，兼顾精度与效率。
参数高效微调（LoRA）：
- 训练中仅微调 LLM 的部分参数，降低资源消耗，避免过拟合。

结果与分析

GeoPix 在遥感图像的多模态任务中实现了全面领先的性能，尤其在像素级分割、多目标理解和图文对齐方面表现显著优于现有方法。其在多个数据集和任务上均展现出更强的泛化能力和鲁棒性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述