多平面图像的输入项必须是大小为 mxnx3 的 rgb 图像。_一种高效的处理超高分辨图像分割的方法：CascadePSP CVPR2020...

weixin_39899244

822人浏览 · 2020-12-05 06:41:16

weixin_39899244 · 2020-12-05 06:41:16 发布

论文下载：

CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinementhkchengad.student.ust.hk

代码下载：

hkchengrex/CascadePSPgithub.com

简介：

最先进的语义分割方法都是在固定分辨率范围内专门训练的图像。这些分割对于非常高分辨率的图像是不准确的，因为使用双三次上采样的低分辨率分割不能充分捕捉目标边界的高分辨率细节。本文提出了一种新的方法来解决高分辨率分割问题，而不使用任何高分辨率训练数据。CascadePSP网络，它可以在任何可能的情况下改进和修正局部边界。虽然网络是用低分辨率的分割数据训练的，但方法适用于任何分辨率，甚至是大于4K的高分辨率图像。CascadePSP可以细化像素级精确的分割边界。

本文主要贡献:

提出了CascadePSP，这是一种通用的级联分割细化模型，它可以细化任何给定的输入分割，在不进行微调的情况下提高现有分割模型的性能。
该方法可以用于产生高质量和非常高分辨率的分割，这是以前基于深度学习的方法从未实现的。
提出了一个大数据集，可以作为一个非常高分辨率语义图像分割任务的准确评估数据集。

方法：

细化模块采用一幅图像和多个不同尺度的不完美分割掩模来生成细化的分割。多尺度输入使模型能够捕获不同层次的结构和边界信息，从而使网络能够自适应地融合不同的掩模特征，所有低分辨率的输入分段都被双线性向上采样到相同的大小，并与RGB图像连接。如下图所示：

采用ResNet-50作为框架，提取1/8的特征，接着pyramid pooling sizes of [1,2,3,6] 来捕捉全局上下文。

Global Step

考虑到GPU的内存，将图片进行下采样L，来缓解内存的压力

级联的输入由输入复制以保持输入通道维数不变。在级联的第一级之后，其中一个输入通道将被bilinearly上采样粗输出所取代。这个过程一直重复到最后一层，其中输入包括初始的分段和前一层的所有输出。这种设计使网络逐步修正分割错误，同时保持细节呈现在初始分割。通过多层次，我们可以在粗层次上粗略地勾画出目标并修正较大的误差，在细层次上利用粗层次提供的特征来提升边界精度。

Local Step：

利用级联模型首先使用下采样图像进行全局细化，然后使用高分辨率图像中的图像剪裁进行局部细化。这些剪裁使局部步长能够处理没有高分辨率训练数据的高分辨率图像，同时由于全局步长而将图像上下文考虑在内。

在局部步骤中，模型取全局步骤最后一层的两个输出，记为s14和s11。两个输出都被上采样调整到图像的原始大小。

实验结果：

总结

我们提出了CascadePSP，这是一个通用的分割细化框架，用于细化任何输入分割，并在没有任何细化之后获得更高的精度。CascadePSP执行高分辨率(高达4K)分段细化，甚至我们的模型从未见过任何高分辨率训练图像。在没有任何微调的情况下，在低分辨率数据上训练单一的细化模型，提出的全局步骤细化整个图像，并为后续的局部步骤提供足够的图像上下文，以执行全分辨率高质量的细化。我们希望这项工作可以在未来为更高分辨率的计算机视觉任务做出贡献。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

ABB工业机器人编程基础（十三）功能程序（FUNC）

DAMO开发者矩阵

AI 每日资讯简报 | 2026年6月29日

6月28日，惠普宣布与 OpenAI 达成战略合作，将在全球业务中全面部署 OpenAI Frontier 平台，推动企业转型与增长。从深度机智的融资到华勤的机器人合作，再到 TacForeSight 的技术突破，"AI + 物理世界"正从实验室走向工厂产线，2026 年或成具身智能商业化元年。GPT-5.6 与 Fable 5 的正面交锋表明，大模型竞争已从"参数规模"转向"推理能力+落地速度"