达摩院CVPR'25｜打破冗余瓶颈：频率偏置驱动的图像压缩补偿新方法

DAMO开发者矩阵

31人浏览 · 2025-11-29 10:44:05

DAMO开发者矩阵 · 2025-11-29 10:44:05 发布

作者｜刘子豪阿里巴巴达摩院架构工程师

【CVPR 2025预讲会】系列内容

CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿，旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。

摘要

压缩伪影去除Compression artifacts removal (CAR)，是一种有效的后处理方法，用于减轻边缘侧编解码器中的压缩失真。该方法通过在计算能力强大的云端利用卷积神经网络（CNN），展现出了显著的效果。传统图像压缩通过在频域中减少冗余来实现压缩，我们观察到卷积神经网络（CNN）在处理压缩失真时，同样在频域中表现出一定的偏好。同时，CAR和其它图像修复任务（例如，超分、去噪等）的非常大的一点不同是，图像压缩是可以选择损失哪些信息的，也就是我们可以选择压缩哪些信息，同时在修复的时候我们也可以更有针对性的修复。然而，现有研究尚未利用这一频率偏好来设计针对 CAR CNN 的压缩方法，或反过来根据压缩方法来优化 CAR CNN 的设计。

因此，我们提出了一种协同设计方法，用于弥合图像压缩与可学习的 CAR 失真补偿之间的鸿沟。我们的研究发现，不同的补偿网络在低频和高频信息上的处理效果存在差异。基于这一发现，我们首次对有损图像压缩中的核心组件——量化过程进行了重新设计，以更有效地压缩低频信息。此外，我们设计了一种新颖的补偿框架，针对不同频率信息采用不同的神经网络进行重建，并引入了一个“基空间注意力模块”，以优先关注在压缩过程中有意舍弃的低频信息，从而提升整体的补偿效果。

现存问题及挑战介绍

移动数据的激增使得需要将大量互联网流量从边缘设备传输到云端的需求不断增长。为应对这一挑战，通常有两种解决方案：(1) 在边缘设备上以低码率进行高质量压缩；(2) 在云端进行低质量的后期补偿。

方案1: 在压缩阶段，H.265/HEVC 和 H.266/VVC等先进编解码器能够在保持高感知质量的同时实现更低的码率，但代价是显著增加了计算复杂度。相比之下，诸如 JPEG 这类较早的编解码器虽然计算更为简单，但为了维持感知质量却需要更高的码率，如下图所示。由于边缘设备资源受限，计算开销大的方法难以实际应用。因此，在资源受限的边缘设备上，以低码率实现高感知质量依然是一项具有挑战性的任务。

方案2: 在补偿阶段，云端拥有丰富的计算资源，使得可以采用复杂的后处理方法，例如基于神经网络的 CAR 模型，用于修复边缘压缩所引入的失真。然而，随着计算复杂度的增加或模型规模的扩大，补偿带来的收益逐渐减弱。一个重要原因在于压缩与补偿的设计是彼此独立的，未能充分挖掘它们在信息处理中的内在关联。因此，我们的目标是构建一种协同设计方案，以充分发挥压缩与补偿系统的潜力。

当前工作价值介绍：

我们的设计基于两点观察：

频率偏好（Frequency bias）：近期研究探讨了卷积神经网络（CNN）在图像复原任务中表现出的频率偏好现象。我们通过一组精心设计的对照实验，进一步验证并扩展了这些发现，实验结果与的结论一致。如下图所示，各类 CNN 在不同频段上的恢复效果存在显著差异，普遍表现出对低频分量（Frequency Component, FC）信息的更好还原能力，而对高频分量的恢复能力相对较弱。

频率可选性（Frequency selectability）：图像压缩通常包括三个主要步骤——变换、量化和熵编码。其中，主要的信息丢失发生在量化阶段。传统编解码器在设计时考虑了人类视觉系统（HVS）的特点，通常优先保留低频分量。通过调整量化步长，可以控制保留信息的多少：步长增大，保留的信息减少；步长减小，保留的信息增多。由此可以根据需求选择性地保留特定频率的信息。

总而言之，CNN在补偿低频分量方面表现更为有效，而传统编解码器本身也倾向于优先保留这些低频信息。换句话说，在现有的压缩-补偿框架中，低频部分仍然存在冗余。因此，我们希望通过一种协同设计，充分利用压缩与补偿阶段的内在特性，从而释放这些冗余，提升整体系统效率。

在上述分析的基础上，我们提出了一个协同框架（Lo-Hi compensation frameworks），将标准图像编解码器与补偿神经网络相结合。具体而言，我们通过一种基于统计的量化方法，重新设计了标准编解码器中的量化过程，对部分低频分量增大量化步长，因为这些分量更容易被 CNN 恢复。如下图所示：

在补偿网络方面，我们采用了双分支结构：一个用于低频补偿的重型回归网络，以及一个用于高频恢复的轻量级生成网络。此外，我们还设计了一个名为基础注意力模块的组件，专门用于恢复在压缩过程中有意削弱的低频信息。如下图所示：

整体修复效果的BD rate如下表所示，我们的方法融合传统图像压缩和深度学习框架取得了非常好的效果。

最终的效果图比较如下：

除了在Human vision任务上表现出色，在CV类任务上，我们的方法也取得了很好的表现，如下表

结论

我们发现图像压缩与补偿之间存在频率偏好的不匹配，暴露出当前 CAR 框架中的低频冗余问题。基于这一发现，我们提出了一种具备频率感知能力的Lo-Hi 协同框架。该方法包括：一个对低频分量更为敏感的量化过程，用于进一步压缩更多低频信息；以及一个两阶段的 Lo-Hi 补偿框架，分别处理低频与高频分量。实验结果表明，该框架有效结合了传统编解码器与 CNN 的优势，在压缩与补偿性能上均取得了优异表现。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

老板要的不是聊天机器人：一篇讲明白企业级 Agent 怎么搭

这篇文章用大白话讲清楚企业级 Agent 是什么、需要哪些工具、正确的落地路线是什么，并用报销审核案例说明 Agent 为什么不是聊天机器人。

DAMO开发者矩阵

从场景落地到技术迭代：服务机器人迈入规模化商用爆发期

采用8nm工艺，搭载6TOPS NPU算力，支持8K编解码、多传感器融合、高精度力控、复杂环境自主导航、机械臂动态运动规划，算力性能强劲、体积小巧、功耗可控，可支撑人形康养机器人、高端AI理疗机器人、工业级AMR、四足巡检机器人等高负载、高智能需求的高端设备开发。商用服务机器人主要应用于酒店、商场、写字楼、园区等公共场景，可实现迎宾引路、物品配送、清洁消杀、导购讲解、安防巡逻等标准化重复作业，核心