BASNET:边界感知的显著目标检测

摘要

采用深卷积神经网络进行显著目标检测,取得了较好的效果。然而,以前的工作大多侧重于区域精度,而不是边界质量。在本文中,我们提出了一种预测-细化体系结构Basnet和一种新的边界感知显著目标检测的混合损失。具体而言,该体系结构由密集监督编解码器网络和残差细化模块组成,分别负责显著性预测和显著性图细化。混合损失通过融合二进制交叉熵(BCE)、结构相似性(SSIM)和交集联合(IOU)损失,引导网络在像素、面片和地图三个层次中学习输入图像和地面真实之间的转换。该预测-细化结构具有混合损耗,能够有效地分割显著目标区域,准确预测边界清晰的精细结构。在六个公共数据集上的实验结果表明,该方法在区域和边界评价指标上都优于最新的方法。我们的方法在单个GPU上的运行速度超过25fps。代码可在以下位置获得:添加链接描述

1.导论

人类视觉系统具有从视觉场景中选择最重要信息的有效注意机制。计算机视觉的目的是在两个研究分支中对这一机制进行建模:眼睛注视检测[20]和显著目标检测[3]。我们的工作集中在第二个分支上,目的是准确地分割输入图像中显著对象的像素。该结果在例如图像分割/编辑[53、25、11、54]和操纵[24、43]、视觉跟踪[32、52、55]和用户界面优化[12]中具有即时应用。
最近,全卷积神经网络(FCN)[63]被用于显著目标检测。虽然这些方法相较于传统方式已经取得显著成效。它们预测的显著图在精细结构和/或边界上仍然是有缺陷的(参见图1C-1(D))。
在精确的显著目标检测中存在两个主要挑战:(1)显著度主要定义在整个图像的全局对比度上,而不是局部或像素级特征。为了获得准确的结果,开发的显著性检测方法必须理解整个图像的全局意义以及对象的详细结构[6]。为了解决这个问题,需要聚合多层次深层特征的网络;(Ii)大多数显著目标检测方法使用交叉熵(CE)作为它们的训练损失。但是,使用CE损失训练的模型在区分边界像素方面的可信度通常较低,导致边界模糊。其他损失,如交并集(IOU)损失[56,42,47],F度量损失[78]和骰子得分损失[8]被提出用于有偏见的训练集,但它们不是专门为捕获精细结构而设计的。
为了解决上述挑战,我们提出了一种新颖的边界感知网络(Basnet)用于显著目标检测,该网络实现了具有高质量边界的精确显著目标分割(见图1(B)):(I)为了同时捕获全局(粗略)和局部(精细)上下文,提出了一种新的预测-细化网络。它将一个类似UNET的[57]深度监督的[31,67]编解码器网络与一个新的残差精化模块组合在一起。编解码器网络将输入图像传输到概率图,而细化模块通过学习粗略显著图和地面真实之间的残差来细化预测图(参见图2)。与[50,22,6]不同的是,我们的模块只在原始尺度上使用一次精化模块进行显著性预测,而不是在多个尺度上迭代使用细化模块或中间特征图。(Ii)为了获得高置信度显著图和清晰的边界,我们提出了一种混合损失,它结合了二进制交叉熵(BCE)[5]、结构相似度(SSIM)[66]和IOU损失[42],期望分别在像素、面片和地图级别从地面真实信息中学习。与使用显式边界损失(NLDF+[41],C2S[36])不同,我们在混合损失中隐含地注入了精确边界预测的目标,考虑到它可能有助于减少交叉传播在边界和图像上的其他区域上学习的信息所产生的虚假误差。
本文的主要贡献包括:
·提出了一种新的边界感知显著目标检测网络:BASNET,该网络由深度监督编解码器和残差细化模块组成;
·一种融合了BCE、SSIM和IOU的混合丢失法,在像素级、斑块级和地图级三个层次上监督精确显著目标预测的训练过程;
·对所提出的方法进行了全面的评估,包括在6个广泛使用的公共数据集上与15种最先进的方法进行了比较。我们的方法在区域和边界评估措施方面都取得了最先进的结果。

2.相关工作

传统方法:早期的方法通过根据基于手工制作的特征计算的预定义的显著性度量来搜索像素来检测显著对象[69,80,60,71]。Borji等人在[3]中提供全面的调查。
逐块深度方法:早期的深度显著目标检测方法受到深度CNN[28,59]图像分类的启发,基于从单个或多个尺度提取的局部图像块[33,40,61,79,35],通过将图像像素或超像素分类为显著或不显著类来搜索显著对象。这些方法通常产生粗略的输出,因为空间信息在完全连通的层中丢失。
基于FCN的方法:基于FCN[34,29]的显著目标检测方法与基于面片的深度方法相比取得了显著的改进,这可能是因为FCN能够捕捉到更丰富的空间和多尺度信息。张某等人(UCF)[75]开发了新的丢弃和混合上采样模块,以减少反卷积算子的棋盘伪影,并在(Amulet)[74]中聚合多级卷积特征用于显著性检测。Hu等人[18]建议学习一个水平集[48]函数,以输出精确的边界和紧凑的显著性。罗等人[41]在Mumford-Shah[46]的启发下,设计了一个4×5网格结构的网络(NLDF+),将局部和全局信息结合起来,并使用了交叉熵和边界IOU的融合损失。侯等人(DSS+)[17]采用整体嵌套边缘检测器(HED)[67],其跳跃层引入短连接用于显著性预测。Chen等人(RAS)[4]通过使用反向注意模型迭代地精炼其侧输出来采用HED。张某等人(LFR)[73]通过提出兄弟体系结构和结构损失函数来预测具有清晰边界的显著性。张某等人(BMPM)[72]提出了一种浅层和深层之间可控的双向特征传递,以获得准确的预测。
深度复发和注意方法:Kuen等人[30]提出了一种递归网络对选定的图像子区域进行迭代细化。张某等人(PAGRN)[76]开发了一种递归显著性检测模型,该模型通过多路径递归连接将全局信息从深层传输到较浅层。Hu等人(RADF+)[19]用于显著对象检测的递归级联多层深度特征。Wang等人(RFCN)[63]通过迭代校正预测误差,设计了一种用于显著性检测的递归FCN。刘等人(PiCANetR)[39]通过上下文注意网络预测像素方向的注意图,然后将其与U-Net体系结构相结合来检测显著对象。
粗略到精细的深度方法:为了捕捉更精细的结构和更精确的边界,已经提出了许多细化策略。刘等人[38]提出了一种深层次显著性网络,该网络首先学习各种全局结构化的显著性线索,然后逐步细化显著性图的细节。Wang等人(SRM)[64]提出使用金字塔合并模块和多阶段精化机制来捕获全局上下文信息,用于显著图精化。受到[50]的启发,Amirul等人[22]提出了一种编解码器网络,该网络利用一个细化单元对显著图进行从低分辨率到高分辨率的递归细化。
Deng等人(R3Net+)[6]提出了一种交替结合浅层和深层特征的递归残差精化网络,用于显著图精化。Wang等人(DGRL)[65]提出对显著对象进行全局定位,然后通过局部边界细化模块进行细化。虽然这些方法大大提高了显著目标检测的门槛,但在精细结构分割质量和边界恢复精度方面仍有很大的改进空间。

3.Basnet

本节首先介绍我们提出的预测-优化模型Basnet的体系结构概述。我们首先在3.2部分中描述预测模块。然后我们在3.3详细介绍了中新设计的残差精化模块。我们的新型混合损耗公式在3.4中给出。

3.1.网络体系结构概述

所提出的Basnet由两个模块组成,如图2所示。预测模块是一个类似U网的密集监督编解码器网络[57],它学习从输入图像中预测显著图。多尺度残差细化模块(RRM)通过学习预测模块的显著图和地面真实之间的残差来细化预测模块的结果显著图。

3.2.预测模块

受U-Net[57]和SegNet[2]的启发,我们将显著对象预测模块设计成一个编解码器网络,因为这种结构能够同时捕获高层次的全局上下文和低层次的细节。为了减少过拟合,每个解码器级的最后一层由HED[67]启发的地面真相进行监督(参见图2)。编码器部分具有输入卷积层和由基本res-blocks 组成的六级。输入卷积层和前四级取自ResNet-34[16]。不同的是,我们的输入层有64个卷积滤波器,大小为3×3,步长为1,而不是大小为7×7,步长为2。此外,输入层之后没有合并操作。这意味着第二阶段之前的特征地图具有与输入图像相同的空间分辨率。这与原始ResNet-34不同,原始ResNet-34在第一张要素地图中具有四分之一比例尺的分辨率。这种自适应使网络能够在较早的层中获得更高分辨率的特征图,同时也减少了整体接受场。为了达到与ResNet-34相同的接受场[16],我们在ResNet-34的第四阶段之后增加了两个阶段。这两个级都由大小为2的非重叠最大汇聚层之后的具有512个滤波器的三个基本res-blocks 组成。
为了进一步捕获全局信息,我们在编码器和解码器之间增加了一个桥接级。它由三个卷积层组成,512个膨胀(膨胀=2)[70]3×3个滤光片。这些卷积层中的每一个之后是批归一化[21]和RELU激活函数[13]。
我们的解码器几乎与编码器对称。每个阶段由三个卷积层组成,然后是批归一化和RELU激活函数。每级的输入是编码器中来自其前一级和其对应级的上采样输出的级联特征映射。为了获得边输出显著图,桥接级和每个解码器级的多通道输出被馈送到平坦的3×3卷积层,随后是双线性上采样和Sigmoid函数。因此,给定一幅输入图像,我们的预测模块在训练过程中生成七个显著图。
虽然每个显著图被上采样到与输入图像相同的大小,最后一个图具有最高的精度,因此被作为预测模块的最终输出。该输出被传递到细化模块。

3.3.细化模块

细化模块(RM)[22,6]通常被设计为残差块,其通过学习显著图和地面真实之间的残差残差来细化预测的粗略显著图得分,如下所示
在这里插入图片描述
在介绍我们的细化模块之前,我们必须定义术语“粗略”。在这里,“粗”包括两个方面。一个是模糊和嘈杂的边界(参见图3(B)中的一维(1D)插图)。另一个是不均匀预测的区域概率(参见图3©)。实际预测的粗略显著图通常包含这两种粗略情况(参见图3(D))。
图4(A)的基于局部上下文的残差精化模块(RRM LC)最初被提出用于边界精化[50]。因为它的接受范围很小,伊斯拉姆等人[22]和邓等人的观点。[6]迭代或重复使用它来细化不同尺度的显著图。Wang等人[64]采用[15]中的金字塔汇集模块,将三个尺度的金字塔汇集特征串联在一起。为了避免由于合并操作造成的细节丢失,RRM MS(图4(B))使用具有不同核大小和膨胀[70,72]的卷积来捕获多尺度上下文。但是,这些模块很浅,因此很难捕获高级信息进行细化。
为了同时细化粗略显著图中的区域和边界缺陷,我们开发了一种新的残差细化模块。我们的RRM采用残差编解码器架构,我们的RRM(参见图2和4©)。它的主要架构与我们的预测模块相似,但更简单。它包括输入层、编码器、桥接器、解码器和输出层。与预测模块不同的是,编码器和解码器都有四个阶段。每个阶段都有一个卷积层。每层具有64个大小为3×3的过滤器,随后是批归一化和RELU激活功能。桥接级还具有卷积层,该卷积层具有大小为3×3的64个滤波器,随后是批归一化和RELU激活。编码器采用非重叠最大合并进行下采样,解码器采用双线性插值进行上采样。此RM模块的输出是我们模型的最终结果显著图。

3.4混合损失
我们的培训损失定义为所有输出的总和:
![](https://img-blog.csdnimg.cn/20200603235633593.png)
其中l(K)是第k侧输出的损失,K表示输出的总数,αk是每个损失的权重。如第3.2节和3.3节所述。我们的显著目标检测模型具有8个输出(即K=8),其中包括预测模型的7个输出和精化模块的1个输出。
为了获得高质量的区域分割和清晰的边界,我们建议将l(K)定义为混合损失:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200603235804486.png)
BCE[5]损失是二值分类和分割中应用最广泛的损失。它被定义为:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200603235827649.png)
SSIM最初被提出用于图像质量评估[66]。它捕捉图像中的结构信息。因此,我们将其集成到我们的训练损失中,以学习显著目标地面真理的结构信息。设x={xj:j=1,.,n2}和y={yj:j=1,.,n2}分别是从预测概率图S和二值地面真实掩码G中裁剪出的两个对应的块(大小:N×N)的像素值,x和y的Ssim定义为

在这里插入图片描述
IOU最初被用来度量两个集合的相似度[23],然后被用作目标检测和分割的标准评估度量。最近,它被用作训练损失[56,42]。为确保其差异性,我们采用了[42]中使用的IoU损失:
在这里插入图片描述
我们在图5中说明了三个损失中的每一个的影响。这些热图显示了随着训练的进行,每个像素的损失的变化。这三行分别对应于BCE损失、SSIM损失和IOU损失。这三列代表培训过程的不同阶段。BCE损失是以像素为单位的。它不考虑邻域的标签,并且对前景和背景像素进行同等加权。它有助于所有像素的收敛。
SSIM损失是一个补丁级别的度量,它考虑每个像素的局部邻域。它为边界分配更高的权重,即,即使当边界上的预测概率与前景的其余部分相同时,边界周围的损失也更高。在训练开始时,沿边界的损失是最大的(见图5的第二行)。它有助于优化将重点放在边界上。随着训练的进行,前景的SSIM损失减小,背景损失成为主导项。然而,直到背景像素的预测变得非常接近地面真实时,背景损失才对训练有贡献,此时损失从1迅速下降到0。这是有帮助的,因为预测通常只有在BCE损失变得持平的训练过程的后期才会接近于零。SSIM的损失确保仍然有足够的梯度来驱动学习过程。背景预测看起来更清晰,因为概率被推到零。
IoU是地图级的衡量标准。但是我们按照公式绘制每个像素的欠条。(6)为图解起见。随着前景的网络预测的置信度增加,前景的损失最终减少到零。当组合这三个损失时,我们使用BCE来保持所有像素的平滑渐变,同时使用IOU来更多地聚焦于前景。SSIM用于鼓励预测尊重原始图像的结构,在边界附近损失较大。

4.实验结果

4.1.数据集

我们在六个常用的基准数据集上对我们的方法进行了评估:SOD[45],ECSSD[68],DUT-OMRON[69],PASCAL-S[37],HKU-IS[33],DUTS[62]。SoD包含300幅图像,这些图像最初是为图像分割而设计的。这些图像非常具有挑战性,因为它们中的大多数都包含多个低对比度或与图像边界重叠的显著对象。ECSSD包含1000个语义上有意义但结构复杂的图像。DUT-OMRON有5168个图像,每个图像中有一个或两个对象。大多数前景对象在结构上是复杂的。PASCAL-S由850幅具有杂乱背景和复杂前景对象的图像组成。港大-IS包含4447幅图像。它们中的大多数具有多于一个连接或断开连接的前景对象。DUTS是目前最大的显著性检测数据集。它由两个子集组成:DUTS-TR和DUTS-TE。DUTS-TR包含10553个设计用于训练的图像,DUTS-TE包含5019个用于测试的图像。

4.2实施和实验设置

我们使用包含10553幅图像的DUTS-TR数据集来训练我们的网络。在训练之前,通过水平翻转到21106幅图像来扩充数据集。在训练过程中,首先将每个图像的大小调整为256×256,然后随机裁剪为224×224。部分编码器参数从ResNet-34型号[16]初始化。其他卷积层由Xavier[10]初始化。我们利用ADAM优化器[26]来训练我们的网络,并且其超级参数被设置为默认值,其中初始学习率LR=1e-3,β=(0.9,0.999),Eps=1e-8,权重衰减=0。我们训练网络,直到损失收敛,而不使用验证集。训练损失在400k次迭代后收敛,批大小为8,整个训练过程耗时约125小时。在测试过程中,将输入图像的大小调整为256×256,并将其送入网络以获得其显著图。然后,将显著图(256x256)的大小调整回输入图像的原始大小。两个调整大小的过程都使用双线性插值。

4.3评估指标

我们使用四个度量来评估我们的方法:精度回调(PR)曲线、F测度、平均绝对误差(MAE)和松弛边界F测度(RELAX Fbβ)。
PR曲线是评价预测显著性概率图的标准方法。显著图的精确度和召回率是通过将二值化的显著图与地面真相掩码进行比较来计算的。每个二值化阈值在数据集中的所有显著图上产生一对平均精度和召回率。将阈值从0提高到1会产生一系列精确度-召回率对,并将其绘制为PR曲线。
然后,为了全面衡量查准率和查全率,根据每对查准率和查全率计算Fβ为:
在这里插入图片描述
其中,β2设置为0.3,以使精度超过调用[1]。本文报告了每个数据集的最大F_β(MAX_F_β)。
MAE[51]表示预测的显著图与其地面真实掩码之间的每像素的平均绝对差。给定显著图,其MAE定义为:
在这里插入图片描述
其中S和G分别是显著概率图及其地面真值,H和W表示显著图的高度和宽度,(r,c)表示像素坐标。对于数据集,其MAE是所有显著图的平均MAE。
此外,我们还采用了松弛F-测度松弛Fbβ[7]来定量评估边界。给定显著图S,我们首先使用阈值0.5将其转换为二进制掩码Sbw。然后,我们通过进行XOR(SBW,SERD)运算来获得其一个像素宽边界的掩码,其中Serd是SBW的腐蚀的二进制掩码[14]。同样的方法也被用来获取地面真实掩码的边界。然后,松弛边界精度(松弛P累积量b)被定义为预测边界像素相对于地面真实边界像素在ρ像素范围内的分数。松弛边界回调(RELAX_Recallb)测量预测边界像素的ρ像素内的地面真实边界像素的分数。在我们的实验中,我们将松弛参数ρ设置为3,类似于之前的研究[44,58,77]。用公式(7)计算每个预测显著图的松弛边界F-测度RELAX Fbβ,其中用RELAX P条带RELAX_Recallb代替P_RESER和RECALL。对于每个数据集,我们报告其所有预测显著图的平均RELAX Fbβ。

4.4消融研究

在本节中,我们将验证模型中使用的每个关键组件的有效性。烧蚀研究包括建筑烧蚀和损耗烧蚀两部分。烧蚀实验是在ECSSD数据集上进行的。
架构消融:为了证明我们的Basnet的有效性,我们报告了我们的模型与其他相关架构的定量比较结果。我们以UNET[57]作为我们的基线网络。然后,我们从我们提出的编解码器网络开始,通过密集侧输出监督和不同的残差求精模块(包括RRM LC、RRM MS)逐步扩展该网络和我们的关系。表1说明了该消融研究的结果。正如我们所看到的,我们的Basnet架构在这些配置中实现了最佳性能。
损耗消融:为了证明我们提出的融合损耗的有效性,我们基于我们的Basnet架构对不同的损耗进行了一系列实验。表1中的结果表明,我们提出的混合噪声极大地改善了性能,特别是边界质量。为了进一步说明损失的定性影响,我们的Basnet用不同的损失训练的结果如图7所示。显然,所提出的混合损失获得了更好的定性结果。

4.5与最先进的比较

我们比较了我们的方法与15个最先进的模型,PiCANetR[39],BMPM[72],R3Net[6],PAGRN[76],RADF[19],DGRL[65],RAS[4],C2S[36],LFR[73],DSS[17],NLDF[41],SRM[64],Amulet[74],UCF[75],MDF[35]。为了公平比较,我们要么使用作者提供的显著图,要么运行他们发布的模型。
定量评估:为了评估分割显著对象的质量,我们在图6中显示了五个最大数据集的精确召回曲线(PR)和F度量曲线。此外,表2还总结了所有数据集的最大基于区域的F度量(MAXFβ)、松弛边界F度量(RELAX Fbβ)和MAE度量。正如我们所看到的,我们的方法在区域和边界测量方面都优于最先进的方法。特别地,我们的方法在β,ECSSD,DUT-OMRON,PASCAL-S,HKU-IS和DUTS-TE数据集上分别提高了4.1%,5.1%,6.2%,6.2%,3.4%,5.9%。
定性评估:为了进一步说明我们方法的优越性能,图8显示了与其他排名前七的方法的定性比较结果。我们可以看到,我们的方法能够在各种具有挑战性的场景下准确地分割显著目标,包括低对比度的图像(第1行和第2行)、精细结构(第3行和第4行)、接触大对象的图像边界(第5行和第6行)、复杂的对象边界(第7行和第8行)、杂乱的前景和背景(最后两行)。我们要强调的是,我们的方法(不使用CRF)生成的显著性概率图比其他方法生成的显著概率图更均匀。此外,我们的结果的对象边界比其他结果更清晰、更清晰。补充材料提供了更多的定量和定性比较结果。

5.结论

本文提出了一种新的端到端边界感知模型–Basnet,并提出了一种混合融合损耗来准确检测显著目标。提出的BASNET是一种预测-求精体系结构,由预测网络和求精模块两部分组成。结合混合损耗,Basnet能够捕获大尺度和精细结构,如薄区域、孔洞,并生成边界清晰的显著目标检测地图。在六个数据集上的实验结果表明,我们的模型在基于区域和边界感知的度量方面都优于其他15种最先进的方法。此外,我们建议的网络架构是模块化的。通过替换预测网络或精化模块,它可以很容易地扩展或适应于其他任务。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐