论文:“Occlusion Robust Face Recognition Based on Mask Learning with Pairwise Differential Siamese Network”

一般的想法是:

    先把图像大致分块,再比较图像中的未遮挡部分。

 

论文中的思路:

    图像被遮挡后,backbone最后的卷积层(大小为C/H/W)的不同通道对遮挡的响应不一致,这样对不同的通道可以建立不同的掩码,即FDM(feature discard mask)。如果把图像分块成若干个格子,每个格子被遮挡时产生一个FDM,每个FDM大小是C*H*W的矩阵,元素是0或1。若干个FDM共同组成一个字典。实际使用时,掩码等于被遮挡块FDM的交集。

训练时:

1、字典的生成。对每一个格子的遮挡,输入大量的图像对,经过backbone网络,计算最后卷积层的差,经过 FDM 的创建器 (一个很简单的网络,比如conv+bn+relu+sigmoid),生成浮点数的 C*H*W 的矩阵,取均值,再二值化成最终的FDM(把最小的t个值设置成0,其他为1)。

2、FDM 的创建器 通过 PDSN 训练。训练过程是:给定图像对,利用backbone最后卷积层的差作为输入,经过 FDM的创建器, 把掩码按元素乘到最后的卷积层上,损失就是卷积层差的L1范数 加上 遮挡图像的分类损失。

实际使用中:

    比较两张图片的相似度,一张遮挡,一张未遮挡。对遮挡图片,先用FCN-8s ("Fully convolutional networks for semantic segmentation")做遮挡检测,量化遮挡区域成若干个格子,掩码等于格子对应FDM的交集。把掩码分别作用于两张图片backbone最后的卷积层,再提取fc层特征,计算相似度。

 

疑问是:

1、特征占用空间较大。

    由于掩码未知,只能保存最后的卷积层特征,对于大批量图像,空间要求较高。

2、比对速度较慢。

    比对不是纯粹的计算相似度,而是包含了一些特征提取过程。

 

 

 

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐