遮挡人脸识别
论文:“Occlusion Robust Face Recognition Based on Mask Learning with Pairwise Differential Siamese Network”一般的想法是:先把图像大致分块,再比较图像中的未遮挡部分。论文中的思路:图像被遮挡后,backbone最后的卷积层(大小为C/H/W)的不同通道对遮挡的响应不一致,这样对不同的通道可以建立不同
论文:“Occlusion Robust Face Recognition Based on Mask Learning with Pairwise Differential Siamese Network”
一般的想法是:
先把图像大致分块,再比较图像中的未遮挡部分。
论文中的思路:
图像被遮挡后,backbone最后的卷积层(大小为C/H/W)的不同通道对遮挡的响应不一致,这样对不同的通道可以建立不同的掩码,即FDM(feature discard mask)。如果把图像分块成若干个格子,每个格子被遮挡时产生一个FDM,每个FDM大小是C*H*W的矩阵,元素是0或1。若干个FDM共同组成一个字典。实际使用时,掩码等于被遮挡块FDM的交集。
训练时:
1、字典的生成。对每一个格子的遮挡,输入大量的图像对,经过backbone网络,计算最后卷积层的差,经过 FDM 的创建器 (一个很简单的网络,比如conv+bn+relu+sigmoid),生成浮点数的 C*H*W 的矩阵,取均值,再二值化成最终的FDM(把最小的t个值设置成0,其他为1)。
2、FDM 的创建器 通过 PDSN 训练。训练过程是:给定图像对,利用backbone最后卷积层的差作为输入,经过 FDM的创建器, 把掩码按元素乘到最后的卷积层上,损失就是卷积层差的L1范数 加上 遮挡图像的分类损失。
实际使用中:
比较两张图片的相似度,一张遮挡,一张未遮挡。对遮挡图片,先用FCN-8s ("Fully convolutional networks for semantic segmentation")做遮挡检测,量化遮挡区域成若干个格子,掩码等于格子对应FDM的交集。把掩码分别作用于两张图片backbone最后的卷积层,再提取fc层特征,计算相似度。
疑问是:
1、特征占用空间较大。
由于掩码未知,只能保存最后的卷积层特征,对于大批量图像,空间要求较高。
2、比对速度较慢。
比对不是纯粹的计算相似度,而是包含了一些特征提取过程。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)