什么是图像分割

图像分割:预测目标的轮廓。将不同的像素划分到不同的类别,非常细粒度的分类。

图像分割的应用场景

 人像抠图,医学组织提取,遥感图像分析,自动驾驶,材料图像等。

图像分割的前景与背景

物体Things:可数前景目标(行人等)。 

事物Stuff:不可数背景(天空,草地,路面)。

 图像分割的三层境界

1.语义分割

每一个像素必须只能属于一类,预测结果为掩膜。

 2.实例分割

只预测前景目标的类别属性以及边框,个体ID,每一个像素可以属于多个ID。

3. 全景分割

每个像素点分配一个语义类别和一个唯一的实例ID。

 图像分割的数据集

 VOC数据集

       1.PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。

 4大类,20小类

VOC 2007:9963图片 /24640目标

VOC 2012:23080图片 /54900目标

       

2.从2007年开始引进了语义分割和实例分割的标注。

        3.一共2913张图,1464张训练图片,1449张验证图片。

Cityscape数据集

        50个城市在春夏秋三个季节不同时间段不同场景、背景的街景图。

        30个类别

        5000张精细标注的图像(2975张训练图、500张验证图和1525张测试图)、20000张粗略标注的图像。

        语义分割和实例分割。

 

COCO数据集

        以场景理解为目标,特别选取比较复杂的日常场景。

        数据集图像特点

        共91类,以人类4岁小孩能够辨识为基准,其中82类有超过5000个instance。

语义分割的评估指标

Pixel Accuracy:逐像素分类精度。 ·

Mean Pixel Accuracy:每个类内被正确分类像素数的比例。

IoU:前景目标交并比。

 mIoU:每个类的IoU平均值。 ·

FWIoU:根据每个类出现的概率给mIoU计算权重。

图像分割网络的两个模块

卷积模块:提取特征。 

反卷积模块:上采样恢复到原图尺度。

转置卷积

卷积

卷积实现

反卷积

反卷积实现

 卷积与反卷积(转置关系,transposed)

卷积网络:编码器

反卷积网络:解码器

编码器和解码器的应用:

        编码器和解码器在自然语言处理项目中的应用,如翻译项目。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐