计算机视觉识别任务
在这里插入图片描述

1. 语义分割

  • 语义分割思路
    1)滑动窗口
    在这里插入图片描述
    但是这种方法效率太低了,重叠区域反复被计算
    2)全卷积
    在这里插入图片描述
    但是,如果处理过程中保持原始分辨率,对于显存的需求会非常庞大…
    解决方案
    在这里插入图片描述
    上采样?
    在这里插入图片描述
    第二种方法还原的位置可能不对,引入index pooling方法,如下
    在这里插入图片描述
    可学习的上采样:转置卷积
    在这里插入图片描述
    在这里插入图片描述
    例子
    在这里插入图片描述
    在这里插入图片描述
    左边下采样,右边上采样
    在这里插入图片描述

2. 目标检测

1)单目标(分类+定位)
在这里插入图片描述
2) 目标检测:多目标
在这里插入图片描述
CNN利用滑动窗口对图像中所有可能的区域进行分类,计算量巨大!!

后来改进,用区域建议Selective Search选取候选框
在这里插入图片描述
有了R - CNN
在这里插入图片描述
改进之后,有了Fast-RCNN

在这里插入图片描述
Fast-RCNN能实现端对端的网络,其中最主要的贡献就是在裁剪+缩放特征部分实现可导,ROI Pooling

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐