计算机视觉(CV)概述
目录1. 图像分类2. 物体检测3. 图像分割4. 视频分类 最近在学习百度云智学苑的EasyDL课程时,发现这里对计算机视觉的简介挺清晰移动的,结合本人的一些理解,这里简述一下计算机视觉。 计算机视觉是一门研究如何使机器"看"的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别
最近在学习百度云智学苑的EasyDL课程时,发现这里对计算机视觉的简介挺清晰移动的,结合本人的一些理解,这里简述一下计算机视觉。
计算机视觉是一门研究如何使机器"看"的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
计算机视觉一般涉及到图像分类、物体检测、图像分割和视频分类。
1. 图像分类
图像分类就是给定一个图像,正确给出该图像所属的类别。一般是监督学习,训练集和验证机比例为3:1或7:3

下图为每年imagenet-1k图像分类竞赛上神经网络的top-5错误率,卷积神经网络的出现使得图像分类的精度大大提升:

2. 物体检测

一般主要有两种物体检测思想:
- 经典滑动窗口法
早期,一般使用窗口扫描进行物体识别,计算量大,很难获得物体的精确定位。思想是:
- 对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。
- 每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率,则认为检测到了物体。
- 对每个不同窗口大小的滑窗都进行检测后,会得到不同窗口检测到的物体标记,这些窗口大小会存在重复较高的部分。
- 最后采用非极大值抑制(Non-Maximum Suppression, NMS)的方法进行筛选。最终,经过NMS筛选后获得检测到的物体。
- 边界框预测法
红色的框表示标注框, 绿色的框为模型得到的预测框,白色为预先设定的锚框,让预测框以锚框为基准去逼近标注框,也就是预测框定位的精度可以趋近标注框,可以获得更好的物体定位,预测框可以输出一个概率。

3. 图像分割
图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。与物体检测不同的是图像分割对物体进行像素级定位,如下图所示:


4. 视频分类


DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)