计算机视觉（CV）概述

目录1. 图像分类2. 物体检测3. 图像分割4. 视频分类最近在学习百度云智学苑的EasyDL课程时，发现这里对计算机视觉的简介挺清晰移动的，结合本人的一些理解，这里简述一下计算机视觉。计算机视觉是一门研究如何使机器"看"的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别

狂奔的菜鸡

6847人浏览 · 2020-05-09 21:57:46

狂奔的菜鸡 · 2020-05-09 21:57:46 发布

目录

1. 图像分类
2. 物体检测
3. 图像分割
4. 视频分类

最近在学习百度云智学苑的EasyDL课程时，发现这里对计算机视觉的简介挺清晰移动的，结合本人的一些理解，这里简述一下计算机视觉。
计算机视觉是一门研究如何使机器"看"的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
计算机视觉一般涉及到图像分类、物体检测、图像分割和视频分类。

1. 图像分类

图像分类就是给定一个图像，正确给出该图像所属的类别。一般是监督学习，训练集和验证机比例为3:1或7:3

在这里插入图片描述
下图为每年imagenet-1k图像分类竞赛上神经网络的top-5错误率，卷积神经网络的出现使得图像分类的精度大大提升：

在这里插入图片描述

2. 物体检测

在这里插入图片描述
一般主要有两种物体检测思想：

经典滑动窗口法

早期，一般使用窗口扫描进行物体识别，计算量大，很难获得物体的精确定位。思想是：

对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。
每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率，则认为检测到了物体。
对每个不同窗口大小的滑窗都进行检测后，会得到不同窗口检测到的物体标记，这些窗口大小会存在重复较高的部分。
最后采用非极大值抑制(Non-Maximum Suppression, NMS)的方法进行筛选。最终，经过NMS筛选后获得检测到的物体。

边界框预测法
红色的框表示标注框, 绿色的框为模型得到的预测框，白色为预先设定的锚框，让预测框以锚框为基准去逼近标注框，也就是预测框定位的精度可以趋近标注框，可以获得更好的物体定位，预测框可以输出一个概率。

3. 图像分割

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。与物体检测不同的是图像分割对物体进行像素级定位，如下图所示：

在这里插入图片描述

4. 视频分类

在这里插入图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

cover

西门子多工位转盘1200PLC项目实践：多种设备通讯与控制实现

DAMO开发者矩阵

cover

国内焊接机器人做的比较好的品牌有哪些

DAMO开发者矩阵

cover

收藏必备：RAG应用问答对构建实战：从文档到客服机器人的高效路径

DAMO开发者矩阵

所有评论(0)

查看更多评论

狂奔的菜鸡

@weixin_43786241

已为社区贡献1条内容