[人工智能] 计算机视觉与深度学习-1

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 计算机视觉与深度学习-1 -> 正文阅读

[人工智能]计算机视觉与深度学习-1

以下内容是自己学习北京邮电大学鲁鹏副教授计算机视觉与深度学习课程（A02）的一些笔记，笔者能力有限，如有错误还望各位大佬在评论区批评指正?。

先贴一下课程的官网：CV-XUEBA

1、什么是计算机视觉？

计算机视觉(computer vision)是一门研究如何使机器“看”的科学，也就是通过摄像头的捕获，再经过计算机处理，输出解释。计算机视觉最重要的是摄像头对采集图像的理解。

2、计算机视觉的目标（难点）

如下图，人能很快的看出图中有火车，楼梯，而且火车是倾倒的，从图中信息可以得出这显然是一场灾难。但是在机器看来这是一些数据矩阵，既然我们要让机器像人一样能够理解图像，我们就要让机器能看到图像中的组成元素，从而理解图像要表达的含义。也就是说，计算机视觉的目标是跨越“语义鸿沟”建立像素到语义的映射。

例如一张300*400的灰度图，每个像素点都是0-255的数字所代表的色阶，对机器来说是12000个像素点，如果每个像素点用1byte表示就是12000byte，机器需要从这12000个byte中像人类一样理解这张图所表达的含义。这就是从byte到图像语义，计算机视觉的难点就在这。

目前主要分为两个研究领域：三维信息获取以及视觉识别。三维信息获取主要侧重空间的环境理解，而视觉识别侧重于图像的语义信息。

3、图像分类

3.1 什么是图像分类任务？有哪些应用场合？

图像分类任务是计算机视觉中的核心任务，其目标是根据图像信息中所反映的不同特征，把不同类别的图像分开。也就是从已知的类别标签集合中为给定的输入图片选定一个类别标签。在实际操作中，我们对一幅图片打标签时，是提前知道标签列表的。

图像分类的应用范围非常广，例如网购时心仪的物品语言文字不好描述，拍照上传就能找到，某种生物没见过，我们同样可以把照片上传，就可以得到一个满意的答案，去到一个城市时路牌的识别等。

（这里需要特别强调一下图像识别与图片搜索。图片识别需要提前知道物体是什么，改变角度等后也能准确识别，而图片搜索只需要将图片与网络上的图片进行比对。）

3.2 图像分类的难点

我们前面已经知道图像识别要做的就是----跨越“语义鸿沟”建立像素到语义的映射。那么它具体难在哪呢？

3.2.1 视角

从这副图可以很直观的反应视角的问题。在我们采集样本的时候，很可能一个视角问题就影响我们后期的识别准确度，同样的我们也可以利用这一点来扩充我们的数据集，叫做数据增强。需要注意的是，同样的对于下面描述的“难点”都可以用来扩充我们的数据集。

3.2.3 光照

在这一堆企鹅石膏中，我们可以看到由于光照的原因，最左边的图中有白色石膏呈现黑色，中间的图有企鹅呈现灰色。如果我们在设计的时候，识别的算法没有考虑这一点，那么算法在最左边的图就会挂掉。我们肉眼所看到的色彩等都是光照反射过来的，所以光照的变化就会引起物体整体颜色的变化，所以我们在优化算法的时候就要考虑这一点，让我们的算法能够抗击光照不同的环境。

3.2.3 尺度

假如我们在设计系统的时候是按照姚明的身高去做的，那么笔记本应该在图片中的占比较小。但是在实际应用中，很有可能会碰到左边的情况，笔记本对于他来说是比较大的，我们的系统在这时就很有可能会挂掉。所以尺度是一个相对的概念，反映到我们的视觉系统中，就是人在摄像头很近的位置或者人离摄像头较远，我们的系统都应该能够准确的识别出。

3.2.4 遮挡

遮挡在视觉领域是比较常见的，比如自动驾驶，你在路边被一个垃圾桶挡住了下半身，或者前面的小电驴挡住部分斑马线。这个时候如果视觉系统不能正确的发挥作用，那后果可能很严重。最左边的图更加狠了，猫猫只露出了一条尾巴，对于我们人来说，识别它比较简单，那我们的系统能识别吗？

3.2.5 形变

如果我们在设计的时候，把我们固有对猫的印象----四只脚朝地，抬着尾巴走路等植入到系统中，这是一个很常见的系统。但是当我们的系统在面对这些猫时，我们发现有的猫是坐着的，有的是躺着的，还有是站着的，我们常说猫是液体动物，这让我们的识别更加困难了，所以很显然系统一上来就挂了。我们做识别通常都是通过构建模型，把各种姿势的猫的模型建立出来。但是这些形变描述起来很困难，在深度学习之前，识别猫是很困难的，因为我们描述都是通过提取一些简单特征，组合起来，而动物的形变是很复杂的，在描述的时候是很困难的，但是对于我们的深度学习而言这已经不是问题。后面会再介绍。

3.2.6 类内形变