[人工智能] [CS231N]Notes

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> [CS231N]Notes_1-Introduction -> 正文阅读

[人工智能][CS231N]Notes_1-Introduction

本节主讲人：Justin Johnson

Notes

在这里插入图片描述

本节主讲人：Justin Johnson，2017年的第三次CS231N的课程。 CS231N：Convolutional Neural Networks for Visual Recongnition.

在这里插入图片描述

CS231N是关于计算机视觉的课程，那么什么是计算机视觉呢？计算机视觉（顾名思义）就是针对视觉数据的研究；受益于各种视觉传感器，过去几年产生了非常多的的视觉数据；在思科2015年的研究中，互联网中80%流量是视频，这些实际上就是视觉数据，所以接下来的关键是如何用算法来开发这些可以利用和理解的数据。视觉数据存在的问题其很难被理解，所以其有时也会被成为互联网中的“暗物质”。例外有一个来自YOUTUBE的例子，大概每秒就有五小时的视频内容被传到youtube，所以很重要就是如何开发算法处理这些海量的视觉数据。

在这里插入图片描述

计算机视觉是一个跨学科的领域，其涉及到科学和工程技术的很多不同的领域；比如：Physics（物理）中的光学和成像原理，因为它牵扯到图像是怎样构成的；还有Biology（生物学）和Psychology（心理学），了解生理层面动物大脑如何看到并处理视觉信息；当然还涉及到计算机科学、数学和工程学的技术，其构建实现计算机视觉算法的计算机系统。

在这里插入图片描述

上面是这门课和斯坦福其他课程的关系，建议有CS131深度学习的基础，本门课主要集中关注计算机视觉以及研究计算机视觉的出发点。CS231a是更全面的计算机视觉课程，其专注于3D重建、匹配和机器人视觉等方面。CS231N主要关注围绕神经网络的相关算法，特别是CNN。

下面是lifeifei录制的视频，讲解关于计算机视觉的历史：

在这里插入图片描述

这部分主要讲两个方面的内容：一是简要介绍一下计算机视觉的发展历程，二是讲解一下CS231N这门课的整体概况。先从历史讲起，谈一谈视觉从何而来，以及视觉现在发展到哪一步了。

在这里插入图片描述

物种大爆炸的一种理论是因为动物进化出眼睛，从而很快的演化；现在视觉是智慧动物最重要的感知系统，在人类大脑皮层中几乎有一半的神经元和视觉有关；前面讲的是生物的视觉，那么人类如何让机器获得视觉呢？下面简述了照相机的历史：

在这里插入图片描述

这是目前已知的最早的相机，17世纪文艺复兴时期，针孔成像原理。

在这里插入图片描述

同时，生物学家也开始研究视觉原理；其中最有影响力启发了计算机视觉的一项研究是：五六十年代使用店生物学的研究；他们关心哺乳动物的视觉处理机制是怎样的，他们选择了大脑视觉处理机制与人类似的猫进行研究；他们发现：视觉处理是始于视觉世界的简单结构，面向边缘，沿着视觉处理途径的移动信息也在变化，大脑构建更加复杂的处理机制直到它可以识别更为复杂的视觉世界。

在这里插入图片描述

计算机视觉的历史是从60年代开始的，Block world被认为是第一篇计算机视觉的博士论文，其中视觉世界被简化为简单的几何形状，目的是识别和重建这些形状。

在这里插入图片描述

1966年MIT暑期项目：构建视觉系统。

在这里插入图片描述

MIT David Marr70年代的书，关于“如何理解视觉，如何处理计算机视觉？”

在这里插入图片描述

David的书中提到：原始草图（包含大部分边缘、端点和线条）、2.5D的草图（表面、深度信息层和场景）到之后的 3D 模型；这是一种非常理想化的过程，也是一种非常直观的过程考虑如何构建视觉信息。

在这里插入图片描述

上面是广义圆柱体和图形结构；如何用简单的块状表示或识别现实的物体。他们的基本思想：每个物体都由简单的几何图单位组成，这不就是我的世界吗/==。

在这里插入图片描述

通过边缘和线构建物体表示。
在这里插入图片描述

如果目标检测很难做，那就先做目标分割：这个任务就是把一张图片上的像素点归类到有意义的区域。（2D图像的聚类）

在这里插入图片描述

ML的方法实现人脸检测，上述是AdaBoost算法的效果。2000年的时候机器学习非常火热。

在这里插入图片描述

基于特征的目标检测，提取特征中表现性和不变性的部分。

在这里插入图片描述

空间金字塔匹配。

在这里插入图片描述

HoG：方向梯度直方图

在这里插入图片描述

PASCAL数据集只有20类。另一方面，随着时间的推移，图像质量越来越好。

在这里插入图片描述

大部分机器学习算法都很可能在训练过程中过拟合，部分原因是可视化的数据非常复杂，正因为其太复杂，所以我们的模型往往维数比较高，即输入是高维的模型，则还有一堆参数要调优；当我们的训练数据不够时，很快就会出现过拟合，ImageNet就是为了解决这个问题，整个项目花了三年；ImageNet利用WordNet字典进行排序。

在这里插入图片描述