开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习（浙大课程b站）第四章 -> 正文阅读

[人工智能]机器学习（浙大课程b站）第四章

笔记

深度学习数据库准备
自编码器
编码器采用的是分层初始化的思想

首先训练一个小网络输入是X，输出也是X

通过这个网络使中间的三维数据浓缩了原有的四维数据的信息可看做是对原有四维数据的编码，又由于这是从X到其自身的编码，因此将该算法叫做自编码器。可用后向传播算法训练该网络。
卷积神经网络(Convolutional Neural Network, CNN)LeNet
卷积神经网络：由手工设计卷积核，编程自动学习卷积核。

步长(stride)：做完一次卷积，下一次离这次隔多远。
若stride=1，每次移一格

若stride=[1,1]，第一层结束后，下移一格，继续第二行的数

若stride=2，每次移两个，不足两格的地方就不做卷积。

若stride=[2,2]，一层结束后，下移两格，不足两格就不算了。

若图像大小是(M,N)，卷积核大小(m,n)，步长(u,v)，则特征图大小为：（我自己计算得）

其中除法为整除！
老师的算法：

不够的话补零

补多少的零呢？我自己算得（补上左边和下面）：

其中除为整除，先算整除，再算乘法。
老师的算法：

补零叫做zero-padding或者padding

对于3*3*5卷积核：
无偏置情况下：5*5*3=75，75*6=450
每个卷积核自带偏置的话：5*5*3+1=76，76*6=456

共享权重(weight sharing)

卷积神经网络中的降采样层

用16个5*5*6的卷积核，stride为1，作用在14*14*6的特征图上，得到16个10*10 的特征图。

基本在分类问题上，用softmax和交叉熵，不直接用上面那个。

可看出主要参数在全连接层。
整个网络的计算速度取决于卷积层，整个网络的参数个数取决于全连接层。
卷积神经网络AlexNet
AlexNet的改进
深度学习编程工具（Caffe和Tensorflow）
近年来流行的网络结构

VGGNET对ALEXNET的改进包括两个方面：
①增加了网络的深度②用多个3*3卷积核叠加代替更大的卷积核，用以增加感受野(RECEPTIVE FIELD)

VGGNET是一个计算和存储开销都较大的网络

ResNet: Residual Net残差网络

由于浅层和深层的特征图在维度上不一致，导致无法直接相加，因此用线性变换将浅层特征图维度编程深层的维度。
卷积神经网络的应用
应用-人脸识别
迁移学习(Transfer Learning)：把domain的经验迁移到另一个domain中去。

补充mooc上这一章有的而b站上没有的的其他内容
目标检测与分割

三种难度逐渐升级
RCNN(Regions with CNN features)

系统输出仍然采用的是分类的softmax层加上是个坐标的回归

语义分割：检测和识别出图像的目标，确定每个目标所对应的像素。

利用上采样层(up-samping layer)对特征图进行放大。
时间序列的深度学习
循环神经网络(RECURRENT NEURAL NETWORK, RNN)

RNN的不足：状态之间的转移函数及状态到输出的转移函数都过于简单。

基于人类的记忆机制获得的灵感。
生成对抗模型
如何让深度神经网络具有创造力？
生成对抗网络(generative adversary network, GAN)
基本原理：输入网络的图片在高维空间中具有某种特定的概率分布，而网络需要学习的，正是这种概率分布，而不是像CNN那样单纯的标签，由于维度太高，传统估计的方法没有用。因此提出借用博弈论的思想构造两个深度神经网络，一个叫做生成器(generator)，另一个叫做判别器(discriminator)，让他们相互对抗，在对抗中相互进步。

当G, D二者的模型容量(capacity)足够时，二者将达到纳什均衡。此时判别器对真实样本和生成样本的预测概率均为二分之一，即生成样本与真实样本达到了难以区分的地步。

GAN的缺点：①训练不稳定，难以直观观测训练过程，难以有效收敛，很多时候收敛需要运气。②模式崩溃(mode collapse)

测验

1在LENET网络中，如果一个64×64的图像和一个kernel_size=7×7，padding=0，stride=3的卷积核进行操作，请问经过卷积操作后获得的特征图的尺寸为？
A. 19×19
B. 21×21
C. 18×18
D. 20×20
正确答案：D

2?在ALEXNET网络的学习中，下面哪些是它的重要改进功能
A. MaxPooling
B. dropout
C.以ReLU函数代替sigmoid和tanh函数
D.都是
正确答案：D

3?在计算感受野的问题中，当一个输入，如果步长stride为2，经过三层3×3的卷积核，问最后输出的每一个点的感受野的大小为多少？
A. 12×12
B. 15×15
C. 3×3
D. 7×7
正确答案：B

4 IOU即交并比，是目标检测中衡量目标检测算法准确度的一个重要指标。假设真实框的面积大小为9，检测框的大小为8，两个框重叠的面积为3，那么请问IoU的值为（）
A.3/14
B.3/8
C.3/9
D.3/17
正确答案：A

5判断(2分)
?R-CNN是用selective search产生候选proposals，然后将其输入到CNN中最后使用SVM判断结果
A.√
B.×
正确答案：A

6?反卷积层的原理是首先将填充原特征图中的特征点，之后使用卷积核在原特征图上滑动由此得到更大的特征图
A.√
B.×
正确答案：A
7 ?GAN训练过程中，无论生成器的优劣，其输出的标签都被设为0
A.√
B.×
正确答案：A

8?由于GAN采用了监督器和生成器“博弈”的策略，所以GAN网络总是能稳定的收敛
A.×
B.√
正确答案：A

咋说呢，本来是想着之后会用到机器学习的相关知识来处理自己方向的一些内容，所以找到了这门课程想了解一下机器学习的基本理论，结果发现光理论还是无法深入了解机器学习的本质，编程是不可缺少的。老师讲代码的时候，我听得也不是很认真，希望早日能够克服对编程的恐惧心理吧！学习支持向量机的时候，跟着老师的思路一步一步推导，给我的感觉是非常舒畅的，所以第二章我有很多感悟，而往后的课程我感觉有些难并且不好理解，从我的笔记可以看出，对PPT的截图比较多，自己的感悟少了，多是直接接受老师说的知识，希望自己能够认认真真的听每一个网课，不论困难还是简单，听不懂的就多听几遍吧。开始了就不想放弃了！虽然菜也要菜得有骨气。
在这里插入图片描述