开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> pytorch 深度学习的一些小笔记 -> 正文阅读

[人工智能]pytorch 深度学习的一些小笔记

一个比赛案例：Quick, Draw! Doodle Recognition Challenge 总结 | TangShusen

softmax回归适用于分类问题。它使用softmax运算输出类别的概率分布。
softmax回归是一个单层神经网络，输出个数等于分类问题中的类别个数。
交叉熵适合衡量两个概率分布的差异。

# gather在one-hot为输出的多分类问题中，可以把最大值坐标作为index传进去，然后提取到每一行的正确预测结果，这也是gather可能的一个作用。
# 传入数据 dim 以及索引获取对应的数据?

y_hat.argmax(dim=1)返回矩阵y_hat每行中最大元素的索引，且返回结果与变量y形状相同

TensorFlow 是一种非常强大和成熟的深度学习库，具有很强的可视化功能和多个用于高级模型开发的选项。它有面向生产部署的选项，并且支持移动平台。另一方面，PyTorch 框架还很年轻，拥有更强的社区动员，而且它对 Python 友好。

我的建议是如果你想更快速地开发和构建 AI 相关产品，TensorFlow 是很好的选择。建议研究型开发者使用 PyTorch，因为它支持快速和动态的训练。

激活函数

?1.

?2.

接下来，我们将探究模型训练中经常出现的两类典型问题：一类是模型无法得到较低的训练误差，我们将这一现象称作欠拟合（underfitting）；另一类是模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。在实践中，我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题，在这里我们重点讨论两个因素：模型复杂度和训练数据集大小。

正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。
权重衰减等价于?L2?范数正则化，通常会使学到的权重参数的元素较接近0。
权重衰减可以通过优化器中的weight_decay超参数来指定。
可以定义多个优化器实例对不同的模型参数使用不同的迭代方法。

丢弃法（dropout）：? 不改变其输入的期望值，隐藏层的单元丢弃是随机的，在方向传播时，其相关的权重梯度均为0，则输出层的计算无法过度以来任何一个单元，从而在训练模型时起到正则化的作用，并可以用来应对过拟合，只在训练模型时适用，在测试模型时，我们为了拿到更加确定性的结果，一般不适用丢弃法。

在模型参数初始化完成后，我们交替地进行正向传播和反向传播，并根据反向传播计算的梯度迭代模型参数。既然我们在反向传播中使用了正向传播中计算得到的中间变量来避免重复计算，那么这个复用也导致正向传播结束后不能立即释放中间变量内存。这也是训练要比预测占用更多内存的一个重要原因。另外需要指出的是，这些中间变量的个数大体上与网络层数线性相关，每个变量的大小跟批量大小和输入个数也是线性相关的，它们是导致较深的神经网络使用较大批量训练时更容易超内存的主要原因

正向传播沿着从输入层到输出层的顺序，依次计算并存储神经网络的中间变量。
反向传播沿着从输出层到输入层的顺序，依次计算并存储神经网络中间变量和参数的梯度。
在训练深度学习模型时，正向传播和反向传播相互依赖。

dim属性的全称是dimension，表示维度。dim=0为第0个维度，代表行。同理，对于dim=1为第一个维度，代表列。

----------------------------------------------------------------------------------------------------------------------------

构建模型的时候?Sequential和ModuleList以及ModuleDict 都可以进行列表化构造网络提供了便捷。

区别：

1.ModuleList仅仅是一个储存各种模块的列表，这些模块之间没有联系也没有顺序（所以不用保证相邻层的输入输出维度匹配），而且没有实现forward功能需要自己实现；而Sequential内的模块需要按照顺序排列，要保证相邻层的输入输出大小相匹配，内部forward功能已经实现。

2.和ModuleList一样，ModuleDict实例仅仅是存放了一些模块的字典，并没有定义forward函数需要自己定义。同样，ModuleDict也与Python的Dict有所不同，ModuleDict里的所有模块的参数会被自动添加到整个网络中

# 因为FancyMLP和Sequential类都是Module类的子类，所以我们可以嵌套调用它们。
#因而在构建复杂的模型的时可以通过sequential模块嵌套调用写好的算法，可以有不同的效果
net = nn.Sequential(NestMLP(), nn.Linear(30,20),FancyMLP())

可以通过继承Module类来构造模型。
Sequential、ModuleList、ModuleDict类都继承自Module类。
与Sequential不同，ModuleList和ModuleDict并没有定义一个完整的网络，它们只是将不同的模块存放在一起，需要自己定义forward函数。
虽然Sequential等类可以使模型构造更加简单，但直接继承Module类可以极大地拓展模型构造的灵活性。

---------------------------------------------------------------------------------------------------------------------------

1.parameters 也是一个tensor ，而和Tensor不同的是如果一个Tensor是Prarmeter，那么它会自动被添加到模型的参数列表里，既然Parameter是一个Tensor,即Tensor拥有的属性它都有，比如可以根据data来访问参数数值，用grad来访问参数梯度。

????????

2.PyTorch的init模块里提供了多种预设的初始化方法

? ? ? ? a.比如 init.normal_(param,mean =0,std =0.01)? 将权重参数初始化成均值为0、标准差为0.01的正态分布随机数，并依然将偏差参数清零。

? ? ? ? ?b.使用常数来初始化权重参数：init.constant_(param, val=0)

? ? ? ? c.自定义初始化方法：例如如何自定义 0 0.01的正态分布随机数->

????????????????

* 我们还可以通过改变这些参数的data来改写模型参数值同时不会影响梯度

?共享模型参数

????????在有些情况下，我们希望在多个层之间共享模型参数。共享模型参数:?Module类的forward函数里多次调用同一个层。此外，如果我们传入Sequential的模块是同一个Module实例的话参数也是共享的。

? ? ? ? --------------------------------------------------------------------------------------------------------------------

自定义层

????????深度学习的一个魅力在于神经网络中各式各样的层，例如全连接层和后面章节中将要介绍的卷积层、池化层与循环层。虽然PyTorch提供了大量常用的层，但有时候我们依然希望自定义层。本节将介绍如何使用Module来自定义层，从而可以被重复调用。

----------------------------------------------------------------------------------------------------------------------------

Tensor的GPU计算

????????存储在不同位置中的数据是不可以直接进行计算的。即存放在CPU上的数据不可以直接与存放在GPU上的数据进行运算，位于不同GPU上的数据也是不能直接进行计算的。

PyTorch可以指定用来存储和计算的设备，如使用内存的CPU或者使用显存的GPU。在默认情况下，PyTorch会将数据创建在内存，然后利用CPU来计算。
PyTorch要求计算的所有输入数据都在内存或同一块显卡的显存上

------------------------------------------------------------------------------------------------------------------------------

卷积神经网络

? ? ? ? 1.卷积层中可以用互相关运算代替，似乎大部分的学术中都是用互相关运算代替了卷积运算，结果相等，二而输出的形状由输入形状和卷积核的窗口形状决定，输入的高 - 窗口的高+1 即为输出形状的高，宽同理。

? ? ? ? 2.特征图/特征映射（feature map）输出的卷积层有时候被称为特征映射，因为它可以被视为一个输入映射到下一层的空间维度转换器。

? ? ? ? 3.感受野（receptive field）?指在前向传播期间可能影响xx计算的所有元素（来自所有先前层），所以感受野的覆盖率可能大于某层输入的实际区域大小。

? ? ? ? 4.填充（padding）是指在输入高和宽的两侧填充元素（通常是0元素），一般是为了让输出和输入同形状，一般情况下都是设置填充的数量 P = k-1 ，且卷积神经网络经常使用奇数高宽的卷积核，如1、3、5和7，所以两端上的填充个数相等。对任意的二维数组X，设它的第i行第j列的元素为X[i,j]。当两端上的填充个数相等，并使输入和输出具有相同的高和宽时，我们就知道输出Y[i,j]是由输入以X[i,j]为中心的窗口同卷积核进行互相关计算得到的。

? ? ? ? 5.步幅(stride) :卷积窗口从输入数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动。我们将每次滑动的行数和列数

多输入通道和多输出通道

? ? ? ? 多通道输入原理跟单通道的一样，其实就是多个单通道输入的输出结果相加，所以这样的结果输出的通道数总是为1，如果想要多通道输出的结果，则在卷积层前再加一个参数为输出的通道数，原理是开始时每个输出的通道都获取所有的输入通道的数，每个输出通道分别进行多输入通道单输出的计算，然后用stack函数合并在一个，则形成了多通道输出。