1 梯度下降引入

在这里插入图片描述

在第一列的五个圆圈和六个圆圈之间，我们可以看到有30条线。第一列的五个圆圈表示51的输入x，第二列表示第一层的61输出，那么中间

在这里插入图片描述

很显然是一个6*5的权重矩阵。也就是说，这里一共有30个参数。

是否能做这样一个算法，将整个网络看成一个计算图，可以在计算图上传播梯度，最后根据链式法则把梯度求出来，这种算法呢，就可以称之为反向传播算法。

2 计算图

在这里插入图片描述

其中，MM表示矩阵乘法。

在这里插入图片描述

但是，对于这样的两层直接输入输出的网络层来说，按照上图的方式可以进行化简，并最终可以化简得到一个线性层。（所以，这两层完全没有意义，其实就是相当于一层）
因此，我们就要在第一层结束之后，加一个非线性的函数。如下图所示。

在这里插入图片描述

3 链式求导

在这里插入图片描述

前向传播的过程很好理解，就是 $f = w ? x$ ，算loss的过程这里省略。
反向传播呢，就是在算出loss之后，需要求出loss对z的导数，然后在算出f的时候，记录下z对x的导数和x对w的导数，然后在往前，根据链式法则得到loss对x的导数和loss对w的导数！

在这里插入图片描述
导数是存储在变量中的，不是计算模块中的

4 PyTorch中的Tensor

在这里插入图片描述

Tensor有两个数据成员，data和Grad。

4.1 代码片段学习

import torch
w = torch.Tensor([1.0])
w.requires_grad = True

w是一个参数，这里随机初始化为1.0，是一个0维的常量。
并且要求它去计算梯度（grad）【一般是默认不计算的】

def forward(x):
	return x * w

forward函数作用：数乘。w是Tensor向量，x不清楚是否是Tensor，这里在计算时就会对函数做一个强制类型转换。

def loss(x, y):
	y_pred = forward(x)
	return (y_pred - y) ** 2

这个计算loss的过程，要能够用计算图去表示出来。

for epoch in range（100）：
	for x, y in zip(x_data, y_data):
	l = loss(x, y)
	l.backward()  # .grad 会累积数据的
	print(
	w.grad.data.zero_()  # 在更新之后，需要把梯度数据清零

张量是不能直接去进行加法计算的，Tensor做加法会生成计算图，导致内存消耗。一定要加上 .item

5 整体代码

可以全部复制粘贴到.py文件中，可以直接运行

import torch
import matplotlib.pyplot as plt


x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

w = torch.Tensor([1.0])
w.requires_grad = True


def forward(x):
    return w * x


def loss(x, y):
    y_pred = forward(x)
    return (y_pred - y) ** 2


print("在模型计算之前对于x=4的预测是：", 4, forward(4).item)


epoch_list = []
loss_list = []

for epoch in range(100):
    for x, y in zip(x_data, y_data):
        l = loss(x, y)
        l.backward()
        print('\tgrad:', x, y, w.grad.item())
        w.data = w.data - 0.01 * w.grad.data

        w.grad.data.zero_()
        epoch_list.append(epoch)
        loss_list.append(l.item())

    print("process:", epoch, l.item())

print("在模型计算之后对于x=4的预测是：", 4, forward(4).item())
plt.plot(epoch_list, loss_list)
plt.ylabel('Loss')
plt.xlabel('epoch')
plt.show()