开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 第二周作业：多层感知机 -> 正文阅读

[人工智能]第二周作业：多层感知机

1 SOFTMAX回归

1.1回归 vs 分类：

回归估计一个连续值，分类预测一个离散类别
在这里插入图片描述

在这里插入图片描述

softmax回归是一个多类分类模型。
使用softmax操作子得到每个类的预测置信度。
使用交叉熵来衡量预测和标号的区别。

1.2 损失函数

1.2.1 L2 loss （均方损失）

L(y,y’) = 1/2(y-y’)2*
问题是当预测值远离真实值的时候，会用较大的梯度来更新函数，解决方法就是使用L1 LOSS
在这里插入图片描述

1.2.2 L1 loss （绝对值损失函数）

L(y,y’) = |y - y’|
梯度变化相同，可以带来一些稳定上的好处。
不好的地方是零点处不可导，会有一段剧烈变化，当预测值与真实值靠的比较近时，会变得不那么稳定。
在这里插入图片描述

1.2.3 Huber’ Robust Loss （结合了L1 和 L2 的优点）

在这里插入图片描述

1.3 softmax从零实现

[softmax从零实现(https://blog.csdn.net/keel1112/article/details/120246561)]

2 多层感知机

2.1 感知机

感知机是一个二分类模型，最早的AI模型之一

2.1.1感知机定义

给定输入x，权重w，和偏移b，感知机输出
o = σ（<w,x>+b）
σ(x) = 1 if x> 0 AND 0 otherwise
感知机属于二分类问题，返回1或者-1，而回归问题返回的是一个实数。而softmax回归输出概率。

2.1.2训练感知机

initialize w = 0 and b = 0
repeat
   if  yi [ <w,xi> ] <= 0  then
   w = w+yi xi   and   b = b+yi
   end if
until all classdied correctly

等价于使用批量大小为1的梯度下降，并使用如下的损失函数
L(y,x,w) = max(0,-y<w,x>)

2.1.3 收敛定理

在这里插入图片描述

2.1.4 感知机的问题,XOR问题

感知机不能拟合XOR函数，它只能产生线性分割面。这也直接导致了AI的第一个寒冬。

2.2 多层感知机

2.2.1 原理

通过两层简单函数来实现同或。

2.2.2 单隐藏层 - 单分类

在这里插入图片描述
非线性激活函数的作用：所过是线性的激活函数，会导致
o = w2(转置)W1x + b’ 结果仍然是线性的，与单层感知机没有区别。

2.2.3 Sigmoid激活函数

在这里插入图片描述

2.2.4 Tanh激活函数

在这里插入图片描述

2.2.5 Relu激活函数

在这里插入图片描述

2.2.6 多类分类

y1,y2,…yk = softmax(o1,o2,…ok)
多类跟sftmax的去不饿就是多了一层隐藏层。
在这里插入图片描述

2.2.7 多隐藏层

而多隐藏层的超参数是隐藏层数以及每层隐藏层的大小。
h1 = σ（W1x + b1）
h2 = σ（W2h1 + b2）
h1 = σ（W3h2 + b3）
o = W4h3 + b4
机器学习本质上就是做压缩，比如把一张图片压缩到几个维度，就是分类问题。压缩过程要慢慢的压缩回去。256到128到64到16.
还可以在下一层做一下扩展，先胖再瘦。不能一下子压缩太多，会丢失很多信息。

2.2.8 总结

多层感知机使用隐藏层和激活函数来得到非线性模型。
常用的激活函数是Sigmoid，Tanh，Relu。
使用Softmax来处理多类分类。
超参数为隐藏层数，和各个隐藏层的大小。

3 权重衰退

是解决过拟合的一种方法

3.1 L2正则化

3.1.1使用均方范数作为硬性限制

控制模型容量的办法有减少参数的数量或者通过限制参数值的选择范围来控制模型容量。均方范数就是通过限制参数值的选择范围来控制模型容量。

min L(w，b) subject ||w||2<=θ
通常不限制偏移b（限不限制都差不多）
小的θ意味着更强的正则项，正则项可以理解为限制项

3.1.2使用均方范数作为柔性限制

对每个θ，都可以找到λ使得之前的目标函数等价于下面
min L(w，b) +||w||2 * λ/2
可以通过拉格朗日乘子来证明
超参数λ控制了正则项的重要程度
λ = 0：无作用
λ → ∞ ：w*→0
λ也就是惩罚项，penalty

惩罚项将权重拉向原点的位置，从而实现权重降低
在这里插入图片描述