[人工智能] 李宏毅机器学习P13+P5+6+7+8+9(21版)学习笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 李宏毅机器学习P13+P5+6+7+8+9(21版)学习笔记 -> 正文阅读

[人工智能]李宏毅机器学习P13+P5+6+7+8+9(21版)学习笔记

P13深度学习

1.神经网络

由不同的逻辑回归函数（不同权重和偏差）连接而成不同结构

输入层（Input?Layer）：1层
隐藏层（Hidden?Layer）：N层
输出层（Output?Layer）：1层

Fully?Connect?Feedforward network
Fully?Connect：layer1与layer2之间两两都有连接。
传递的方向是单向，由后往前传，所以叫Feedforward。

深度学习能表达出更多情况：

一个神经网络的权重和偏差已知，则可以看作一个函数：输入是向量，输出也是向量。
回归模型和逻辑回归都是定义了一个函数集，给神经网络结构的参数设置为不同的数，
就是不同的函数，结合为函数集，这个函数集较大，是回归模型无法包含的函数。

Deep?=?Many?hidden?layer

随着层数变多，错误率降低，随之运算量增大，因此引入矩阵计算加速运算

矩阵计算（激活函数）方法：σ（权重w *?输入+?偏移量b）=?输出

矩阵运算优点：可以使用GPU加速

本质：通过隐藏层进行特征转换。
特征提取用隐藏层替代原特征工程，最后一个隐藏层输出为新特征（相当于黑箱操作）
把前面的隐藏层的输出当做输入（经过特征提取得到的一组最好的特征），通过一个多分类器得到最后的输出y。

问题

多少层？?每层有多少神经元？?尝试加上直觉

对于有些机器学习相关的问题，我们一般用特征工程来提取特征，
对于深度学习，我们只需要设计神经网络模型来进行就可以了

结构可以自动确定吗？?有很多设计方法可以让机器自动找到神经网络的结构的，如进化人工神经网络，但并不普及?

可以设计网络结构吗？可以，比如?CNN卷积神经网络

2.模型评估

对于神经网络，采用交叉熵（cross?entropy）函数来对损失进行计算

3.选择最优函数

用梯度下降找最优函数和最优参数

P5 training失败及解决1

gradient为0的点，称为critical point，其中有很多可能，导致无法继续优化

用泰勒级数近似计算鉴别critical point的种类(local minima/maxina/saddle point)

P6?training失败及解决2

Batch:是否采用batch进行训练，训练资料分为N个batch,进行训练。

在large和small?batching的testing准确率类似的时候，small?batch的testing值更好。

结论：

LB和SB时间在一定size内，差距很小

LB梯度下降更平稳

SB的最优化值更好

SB的Generalization更好

SB易得到Flat Minima(较好)；LB易得到Sharp Minima

Momentum动量:

gradient?method+momentum：计算参数θ的时候，g反方向+前一步方向调整参数

优点：每一次迭代，都会更接近最优解。有几率不停留在local minima和maxina，因为不只有g的方向，还有前一步的动量。

缺点：算法稳定性变差，出现了一些震荡。算法也不再保证目标函数单调下降。momentum是外插值。

P7?training失败及解决3

training stuck ≠ small gradient，训练卡住/loss不再下降的时候，并非到达了critical point或者saddle point

自适应学习率：不同参数需要不同的学习率，Adaptive learning rate

RMSProp：在计算parameter?dependent部分中σ时，给之前和现在计算的g不同的权重。解决同一参数不用时期需要不同学习率的问题

Adam:RMSProp+Momentum-用得较多：计算θ和σ时，都考虑前一个g

learning?rate scheduling学习率η随时间有关:
1.learning rate decay(随时间逐渐下降）
2.warm up（先变大再变小），在统计数据获取的时候，最初不太精准，需要一定时间先变得较为精准，再进行统计数据。

P8 training失败及解决4

Classification as Regression:将种类用数字表示，但若用1，2，3表示，那么既就有亲疏关系，不太好，解决方法是，用向量[0,0,1],[0,1,0]等表示不同分类，这样就可以解决。

Classification: input?x?output?y,使softmax(y)得到y',使y'接近y^【softmax使ynormalize,classification需要的范围】

loss function可以改变training的难度：

Loss of Classification(e=y^-?y')的表示方式：Mean Square Error(MSE)，Cross-entropy（win），Minimizing?Cross-entropy is equivalent to maximizing likelihood

P9 training失败及解决5

Feature Normalization：使不同的demonsion范围接近。
在training时标准化参数或者加权后的参数，这会造成很大的计算量，因为一个参数的改变会改变全局，实际上，考虑一个big sized的batch进行Normalization比较合适。

在testing的时候，数据不足，未达到batch标准，做Normalization的参数会随数据的增多使用其移动平均数。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-10-21 12:11:36 更:2021-10-21 12:13:30

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/29 3:14:16-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码