IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 深度学习之 7 深度前馈网络2 -> 正文阅读

[人工智能]深度学习之 7 深度前馈网络2

本文是接着上一篇深度学习之 7 深度前馈网络_水w的博客-CSDN博客

目录

自动梯度计算

1、数值微分

2、符号微分

3、自动微分

4、计算图

5、静态计算图、动态计算图

神经网络参数优化的主要问题

1、非凸优化

2、梯度消失


自动梯度计算

手动使用链式法则计算每个参数的导数并编程实现非常繁琐且极易出错。可使用计算 机实现参数的自动梯度计算,其方法可分为 数值微分 符号微分 自动微分 三类。

1、数值微分

用数值的方法来计算函数 𝑓 𝑥 的导数,函数 𝑓(𝑥)在点𝑥处的导数定义为:

?在实际应用中,经常使用下面的方式来计算梯度,以减小截断误差,

? ?𝑥 难以确定,太小会引起舍入误差,太大则增加截断误差;
? 虽然实现非常简单,但实用性较差;
? 计算复杂性高,因为需要为每个参数单独施加扰动,若参数数量为 𝑁 ,则复杂度为 𝑂(𝑁 2 )

2、符号微分

? 一种基于符号计算(代数计算)的自动求导方法,用计算机来 求解带变量的数学表达式
? 变量被看作符号, 不需要代入具体的值 ,输入和输出都是数学表达式;
? 包括基于规则的化简、因式分解、微分、积分、解代数方程、解常微分方程等运算;
? 编译时间长;
? 需要专门的数学计算语言;
? 很难调试;
? 对于深层复合函数,输出的表达式非常冗长,形成表达式膨胀(expression swell);

3、自动微分

? 一种介于数值微分和符号微分之间的方法
????????? 数值微分强调一开始直接代入数值近似求解,而符号微分强调直接对表达式进行求解,最后才代入数值;
????????? 自动微分将符号微分法应用于最基本的算子,比如常数、幂函数、指数函数、对数函数、三角函数等,将其代入数值,保留中间结果,最后再应用于整个函数;
? 灵活性高
????????? 微分求解过程对用户是透明的;
????????? 不需要专门的数学语言和编程;
????????? 采用图的方式进行计算,可以做很多优化;

4、计算图

? 将复合函数分解为一系列基本操作,并以图的形式连接起来;

? 是数学运算的图结构表示,每个非叶子节点代表一个基本操作,每个叶子节点代 表一个输入变量或常量;

实例?:

?

正则化单隐层MLP计算图:??

?

?5、静态计算图、动态计算图

在当前深度学习框架中,Theano和Tensorflow采用的是静态计算图, 而DyNet、Chainer和PyTorch采用的是动态计图。Tensorflow 2.0 也开始支持动态计算图。
? 静态计算图(Static Computational Graph)
????????? 在编译时构建计算图,构建好后在程序运行时不能改变
????????? 在构建时可以进行优化、并行能力强
????????? 灵活性较差
? 动态计算图(Dynamic Computational Graph)
????????? 在程序运行时动态构建计算图
????????? 不容易优化,当不同输入所使用的网络结构不一样时,难以并行计算
????????? 灵活性比较高

神经网络参数优化的主要问题

1、非凸优化

? 神经网络的优化问题是一个非凸优化问题
以一个最简单的1-1-1结构的两层网络为例:

其中𝑤1𝑤2为网络参数,𝜎(?)Logistic激活函数。

给定一个样本 1,1 平方误差损失 交叉熵损失 与参数 𝑤 1 𝑤 2 的关系如下图:

2、梯度消失

? 误差在反向传播过程中不断衰减甚至消失?

? 回顾误差反向传播的迭代公式:

?误差在每一层传播时都要乘以该层激活函数的导数。

? 当采用 Sigmoid 型激活函数时,导数为:

?二者的导数的值域都小于或者等于1,在饱和区的导数更接近于0,这就会造成梯度的不断衰减,甚至消失,使得整个网络很难训练。

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-07-21 21:32:47  更:2022-07-21 21:36:05 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 0:22:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码