IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Deep Learning一些基础知识(激活函数、softmax、熵) -> 正文阅读

[人工智能]Deep Learning一些基础知识(激活函数、softmax、熵)

一、激活函数

如果没有激活函数,仅仅是线性函数的组合解决的问题太有限了,碰到非线性问题就束手无策了

1. sigmoid

1.公式:

g ( z ) = 1 1 + e ? z ∈ ( 0 , 1 ) g(z)=\frac{1}{1+e^{?z}} \in {(0,1)} g(z)=1+e?z1?(0,1)

2.导函数:

g ′ ( z ) = e ? z ( 1 + e ? z ) 2 ∈ ( 0 , 1 4 ] g′(z)=\frac{e^{?z}}{(1+e^{?z})^2}\in (0,\frac{1}{4}] g(z)=(1+e?z)2e?z?(0,41?](当且仅当z=0)

3.图像:

横坐标从负无穷到正无穷,纵坐标从0到1

4.应用:

  • 概率分布:根概率的取值范围在 [ 0 , 1 ] [0, 1] [0,1]之间,Sigmoid函数的 ( 0 , 1 ) (0, 1) (0,1)区间的输出和概率分布的取值范围 [ 0 , 1 ] [0, 1] [0,1]契合。因此可以利用Sigmoid函数将输出转译为概率值的输出。这也是Logistic(逻辑回归)使用Sigmoid函数的原因之一;
  • 信号强度(门控强度):LSTM、GRU相比于RNN最大的特点就是加入了门控制,通过门来控制是否允许记忆通过,而Sigmoid函数还能够代表门控值(Gate)的强度,当Sigmoid输出1的时候代表当前门控全部开放(允许全部记忆通过),当Sigmoid输出0的时候代表门控关闭(不允许任何记忆通过)。

5.缺点:

  • (第一条我暂时不懂)Sigmoid的输出都是正值,会对梯度更新造成一定的捆绑效果。首先要纠正自己,求梯度反向传播计算,是损失函数 y y y分别对参数(从上一层的输出到下一层输入的权重,把 参数+激活后的输出 算作一层) w 1 , 1 , . . . , w n , m ? 1 , w n , m w_{1,1},...,w_{n,m-1},w_{n,m} w1,1?,...,wn,m?1?,wn,m?链式求导然后按学习率更新(我这里很久没看基础了居然以为是对x求导,好菜好菜)。
  • 计算求解的时候计算量较大,相对来说会比较耗时。这其实很好理解,因为观察Sigmoid激活函数表达式会发现其中有幂函数参与了运算。
  • 对于Sigmoid激活函数最致命的缺点就是容易发生梯度弥散(Gradient vanishing)现象(当然也可能会发生梯度爆炸Exploding gradient,前面层的梯度通过模型训练变的很大,由于反向传播中链式法则的原因,导致后面层的梯度值会以指数级增大。但是在Sigmoid激活函数中梯度保障发生的概率非常小),所谓梯度弥散故名思议就是梯度值越来越小。在深度学习中,梯度更新是从后向前更新的,这也就是所谓的反向传播(Backpropagation algorithm),而反向传播的核心是链式法则。如果使用Sigmoid激活函数,训练的网络比较浅还比较好,但是一旦训练较深的神经网络,会导致每次传过来的梯度都会乘上小于1的值,多经过几层之后,梯度就会变得非常非常小(逐渐接近于0),梯度因此消失了,对应的参数得不到更新。因此使用Sigmoid激活函数,随着神经网络层数的增加,会出现靠近输出的层参数更新幅度比较大,而靠近输入的层参数更新幅度比较小。因而使用Sigmoid激活函数容易出现梯度弥散的现象,无法完成深层网路的训练;即梯度消失

参考文献:
[1]反向传播计算
[2]深度学习中常用激活函数

二、softmax

参考文献:某乎讲解Softmax高赞

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-12 16:36:04  更:2021-08-12 16:37:38 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/12 1:35:45-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码