IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 深度学习学习 -> 正文阅读

[人工智能]深度学习学习

目录

0绪论

0.1深度学习的起源与发展

0.1.1深度学习的起源阶段

0.1.2深度学习的发展阶段

0.1.3深度学习的爆发阶段

0.2深度学习的定义与应用场景

0.2.1深度学习的定义

0.2.2深度学习的应用场景

1深度学习的数学基础

1.1矩阵论相关知识

1.1.1矩阵论基本定义

1.1.2矩阵分解

1.2概率分布与数理统计相关知

1.2.1随机变量

1.2.2常见概率分布

1.2.3多变量概率分布

1.2.4常用统计量

1.3信息论相关知识

1.3.1熵

1.3.2联合熵

1.3.3条件熵

1.3.4互信息

1.3.5相对熵

1.3.6交叉熵

1.4最优化估计

1.4.1最小二乘估计

未完待续。。。


0绪论

0.1深度学习的起源与发展

0.1.1深度学习的起源阶段

(1)1943年,心理学家麦克洛克和数学逻辑学家皮兹发表论文《神经活动中内在思想的逻辑演算》,提出了MP模型。

(2)1949年,加拿大著名心理学家唐纳德赫布在《行为的组织》中提出了一种基于无监督学习的规则————海布学习规则(Hebb Rule)。

(3)20世纪50年代末,在MP模型和海布学习规则的研究基础上,美国科学家罗森布拉特发现了一种类似于人类学习过程的学习算法——感知机学习。并于1958年,正式提出了由两层神经元组成的神经网络,称之为“感知器”。

(4)在1969年,“AI之父”马文·明斯基和LOGO语言的创始人西蒙·派珀特共同编写了一本书籍《感知器》,在书中他们证明了单层感知器无法解决线性不可分问题(例如:异或问题)。

0.1.2深度学习的发展阶段

(1)1982年,著名物理学家约翰·霍普菲尔德发明了Hopfield神经网络。Hopfield神经网络是一种结合存储系统和二元系统的循环神经网络。

(2)1986年,深度学习之父杰弗里·辛顿提出了一种适用于多层感知器的反向传播算法——BP算法。BP算法在传统神经网络正向传播的基础上,增加了误差的反向传播过程。

(3)由于八十年代计算机的硬件水平有限使得BP算法受到了极大限制,以及SVM等其他浅层机器学习算法的提出,在分类回归等问题上取得了不错的效果,人工神经网络的发展再次陷入瓶颈。

0.1.3深度学习的爆发阶段

(1)2006年,杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫正式提出了深度学习的概念。他们在世界顶级学术期刊《科学》发表的一篇文章中详细的给出了“梯度消失”问题的解决方案——通过无监督的学习方法逐层训练算法,再使用有监督的反向传播算法进行调优。

(2)2012年,在著名的ImageNet图像识别大赛中,杰弗里·辛顿领导的小组采用深度学习模型AlexNet一举夺冠。

(3)2014年,Facebook基于深度学习技术的DeepFace项目,在人脸识别方面的准确率已经能达到97%以上,跟人类识别的准确率几乎没有差别。

(4)2016年,随着谷歌公司基于深度学习开发的AlphaGo以4:1的比分战胜了国际顶尖围棋高手李世石,深度学习的热度一时无两。后来,AlphaGo又接连和众多世界级围棋高手过招,均取得了完胜。这也证明了在围棋界,基于深度学习技术的机器人已经超越了人类。

(5)2017年,基于强化学习算法的AlphaGo升级版AlphaGo Zero横空出世。其采用“从零开始”、“无师自通”的学习模式,以100:0的比分轻而易举打败了之前的AlphaGo。

参考资料:深度学习发展史 - 知乎作为机器学习最重要的一个分支,深度学习近年来发展迅猛,在国内外都引起了广泛的关注。然而深度学习的火热也不是一时兴起的,而是经历了一段漫长的发展史。接下来我们了解一下深度学习的发展历程。 1. 深度学习的…https://zhuanlan.zhihu.com/p/34472753

0.2深度学习的定义与应用场景

0.2.1深度学习的定义

(1)定义:一般是指通过训练多层网络结构对未知数据进行分类或回归

(2)分类:分为有监督学习与无监督学习,两者的区别在于有无训练样本,监督学习是在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律,针对数据建模。

0.2.2深度学习的应用场景

(1)图像处理领域:图像分类、物体检测、图像分割、图像回归

(2)语音识别领域:语音识别、声纹识别、语音合成

(3)自然语言处理领域:语音模型、情感分析、神经机器翻译、神经自动摘要、机器阅读理解、自然语言推理

(4)综合应用:图像描述、可视问答、图像生成、视频生成

1深度学习的数学基础

1.1矩阵论相关知识

1.1.1矩阵论基本定义

(1)矩阵:一个二维数组。

(2)张量:是矢量概念的推广,可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。

(3)矩阵的秩:矩阵列向量中的极大线性无关组的数目。

(4)矩阵的逆:

逆矩阵A^{-1}满足以下条件,则称A^{-1}为矩阵A的逆矩阵:?

A^{-1}A=AA^{-1}=I_{n}

其中?I_{n}?是?n×n 的单位阵。

(5)矩阵的广义逆矩阵:对于矩阵A,如果存在矩阵?B 使得?ABA=A,则称?B?为?A?的广义逆矩阵。

(6)特征值与特征向量:若矩阵A为方阵,则存在非零向量x和常数λ?满足Ax=λx,则称aλ?为矩阵A?的一个特征值,x为矩阵A关于λ的特征向量。

(7)矩阵的迹:

tr\left ( A \right )=\sum_{i=1}^{n}\lambda _{i}

(8)行列式的值:

\left | A \right |=\prod_{i=1}^{n}\lambda _{i}

1.1.2矩阵分解

(1)矩阵特征分解:A_{n*n}的矩阵具有n个不同的特征值,那么矩阵A可以分解为U\sum_{}^{}U^{T}

(2)奇异值分解:对于任意矩阵A_{m*n},存在正交矩阵U_{m*m}V_{n*n},使得其满足A=U\sum V^{T}??U^{T}U=V^{T}V=I,则称上式为矩阵A的特征分解。

1.2概率分布与数理统计相关知

1.2.1随机变量

随机变量(Random variable)是随机事件的数量表现,随机事件数量化的好处是可以用数学分析的方法来研究随机现象。

随机变量通常用概率分布来指定它的每个状态的可能性。

1.2.2常见概率分布

(1)伯努利分布:又称0-1分布,单个二值型离散随机变量的分布

(2)二项分布:二项分布即重复n次伯努利试验,各试验之间都相互独立

(3)均匀分布:均匀分布,又称矩形分布,在给定长度间隔[a,b]内的分布概率是等可能的,均匀分布由参数ab定义

(4)高斯分布:高斯分布,又称正态分布(normal),是实数中最常用的分布,由均值μ和标准差σ决定其分布

(5)指数分布:常用来表示独立随机事件发生的时间间隔

1.2.3多变量概率分布

(1)条件概率:事件X在事件Y发生的条件下发生的概率

(2)联合概率:表示两个事件X和Y共同发生的概率

(3)先验概率:根据以往经验和分析得到的概率,在事件发生前已知,它往往作为“由因求果”问题中的“因”出现

(4)后验分布:指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中 的“因”,后验概率是基于新的信息,修正后来的先验概率所获得 的更接近实际情况的概率估计。

(5)全概率分布:设事件\left \{ A_{i} \right \}是样本空间Ω的一个划分,且P(A_{i})>0(i=1,2,...,n),那么:P(B)=\sum_{i=1}^{n}P(A_{i})P(B|A_{i})

(6)贝叶斯公式:

P(A^{_{i}}|B)=\frac{P(B|A_{i})P(A_{i})}{P(B)}=\frac{P(B|A_{i})P(A_{i})}{\sum_{j=1}^{n}P(A_{j})P(B|A_{j})}

1.2.4常用统计量

(1)方差:用来衡量随机变量与数学期望之间的偏离程度。

(2)协方差:衡量两个随机变量X和Y直接的总体误差

1.3信息论相关知识

1.3.1熵

信息熵,可以看作是样本集合纯度一种指标,也可以认为是样本集合包含的平均信息量。

1.3.2联合熵

两个随机变量X和Y的联合分布可以形成联合熵,度量二维随机变量XY的不确定性:

H(X,Y)=-\sum_{i=1}^{n}\sum_{j=1}^{n}P(x_{i},y_{j})log_{2}P(x_{i},y_{j})

?

1.3.3条件熵

在随机变量X发生的前提下,随机变量Y发生带来的熵,定义为Y的条件熵,用H(Y|X)表示,定义为:

H(Y|X)=\sum_{i=1}^{n}P(x_{i})H(Y|X=x_{i})=-\sum_{i=1}^{n}P(x_{i})\sum_{j=1}^{n}P(y_{j}|x_{i})log_{2}P(y_{j}|x_{i})=-\sum_{i=1}^{n}\sum_{j=1}^{n}P(x_{i},y_{j})log_{2}P(y_{j}|x_{i})

1.3.4互信息

I(X;Y)=H(X)+H(Y)-H(X,Y)

1.3.5相对熵

相对熵又称KL散度,是描述两个概率分布P和Q差异的一种方法,记做D(P||Q)。

1.3.6交叉熵

一般用来求目标与预测值之间的差距,深度学习中经常用到的一类损失函数度量,定义如下:

H(P,Q)=-\sum P(x)logQ(x)

1.4最优化估计

1.4.1最小二乘估计

最小二乘估计又称最小平方法,是一种数学优化方法。它通过最小化误差的平方和寻找数据的最佳函数匹配。最小二乘法经常应用于回归问题,可以方便地求得未知参数,比如曲线拟合、最小化能量或者最大化熵等问题。

未完待续。。。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-18 11:11:49  更:2021-11-18 11:13:39 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 6:06:20-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码