开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 深度学习学习 -> 正文阅读

[人工智能]深度学习学习

0绪论

0.1深度学习的起源与发展

0绪论

0.1深度学习的起源与发展

0.1.1深度学习的起源阶段

（1）1943年，心理学家麦克洛克和数学逻辑学家皮兹发表论文《神经活动中内在思想的逻辑演算》，提出了MP模型。

（2）1949年，加拿大著名心理学家唐纳德赫布在《行为的组织》中提出了一种基于无监督学习的规则————海布学习规则（Hebb Rule）。

（3）20世纪50年代末，在MP模型和海布学习规则的研究基础上，美国科学家罗森布拉特发现了一种类似于人类学习过程的学习算法——感知机学习。并于1958年，正式提出了由两层神经元组成的神经网络，称之为“感知器”。

（4）在1969年，“AI之父”马文·明斯基和LOGO语言的创始人西蒙·派珀特共同编写了一本书籍《感知器》，在书中他们证明了单层感知器无法解决线性不可分问题（例如：异或问题）。

0.1.2深度学习的发展阶段

（1）1982年，著名物理学家约翰·霍普菲尔德发明了Hopfield神经网络。Hopfield神经网络是一种结合存储系统和二元系统的循环神经网络。

（2）1986年，深度学习之父杰弗里·辛顿提出了一种适用于多层感知器的反向传播算法——BP算法。BP算法在传统神经网络正向传播的基础上，增加了误差的反向传播过程。

（3）由于八十年代计算机的硬件水平有限使得BP算法受到了极大限制，以及SVM等其他浅层机器学习算法的提出，在分类回归等问题上取得了不错的效果，人工神经网络的发展再次陷入瓶颈。

0.1.3深度学习的爆发阶段

（1）2006年，杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫正式提出了深度学习的概念。他们在世界顶级学术期刊《科学》发表的一篇文章中详细的给出了“梯度消失”问题的解决方案——通过无监督的学习方法逐层训练算法，再使用有监督的反向传播算法进行调优。

（2）2012年，在著名的ImageNet图像识别大赛中，杰弗里·辛顿领导的小组采用深度学习模型AlexNet一举夺冠。

（3）2014年，Facebook基于深度学习技术的DeepFace项目，在人脸识别方面的准确率已经能达到97%以上，跟人类识别的准确率几乎没有差别。

（4）2016年，随着谷歌公司基于深度学习开发的AlphaGo以4:1的比分战胜了国际顶尖围棋高手李世石，深度学习的热度一时无两。后来，AlphaGo又接连和众多世界级围棋高手过招，均取得了完胜。这也证明了在围棋界，基于深度学习技术的机器人已经超越了人类。

（5）2017年，基于强化学习算法的AlphaGo升级版AlphaGo Zero横空出世。其采用“从零开始”、“无师自通”的学习模式，以100:0的比分轻而易举打败了之前的AlphaGo。

参考资料：深度学习发展史 - 知乎作为机器学习最重要的一个分支，深度学习近年来发展迅猛，在国内外都引起了广泛的关注。然而深度学习的火热也不是一时兴起的，而是经历了一段漫长的发展史。接下来我们了解一下深度学习的发展历程。 1. 深度学习的…https://zhuanlan.zhihu.com/p/34472753

0.2深度学习的定义与应用场景

0.2.1深度学习的定义

（1）定义：一般是指通过训练多层网络结构对未知数据进行分类或回归

（2）分类：分为有监督学习与无监督学习，两者的区别在于有无训练样本，监督学习是在训练集中找规律，而对测试样本使用这种规律。而非监督学习没有训练集，只有一组数据，在该组数据集内寻找规律，针对数据建模。

0.2.2深度学习的应用场景

（1）图像处理领域：图像分类、物体检测、图像分割、图像回归

（2）语音识别领域：语音识别、声纹识别、语音合成

（3）自然语言处理领域：语音模型、情感分析、神经机器翻译、神经自动摘要、机器阅读理解、自然语言推理

（4）综合应用：图像描述、可视问答、图像生成、视频生成

1深度学习的数学基础

1.1矩阵论相关知识

1.1.1矩阵论基本定义

（1）矩阵：一个二维数组。

（2）张量：是矢量概念的推广，可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。

（3）矩阵的秩：矩阵列向量中的极大线性无关组的数目。

（4）矩阵的逆：

逆矩阵 $A^{-1}$ 满足以下条件，则称 $A^{-1}$ 为矩阵A的逆矩阵：?

$A^{-1}A=AA^{-1}=I_{n}$

其中? $I_{n}$ ?是?n×n 的单位阵。

（5）矩阵的广义逆矩阵：对于矩阵A，如果存在矩阵?B 使得?ABA=A，则称?B?为?A?的广义逆矩阵。

（6）特征值与特征向量：若矩阵A为方阵，则存在非零向量x和常数λ?满足Ax=λx，则称aλ?为矩阵A?的一个特征值，x为矩阵A关于λ的特征向量。

（7）矩阵的迹：

$tr\left ( A \right )=\sum_{i=1}^{n}\lambda _{i}$

（8）行列式的值：

$\left | A \right |=\prod_{i=1}^{n}\lambda _{i}$

1.1.2矩阵分解

（1）矩阵特征分解： $A_{n*n}$ 的矩阵具有n个不同的特征值，那么矩阵A可以分解为 $U\sum_{}^{}U^{T}$ 。

（2）奇异值分解：对于任意矩阵 $A_{m*n}$ ，存在正交矩阵 $U_{m*m}$ 和 $V_{n*n}$ ，使得其满足 $A=U\sum V^{T}$ ?? $U^{T}U=V^{T}V=I$ ，则称上式为矩阵A的特征分解。

1.2概率分布与数理统计相关知

1.2.1随机变量

随机变量(Random variable)是随机事件的数量表现，随机事件数量化的好处是可以用数学分析的方法来研究随机现象。

随机变量通常用概率分布来指定它的每个状态的可能性。

1.2.2常见概率分布

（1）伯努利分布：又称0-1分布，单个二值型离散随机变量的分布

（2）二项分布：二项分布即重复n次伯努利试验，各试验之间都相互独立

（3）均匀分布：均匀分布，又称矩形分布，在给定长度间隔[a,b]内的分布概率是等可能的，均匀分布由参数a，b定义

（4）高斯分布：高斯分布，又称正态分布(normal)，是实数中最常用的分布，由均值μ和标准差σ决定其分布

（5）指数分布：常用来表示独立随机事件发生的时间间隔

1.2.3多变量概率分布

（1）条件概率：事件X在事件Y发生的条件下发生的概率

（2）联合概率：表示两个事件X和Y共同发生的概率

（3）先验概率：根据以往经验和分析得到的概率，在事件发生前已知，它往往作为“由因求果”问题中的“因”出现

（4）后验分布：指得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“因”，后验概率是基于新的信息，修正后来的先验概率所获得的更接近实际情况的概率估计。

（5）全概率分布：设事件 $\left \{ A_{i} \right \}$ 是样本空间Ω的一个划分，且 $P(A_{i})>0(i=1,2,...,n)$ ,那么： $P(B)=\sum_{i=1}^{n}P(A_{i})P(B|A_{i})$

（6）贝叶斯公式：

$P(A^{_{i}}|B)=\frac{P(B|A_{i})P(A_{i})}{P(B)}=\frac{P(B|A_{i})P(A_{i})}{\sum_{j=1}^{n}P(A_{j})P(B|A_{j})}$

1.2.4常用统计量

（1）方差：用来衡量随机变量与数学期望之间的偏离程度。

（2）协方差：衡量两个随机变量X和Y直接的总体误差

1.3信息论相关知识

1.3.1熵

信息熵，可以看作是样本集合纯度一种指标，也可以认为是样本集合包含的平均信息量。

1.3.2联合熵

两个随机变量X和Y的联合分布可以形成联合熵，度量二维随机变量XY的不确定性：

$H(X,Y)=-\sum_{i=1}^{n}\sum_{j=1}^{n}P(x_{i},y_{j})log_{2}P(x_{i},y_{j})$

1.3.3条件熵

在随机变量X发生的前提下，随机变量Y发生带来的熵，定义为Y的条件熵，用H(Y|X)表示，定义为：

$H(Y|X)=\sum_{i=1}^{n}P(x_{i})H(Y|X=x_{i})=-\sum_{i=1}^{n}P(x_{i})\sum_{j=1}^{n}P(y_{j}|x_{i})log_{2}P(y_{j}|x_{i})=-\sum_{i=1}^{n}\sum_{j=1}^{n}P(x_{i},y_{j})log_{2}P(y_{j}|x_{i})$

1.3.4互信息

$I(X;Y)=H(X)+H(Y)-H(X,Y)$

1.3.5相对熵

相对熵又称KL散度，是描述两个概率分布P和Q差异的一种方法，记做D(P||Q)。

1.3.6交叉熵

一般用来求目标与预测值之间的差距，深度学习中经常用到的一类损失函数度量，定义如下：

$H(P,Q)=-\sum P(x)logQ(x)$

1.4最优化估计

1.4.1最小二乘估计

最小二乘估计又称最小平方法，是一种数学优化方法。它通过最小化误差的平方和寻找数据的最佳函数匹配。最小二乘法经常应用于回归问题，可以方便地求得未知参数，比如曲线拟合、最小化能量或者最大化熵等问题。

未完待续。。。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-11-18 11:11:49 更:2021-11-18 11:13:39

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/16 9:18:14-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码