| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 深度学习学习 -> 正文阅读 |
|
[人工智能]深度学习学习 |
目录 0绪论0.1深度学习的起源与发展0.1.1深度学习的起源阶段(1)1943年,心理学家麦克洛克和数学逻辑学家皮兹发表论文《神经活动中内在思想的逻辑演算》,提出了MP模型。 (2)1949年,加拿大著名心理学家唐纳德赫布在《行为的组织》中提出了一种基于无监督学习的规则————海布学习规则(Hebb Rule)。 (3)20世纪50年代末,在MP模型和海布学习规则的研究基础上,美国科学家罗森布拉特发现了一种类似于人类学习过程的学习算法——感知机学习。并于1958年,正式提出了由两层神经元组成的神经网络,称之为“感知器”。 (4)在1969年,“AI之父”马文·明斯基和LOGO语言的创始人西蒙·派珀特共同编写了一本书籍《感知器》,在书中他们证明了单层感知器无法解决线性不可分问题(例如:异或问题)。 0.1.2深度学习的发展阶段(1)1982年,著名物理学家约翰·霍普菲尔德发明了Hopfield神经网络。Hopfield神经网络是一种结合存储系统和二元系统的循环神经网络。 (2)1986年,深度学习之父杰弗里·辛顿提出了一种适用于多层感知器的反向传播算法——BP算法。BP算法在传统神经网络正向传播的基础上,增加了误差的反向传播过程。 (3)由于八十年代计算机的硬件水平有限使得BP算法受到了极大限制,以及SVM等其他浅层机器学习算法的提出,在分类回归等问题上取得了不错的效果,人工神经网络的发展再次陷入瓶颈。 0.1.3深度学习的爆发阶段(1)2006年,杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫正式提出了深度学习的概念。他们在世界顶级学术期刊《科学》发表的一篇文章中详细的给出了“梯度消失”问题的解决方案——通过无监督的学习方法逐层训练算法,再使用有监督的反向传播算法进行调优。 (2)2012年,在著名的ImageNet图像识别大赛中,杰弗里·辛顿领导的小组采用深度学习模型AlexNet一举夺冠。 (3)2014年,Facebook基于深度学习技术的DeepFace项目,在人脸识别方面的准确率已经能达到97%以上,跟人类识别的准确率几乎没有差别。 (4)2016年,随着谷歌公司基于深度学习开发的AlphaGo以4:1的比分战胜了国际顶尖围棋高手李世石,深度学习的热度一时无两。后来,AlphaGo又接连和众多世界级围棋高手过招,均取得了完胜。这也证明了在围棋界,基于深度学习技术的机器人已经超越了人类。 (5)2017年,基于强化学习算法的AlphaGo升级版AlphaGo Zero横空出世。其采用“从零开始”、“无师自通”的学习模式,以100:0的比分轻而易举打败了之前的AlphaGo。 0.2深度学习的定义与应用场景0.2.1深度学习的定义(1)定义:一般是指通过训练多层网络结构对未知数据进行分类或回归 (2)分类:分为有监督学习与无监督学习,两者的区别在于有无训练样本,监督学习是在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律,针对数据建模。 0.2.2深度学习的应用场景(1)图像处理领域:图像分类、物体检测、图像分割、图像回归 (2)语音识别领域:语音识别、声纹识别、语音合成 (3)自然语言处理领域:语音模型、情感分析、神经机器翻译、神经自动摘要、机器阅读理解、自然语言推理 (4)综合应用:图像描述、可视问答、图像生成、视频生成 1深度学习的数学基础1.1矩阵论相关知识1.1.1矩阵论基本定义(1)矩阵:一个二维数组。 (2)张量:是矢量概念的推广,可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。 (3)矩阵的秩:矩阵列向量中的极大线性无关组的数目。 (4)矩阵的逆: 逆矩阵满足以下条件,则称为矩阵A的逆矩阵:? 其中??是?n×n 的单位阵。 (5)矩阵的广义逆矩阵:对于矩阵A,如果存在矩阵?B 使得?ABA=A,则称?B?为?A?的广义逆矩阵。 (6)特征值与特征向量:若矩阵A为方阵,则存在非零向量x和常数λ?满足Ax=λx,则称aλ?为矩阵A?的一个特征值,x为矩阵A关于λ的特征向量。 (7)矩阵的迹: (8)行列式的值: 1.1.2矩阵分解(1)矩阵特征分解:的矩阵具有n个不同的特征值,那么矩阵A可以分解为。 (2)奇异值分解:对于任意矩阵,存在正交矩阵和,使得其满足??,则称上式为矩阵A的特征分解。 1.2概率分布与数理统计相关知1.2.1随机变量随机变量(Random variable)是随机事件的数量表现,随机事件数量化的好处是可以用数学分析的方法来研究随机现象。 随机变量通常用概率分布来指定它的每个状态的可能性。 1.2.2常见概率分布(1)伯努利分布:又称0-1分布,单个二值型离散随机变量的分布 (2)二项分布:二项分布即重复n次伯努利试验,各试验之间都相互独立 (3)均匀分布:均匀分布,又称矩形分布,在给定长度间隔[a,b]内的分布概率是等可能的,均匀分布由参数a,b定义 (4)高斯分布:高斯分布,又称正态分布(normal),是实数中最常用的分布,由均值μ和标准差σ决定其分布 (5)指数分布:常用来表示独立随机事件发生的时间间隔 1.2.3多变量概率分布(1)条件概率:事件X在事件Y发生的条件下发生的概率 (2)联合概率:表示两个事件X和Y共同发生的概率 (3)先验概率:根据以往经验和分析得到的概率,在事件发生前已知,它往往作为“由因求果”问题中的“因”出现 (4)后验分布:指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中 的“因”,后验概率是基于新的信息,修正后来的先验概率所获得 的更接近实际情况的概率估计。 (5)全概率分布:设事件是样本空间Ω的一个划分,且,那么: (6)贝叶斯公式: 1.2.4常用统计量(1)方差:用来衡量随机变量与数学期望之间的偏离程度。 (2)协方差:衡量两个随机变量X和Y直接的总体误差 1.3信息论相关知识1.3.1熵信息熵,可以看作是样本集合纯度一种指标,也可以认为是样本集合包含的平均信息量。 1.3.2联合熵两个随机变量X和Y的联合分布可以形成联合熵,度量二维随机变量XY的不确定性: ? 1.3.3条件熵在随机变量X发生的前提下,随机变量Y发生带来的熵,定义为Y的条件熵,用H(Y|X)表示,定义为: 1.3.4互信息1.3.5相对熵相对熵又称KL散度,是描述两个概率分布P和Q差异的一种方法,记做D(P||Q)。 1.3.6交叉熵一般用来求目标与预测值之间的差距,深度学习中经常用到的一类损失函数度量,定义如下: 1.4最优化估计1.4.1最小二乘估计最小二乘估计又称最小平方法,是一种数学优化方法。它通过最小化误差的平方和寻找数据的最佳函数匹配。最小二乘法经常应用于回归问题,可以方便地求得未知参数,比如曲线拟合、最小化能量或者最大化熵等问题。 未完待续。。。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 4:19:17- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |