[人工智能] 【深度学习】数学基础

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【深度学习】数学基础 -> 正文阅读

[人工智能]【深度学习】数学基础

深度学习的主要应用

常用于非结构性数据：文字、音频、图像

图像处理领域主要应用

图像分类(物体识别)：整幅图像的分类或识别
物体检测：检测图像中物体的位置进而识别物体
图像分割：对图像中的特定物体按边缘进行分割
图像回归：预测图像中物体组成部分的坐标

语音识别领域主要应用

语音识别：将语音识别为文字
声纹识别：识别是哪个人的声音
语音合成：根据文字合成特定人的语音

自然语言处理领域主要应用

语言模型：根据之前词预测下一个单词。
情感分析：分析文本体现的情感(正负向、正负中或多态度类型)。
神经机器翻译：基于统计语言模型的多语种互译。
神经自动摘要：根据文本自动生成摘要。
机器阅读理解：通过阅读文本回答问题、完成选择题或完型填空。
自然语言推理：根据一句话(前提)推理出另一句话(结论)。

综合应用

图像描述：根据图像给出图像的描述句子
可视问答：根据图像或视频回答问题
图像生成：根据文本描述生成图像
视频生成：根据故事自动生成视频

数学基础

矩阵

矩阵的广义逆矩阵

如果矩阵不为方阵或者是奇异矩阵，不存在逆矩阵，但是可以计算其广义逆矩阵或者伪逆矩阵；
对于矩阵 $A$ ，如果存在矩阵 $B$ 使得 $A B A = A$ ，则称 $B$ 为$ A$的广义逆矩阵。

矩阵分解

机器学习中常见的矩阵分解有特征分解和奇异值分解。

先提一下矩阵的特征值和特征向量的定义

若矩阵 $A$ 为方阵，则存在非零向量 $x$ 和常数 $\lambda$ 满足 $Ax=\lambda x$ ，则称 $\lambda$ 为矩阵 $A$ 的一个特征值， $x$ 为矩阵 $A$ 关于 $\lambda$ 的特征向量。
$A_{n \times n}$ 的矩阵具有 $n$ 个特征值， $λ_1 ≤ λ_2 ≤ ? ≤ λ_n$ 其对应的n个特征向量为 $𝒖_1，𝒖_2， ? ，𝒖_𝑛$
矩阵的迹(trace)和行列式(determinant)的值分别为

$\operatorname{tr}(\mathrm{A})=\sum_{i=1}^{n} \lambda_{i} \quad|\mathrm{~A}|=\prod_{i=1}^{n} \lambda_{i}$

矩阵特征分解： $A_{n \times n}$ 的矩阵具有 $n$ 个不同的特征值，那么矩阵A可以分解为 $U\Sigma U^{T}$ .

其中 $\Sigma=\left[\begin{array}{cccc}\lambda_{1} & 0 & \cdots & 0 \\ 0 & \lambda_{2} & \cdots & 0 \\ 0 & 0 & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_{n}\end{array}\right] \quad \mathrm{U}=\left[\boldsymbol{u}_{1}, \boldsymbol{u}_{2}, \cdots, \boldsymbol{u}_{n}\right] \quad \left\|\boldsymbol{u}_{i}\right\|_{2}=1$

奇异值分解：对于任意矩阵$ A_{m \times n}$，存在正交矩阵 $U_{m \times m}$ 和 $V_{n \times n}$ ，使其满足 $\Sigma V^{T} \quad U^T U = V^T V = I$ ，则称上式为矩阵 AA 的特征分解。

2.1

概率统计

一些常见分布

在这里插入图片描述

先验概率(Prior probability)：根据以往经验和分析得到的概率，在事件发生前已知，它往往作为“由因求果”问题中的“因”出现。

后验概率(Posterior probability)：指得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“因”，后验概率是基于新的信息，修正后来的先验概率所获得的更接近实际情况的概率估计。

举例说明：一口袋里有3只红球、2只白球，采用不放回方式摸取，求: (1) 第一次摸到红球(记作A)的概率; (2) 第二次摸到红球(记作B)的概率; (3) 已知第二次摸到了红球，求第一次摸到的是红球的概率?

解：(1) $P (A = 1) = 3 / 5$ ，这就是先验概率; (2) $P(A=0)P(B=1|A=0)=\frac{3}{5}\frac{2}{4}+\frac{2}{5}\frac{3}{4} = \frac{3}{5}$ (3) $\frac{P(A = 1)P(B = 1|A = 1)}{P(B = 1)} = \frac{1}{2}$ ，这就是后验概率。

信息论

熵(Entropy)

信息熵，可以看作是样本集合纯度一种指标，也可以认为是样本集合包含的平均信息量。

假定当前样本集合X中第i类样本 $𝑥_𝑖$ 所占的比例为 $P(𝑥_𝑖)(i=1,2,...,n)$ ，则X的信息熵定义为：

$-\sum_{i = 1}^n P(x_i)\log_2P(x_i)$

H(X)的值越小，则X的纯度越高，蕴含的不确定性越少

联合熵

两个随机变量X和Y的联合分布可以形成联合熵，度量二维随机变量XY的不确定性：

$-\sum_{i = 1}^n \sum_{j = 1}^n P(x_i,y_j)\log_2 P(x_i,y_j)$

条件熵

在随机变量X发生的前提下，随机变量Y发生带来的熵，定义为Y的条件熵，用H(Y|X)表示，定义为：

$\sum_{i = 1}^n P(x_i)H(Y|X = x_i) = -\sum_{i = 1}^n P(x_i) \sum_{j = 1}^n P(y_j|x_i)\log_2 P(y_j|x_i) = -\sum_{i = 1}^n \sum_{j = 1}^n P(x_i,y_j) \log_2 P(y_j|x_i)$