开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习-白板推导学习笔记-2高斯分布 -> 正文阅读

[人工智能]机器学习-白板推导学习笔记-2高斯分布

?本篇文章是根据视频（?link.）所作的学习笔记，旨在对机器学习的相关知识更好的理解和巩固。本人基础较弱，推导中看不懂的公式可能会细究，如果有理解不当之处也欢迎指出。

一维高斯分布

设Data为 $X=(x_{1},x_{2},...x_{N})$ ，且服从高斯分布，即 $x_{i}\sim N(\mu ,\sigma ^{2})$ 。对应的概率密度函数为：

$P(X)=\frac{1}{\sqrt{2\pi }\sigma }exp[-\frac{(x-\mu )^{2}}{2\sigma ^{2}}]$

?为了对参数 $(\mu ,\sigma ^{2})$ 进行更好的估计，将概率密度函数进一步展开：

$Log P(X|\theta )\\=Log\prod_{i=1}^{N}P(x_{i}|\theta )\\ =\sum_{i=1}^{N}LogP(x_{i}|\theta )\\ =\sum_{i=1}^{N}Log\frac{1}{\sqrt{2\pi }\sigma }exp[-\frac{(x-\mu )^{2}}{2\sigma ^{2}}]\\ =\sum_{i=1}^{N}[Log\frac{1}{\sqrt{2\pi }}+Log\frac{1}{\sigma }-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}]$

?求解参数 $(\mu ,\sigma ^{2})$ 时，往往是求其极值。利用求偏导等于0。对于参数 $\mu$ ：

$\frac{\partial P}{\partial \mu }=\frac{\partial \sum_{i=1}^{N}[-\frac{(x^{i}-\mu )^{2}}{2\sigma ^{2}}]}{\partial \mu }=\sum_{i=1}^{N}(\mu -x_{i})=0$

$\sum_{i=1}^{N}\mu=\sum_{i=1}^{N}x_{i}$

$\: \: \: \: \mu =\frac{1}{N}\sum_{i=1}^{N}x_{i}$

?对于参数 $\sigma ^{2}$ ：

$\frac{\partial P}{\partial \sigma }=\frac{\partial \sum_{i=1}^{N}[Log\frac{1}{\sigma } -\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}]}{\partial \sigma }=\sum_{i=1}^{N}[-\frac{1}{\sigma }-\frac{(x_{i}-\mu )^{2}}{2}\cdot (-2)\cdot \sigma ^{-3}]=0$

$\sum_{i=1}^{N}\frac{1}{\sigma }=\sum_{i=1}^{N}(x_{i}-\mu )^{2}\cdot \sigma ^{-3}\\$

$\sum_{i=1}^{N}\sigma ^{2}=\sum_{i=1}^{N}(x_{i}-\mu )^{2}$

$\therefore \: \: \sigma _{MLE}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu _{MLE})^{2}$

?无偏和有偏

通常，被估计量的数学期望如果等于被估参数的真实值，则称为无偏估计；反之，称为有偏估计。下面来分析高斯分布中利用极大似然估计MLE出的参数 $(\mu ,\sigma ^{2})$ 是有无误差：

$E[\mu _{MLE}]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}]=\frac{1}{N}\sum_{i=1}^{N}E[x_{i}]=\frac{1}{N}\sum_{i=1}^{N}\mu =\mu$

$E[\sigma _{MLE}^{2}]=E[\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu _{MLE})^{2}]=\frac{N-1}{N}\sigma ^{2}$

?通过上面两个公式可以得到，对于参数 $\mu$ ，得到的是无偏估计；而对于参数 $\sigma ^{2}$ 得到的有偏估计，估计小了。

多维高斯分布

（这里没听太明白，只把一些结论记录下来）

当数据服从p维高斯分布时，参数 $\mu$ 和 $\sigma ^{2}$ 不再是一个单数的数，而是矩阵的形式。

例 $X\sim N(\mu ,\Sigma )$ ，其中 $\mu =(\mu _{1},\mu _{2},...,\mu _{p})^{T}$ ， $\Sigma =\begin{bmatrix} \sigma _{11}& \sigma _{12}& ...& \sigma _{1p} \\ \sigma _{21}& \sigma _{22}& ...& \sigma _{2p} \\ ...& ...& ...& ...\\ \sigma _{p1}& \sigma _{p2} & ...& \sigma _{pp} \end{bmatrix}_{p\times p}$ ，对应的概率密度函数为：