[人工智能] 机器学习中的数学——期望、方差和协方差

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习中的数学——期望、方差和协方差 -> 正文阅读

[人工智能]机器学习中的数学——期望、方差和协方差

函数 $f (x)$ 关于某分布 $P (x)$ 的期望或者期望值是指，当 $x$ 由 $P$ 产生， $f$ 作用于 $x$ 时， $f (x)$ 的平均值。对于离散型随机变量，这可以通过求和得到：
$E_{x \sim P}[f(x)] = \sum_x f(x) P(x)$

对于连续型随机变量可以通过求积分得到：
$E_{x \sim p}[f(x)] = \int_x f(x)p(x)dx$

当概率分布在上下文中指明时，我们可以只写出期望作用的随机变量的名称来进行简化，例如囻 $E_{x}[f(x)]$ 。如果期望作用的随机变量也很明确，我们可以完全不写脚标，就像 $E [f (x)]$ 。默认地，我们假设 $[\cdot]$ 表示对方括号内的所有随机变量的值求平均。类似的，当没有歧义时，我们还可以省略方括号。

期望是线性的，例如：
$E_{x}[\alpha f(x)+\beta g(x)]=\alpha E_{x}[f(x)]+\beta E_{x}[g(x)]$

其中 $=\alpha$ 和 $\beta$ 不依赖于 $x$ 。

方差（ variance）衡量的是当我们对x依据它的概率分布进行采样时，随机变量ⅹ的函数值会呈现多大的差异：
$\mathrm{Var}[f(x)] = E\left[\left(f(x) - E[f(x)]\right)^2\right].$

当方差很小时， $f (x)$ 的值形成的簇比较接近它们的期望值。方差的平方根被称为标准差。

协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度：
$C o v (f (x), g (y)) = E [(f (x) ? E [f (x)]) (g (y) ? E (g (y)))]$

协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很远。如果协方差是正的，那么两个变量都倾向于同时取得相对较大的值。如果协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于取得相对较小的值，反之亦然。其他的衡量指标如相关系数将每个变量的贡献归一化，为了只衡量变量的相关性而不受各个变量尺度大小的影响。

协方差和相关性是有联系的，但实际上是不同的概念。它们是有联系的，因为两个变量如果相互独立那么它们的协方差为零，如果两个变量的协方差不为零那么它们一定是相关的。然而，独立性又是和协方差完全不同的性质。两个变量如果协方差为零，它们之间一定没有线性关系。独立性比零协方差的要求更强，因为独立性还排除了非线性的关系。两个变量相互依赖但具有零协方差是可能的。例如，假设我们首先从区间 $[? 1, 1]$ 上的均匀分布中采样出一个实数 $x$ 。然后我们对一个随机变量 $s$ 进行采样。 $s$ 以 $\frac{1}{2}$ 的概率值为1，否则为-1。我们可以通过令 $y = s x$ 来生成个随机变量 $y$ 。显然， $x$ 和 $y 不$ 是相互独立的，因为 $x$ 完全决定了 $y$ 的尺度。然而， $C o v (x, y) = 0$ 。