2.2 随机向量

若随机变量 $X_{1}, X_{2}, \cdots, X_{n}$ 定义在同一个样本空间 $\Omega$ 上, 则称 $\left(X_{1}, X_{2}, \cdots,\right.$ , $X_{n}$ ) 为一个 $n$ 维随机向量或 $n$ 维随机变量。

我们虽然可以仿照一维随机变量定义多维随机变量的分布函数,但分布函数在多维中意义不大,这里仅给出其定义.

$X=\left(X_{1}, \cdots, X_{n}\right)$ 为一个 $n$ 维随机向量, 对任意实数 $x_{1}, \cdots, x_{n}$ , 称 $n$ 元函数 $F\left(x_{1}, \cdots, x_{n}\right)=P\left(X_{1} \leqslant x_{1}, X_{2} \leqslant x_{2}, \cdots, X_{n} \leqslant x_{n}\right)$ 为随机向量 $X=\left(X_{1}, \cdots, X_{n}\right)$ 的分布函数。

下面介绍连续性随机向量和连续型随机向量的分布.

2.2.1 离散型随机向量的分布

设 $n$ 维随机向量 $X=\left(X_{1}, \cdots, X_{n}\right)$ 的每一个分量 $X_{i}$ 都是一维离散型随机变量, $\cdots, n$ , 则称 $X$ 为离散型的。若 $\left\{a_{i 1}, a_{i 2}, \cdots\right\}$ 为 $X_{i}$ 的全部可能值, 则对 $j_{k}=1,2, \cdots, \quad k=1,2, \cdots, n$ , 概率
$p\left(j_{1}, j_{2}, \cdots, j_{n}\right)=P\left(X_{1}=a_{1 j_{1}}, X_{2}=a_{2 j_{2}}, \cdots, X_{n}=a_{n j_{n}}\right)$
称为随机向量 $X=\left(X_{1}, \cdots, X_{n}\right)$ 的概率函数或概率分布率。

多项分布

多项分布式最重要的离散型多维分布,其定义如下:

设 $A_{1}, A_{2}, \cdots, A_{n}$ 是某一试验之下的完备事件群.现在将试验独立地重复 $N$ 次, 而以 $X_{i}$ 记在这 $N$ 次试验中事件 $A_{i}$ 出现的次数, $\cdots, n$ , 则 $X=\left(X_{1}, \cdots, X_{n}\right)$ 的概率分布为多项分布,记为 $M\left(N ; p_{1}, \cdots, p_{n}\right)$ .

易得其公式为

$P\left(X_{1}=k_{1}, X_{2}=k_{2}, \cdots, X_{n}=k_{n}\right)=\frac{N !}{k_{1} ! k_{2} ! \cdots k_{n} !} p_{1}^{k} p_{2}^{k} \cdots p_{n^{n}}^{k_{n}}$

该公式直观理解就是将 $N$ 个相异物体分成 $n$ 堆, 各堆依次有 $k_{1}, k_{2}, \cdots, k_{n}$ 件,每件物品有 $p_i$ 的概率分到第 $i$ 堆.

2.2.2 连续型随机向量的分布

与离散型随机向量的定义不同, 连续型随机向量不能简单地定义为 “其各分量都是一维连续型随机变量的那种随机向量”.举一个例子:设 $X_{1} \sim$ $R(0,1), X_{2}=X_{1}$ , 则随机向量 $\left(X_{1}, X_{2}\right)$ 的两个分量 $X_{1}, X_{2}$ 都是连续型的.但 $X_1,X_2)$ 只能在单位正方形的对角线上取值,其概率之和必然为0.故不是连续型随机向量.

连续型随机向量的定义如下:

设 $X=\left(X_{1}, \cdots, X_{n}\right)$ 是一个 $n$ 维随机向量.其取值可视为 $n$ 维欧氏空间 $R^{n}$ 中的一个点. 如果 $X$ 的全部取值能充满 $R^{n}$ 中某一区域,则称它是连续型的.

若 $f\left(x_{1}, \cdots, x_{n}\right)$ 是定义在 $R^{n}$ 上的非负函数,使对 $R^{n}$ 中的任何集合 $A$ , 有
$\in A)=\int_{A} \cdots \int f\left(x_{1}, \cdots, x_{n}\right) \mathrm{d} x_{1} \cdots \mathrm{d} x_{n}$
则称 $f$ 是 $X$ 的(概率)密度函数,反应了 $X$ 落在某点 $\left(x_{1}, \cdots, x_{n}\right)$ 的概率大小.

二维正态分布

二维正态分布的概率密度函数如下.该分布记为 $N\left(a, b, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)$

$\begin{aligned} p(x, y)=& \frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \exp \left\{-\frac{1}{2\left(1-\rho^{2}\right)}\left[\left(\frac{x-\mu_{1}}{\sigma_{1}}\right)^{2}\right.\right.\\ &\left.\left.-2 \rho\left(\frac{x-\mu_{1}}{\sigma_{1}}\right)\left(\frac{y-\mu_{2}}{\sigma_{2}}\right)+\left(\frac{y-\mu_{2}}{\sigma_{2}}\right)^{2}\right]\right\} \end{aligned}$

二维正态分布的一个例子为一群人身高和体重的联合分布.

2.2.3 边缘分布

边缘分布说白了就是求随机向量某个分量的分布.

其公式为

$P\left(X_{1}=a_{1 k}\right)=\sum_{j_{2}, \cdots, j_{n}} p\left(k, j_{2}, \cdots, j_{n}\right), k=1,2, \cdots$

$f_{1}\left(x_{1}\right)=\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} f\left(x_{1}, x_{2}, \cdots, x_{n}\right) \mathrm{d} x_{2} \cdots \mathrm{d} x_{n}$

这些公式也可以看作是全概率公式.

例如,对于离散情况,要求 $P(X_1=a_{1k})$ .可以将事件A记为 ${X_1=a_{1k}\}$ ,将事件 $B_i$ 记为 $\{X_2=j_2,\cdots,X_n=j_n\}$ ,穷尽 $j_2,\cdots,j_n$ 的所有取值情况,求该情况下事件 $A$ 发生的条件概率 $p\left(k, j_{2}, \cdots, j_{n}\right)$ ,再累加起来记为事件A发生的概率.
$\begin{aligned} P(A)&=P\left(B_{1}\right) P\left(A \mid B_{1}\right)+P\left(B_{2}\right) P\left(A \mid B_{2}\right)+\cdots \\ &=\sum_{j_{2}, \cdots, j_{n}} p\left(k, j_{2}, \cdots, j_{n}\right) \end{aligned}$
下面给出离散型和连续型的例子.

多项分布的边缘分布

设 $X=\left(X_{1}, \cdots, X_{n}\right)$ 服从多项分布 $M\left(N ; p_{1}, \cdots,\right.$ , $p_{n}$ ), 要求其边缘分布. 例如,考虑 $X_{1}$ , 我们把事件 $A_{1}$ 作为一方, $A_{2}+\cdots+A_{n}$ 作为一方(它就是 $\left.\bar{A}_{1}\right)$ , 那么, $X_{1}$ 就是在 $N$ 次独立试验中,事件 $A_{1}$ 发生的次数,而在每次试验中 $A_{1}$ 发生的概率保持为 $p_{1}$ , 经过这一分析, 不待计算就可以明了: $X_{1}$ 的分布就是二项分布 $B\left(N, p_{1}\right)$ .

陈希孺在书中给出了详细的代数方法的证明过程,但正如陈希孺所说,学学概统更重要的式要形成概率思维,分析各种公式的概率意义和直观意义.所以这里不给出证明.

二维正态分布的边缘分布

若 $\left(X_{1}, X_{2}\right)$ 有二维正态分布 $N\left(a, b, \sigma_{2}^{1}, \sigma_{2}^{2}, \rho\right)$ , 则 $X_{1}$ , $X_{2}$ 的边缘分布分别是一维正态分布 $N\left(a, \sigma_{1}^{2}\right)$ 和 $N\left(b, \sigma_{2}^{2}\right)$ .

二维正态分布揭示了一个有趣的事实:一个随机向量 $X =$ $\left(X_{1}, \cdots, X_{n}\right)$ 的分布 $F$ 足以决定其任一分量 $X_{i}$ 的 $\left(\right.$ 边缘)分布 $F_{i}$ , 但反过来不对: 即使知道了所有 $X_{i}$ 的边缘分布 $F_{i}, i=1, \cdots, n$ , 也足以决定 $X$ 的分布 $F$ .因为同样的 $N\left(a, \sigma_{1}^{2}\right)$ 和 $N\left(b, \sigma_{2}^{2}\right)$ ,有不同的 $\rho$ 取值.

这个现象的解释是:边缘分布只分别考虑了单个变量 $X_{i}$ 的情况,而末涉及它们之间的关系,而这个信息却是包含在 $\left(X_{1}, \cdots, X_{.}\right)$ 的分布之内的,.在二维正态分布中, $\rho$ 这个参数正好刻画了两分量 $X_{1}$ 和 $X_{2}$ 之间的关系.

例如,我们用matlab作图,考察 $N\left(25, 16\right)$ 和 $N\left(25, 64\right)$ 在不同 $\rho$ 下的概率密度.下面三张图展示了 $\rho=0,0.5,-0.5$ 时对应的概率密度.同时我们可以看到, $N\left(a, b, \sigma_{2}^{1}, \sigma_{2}^{2}, \rho\right)$ 的概率密度函数在 $X O Y$ 平面的投影是一个椭圆.