2. 统计决策和机器学习
基本问题是,对于随机变量
X
∈
R
p
X\in \mathbb{R}^{p}
X∈Rp中的某些观测,我们想获得随机变量
Y
Y
Y的 "最可能 "值。为简单起见,我们假设
Y
Y
Y在
R
\mathbb{R}
R中的实现。我们进一步假设得到的联合概率密度
p
X
,
Y
(
x
,
y
)
p_{X, Y}(x, y)
pX,Y?(x,y)已经给出。
例2.1
X
X
X是一个人的(矢量)图像。 在下面的图2.1中,这个观测表示了一张只包含一个像素的图片,它的灰色程度各不相同。
Y
=
{
1
:
X
?is?picture?of?person?
A
0
:
X
?is?not?
Y= \begin{cases}1: & X \text { is picture of person } \mathrm{A} \\ 0: & X \text { is not }\end{cases}
Y={1:0:?X?is?picture?of?person?AX?is?not??
其目的是预测给定
X
X
X的
Y
Y
Y。如果有个叫
A
\mathrm{A}
A的人,他主要穿着深色衣服
图2.1: 两个离散随机变量
X
X
X和
Y
Y
Y的联合概率分布
有理由认为,事件的各自概率表现为:
p
42
>
p
32
>
p
22
>
p
12
p_{42}>p_{32}>p_{22}>p_{12}
p42?>p32?>p22?>p12? 和
p
11
>
p
21
>
p
31
>
p
41
p_{11}>p_{21}>p_{31}>p_{41}
p11?>p21?>p31?>p41?.
为了确定 "最可能 "的含义,我们考虑平方损失函数
1
{ }^{1}
1
1
{ }^{1}
1 注意,其他损失函数也是可能的,而且也确实有意义,选择平方距离只是出于方便的原因。
L
(
Y
,
f
(
X
)
)
=
(
Y
?
f
(
X
)
)
2
.
(2.1)
L(Y, f(X))=(Y-f(X))^{2} .\tag{2.1}
L(Y,f(X))=(Y?f(X))2.(2.1)
我们要选择
f
f
f,使损失函数的预期值,即所谓的预期预测误差
EPE
?
(
f
)
=
E
[
L
(
Y
,
f
(
X
)
)
]
\operatorname{EPE}(f)=\mathbb{E}[L(Y, f(X))]
EPE(f)=E[L(Y,f(X))] 是最小的。使用第1.2小节中描述的工具进行简单计算,可以得到
EPE
?
(
f
)
=
E
[
L
(
Y
,
f
(
X
)
)
]
=
E
[
(
Y
?
f
(
X
)
)
2
]
=
∫
R
p
×
R
(
y
?
f
(
x
)
)
2
p
X
,
Y
(
x
,
y
)
d
x
?
d
y
=
=
∫
R
p
∫
R
(
y
?
f
(
x
)
)
2
p
Y
∣
X
=
x
(
y
)
d
y
?
=
:
E
Y
∣
X
=
x
[
(
Y
?
f
(
X
)
)
2
]
p
X
(
x
)
d
x
=
E
X
E
Y
∣
X
=
x
[
(
Y
?
f
(
X
)
)
2
]
\begin{aligned} \operatorname{EPE}(f) &=\mathbb{E}[L(Y, f(X))]=\mathbb{E}\left[(Y-f(X))^{2}\right]\\&=\int_{\mathbb{R}^{p} \times \mathbb{R}}(y-f(x))^{2} p_{X, Y}(x, y) \mathrm{d} x \mathrm{~d} y=\\ &=\int_{\mathbb{R}^{p}} \underbrace{\int_{\mathbb{R}}(y-f(x))^{2} p_{Y \mid X=x}(y) \mathrm{d} y}_{=: \mathbb{E}_{Y \mid X=x}\left[(Y-f(X))^{2}\right]}{p_{X}}(x) \mathrm{d} x \\ &=\mathbb{E}_{X} \mathbb{E}_{Y \mid X=x}\left[(Y-f(X))^{2}\right] \end{aligned}
EPE(f)?=E[L(Y,f(X))]=E[(Y?f(X))2]=∫Rp×R?(y?f(x))2pX,Y?(x,y)dx?dy==∫Rp?=:EY∣X=x?[(Y?f(X))2]
∫R?(y?f(x))2pY∣X=x?(y)dy??pX?(x)dx=EX?EY∣X=x?[(Y?f(X))2]? 因此
f
(
X
)
=
a
r
g
min
?
c
E
Y
∣
X
=
x
[
(
Y
?
c
)
2
]
f(X)=\underset{c}{arg\min }\mathbb{E}_{Y \mid X=x}\left[(Y-c)^{2}\right]
f(X)=cargmin?EY∣X=x?[(Y?c)2]。由于
E
[
?
]
\mathbb{E}[\cdot]
E[?]的线性,这可简化为
f
(
X
)
=
arg
?
min
?
c
(
E
Y
∣
X
=
x
[
Y
2
]
?
2
c
E
Y
∣
X
=
x
[
Y
]
+
c
2
)
.
(2.2)
f(X)=\underset{c}{\arg \min }\left(\mathbb{E}_{Y \mid X=x}\left[Y^{2}\right]-2 c \mathbb{E}_{Y \mid X=x}[Y]+c^{2}\right) . \tag{2.2}
f(X)=cargmin?(EY∣X=x?[Y2]?2cEY∣X=x?[Y]+c2).(2.2)
二次方项很容易被最小化,最优值为
f
(
X
)
=
E
Y
∣
X
=
x
[
Y
]
.
(2.3)
f(X)=\mathbb{E}_{Y \mid X=x}[Y] . \tag{2.3}
f(X)=EY∣X=x?[Y].(2.3)
定理2.2
在给定
X
X
X的情况下,如果最佳预测是以损失的平方来衡量的,对
Y
Y
Y的最佳预测是条件平均数。
如上所述,条件平均数作为最佳预测依赖于我们使用平方损失作为质量测量的事实。我们可以证明,如果我们采用绝对值
∣
Y
?
f
(
X
)
∣
|Y-f(X)|
∣Y?f(X)∣作为损失函数–所谓的
?
1
\ell_{1}
?1?损失,最佳预测是条件中值。虽然这个声明的严格证明超出了本讲义的范围,但我们可以很容易地看到,中位数是经验
?
1
\ell_{1}
?1?损失最小化的最佳值
arg
?
min
?
c
1
n
∑
i
∣
y
i
?
c
∣
.
(2.4?)
\underset{c}{\arg \min } \frac{1}{n} \sum_{i}\left|y_{i}-c\right| . \tag{2.4 }
cargmin?n1?i∑?∣yi??c∣.(2.4?)
我们只需要一个非光滑凸优化的结果,即对于有子梯度的凸函数,当且仅当
c
?
c^{*}
c?处的子梯度包含0时,才能实现
c
?
c^{*}
c?的最小值。在我们的例子中,经验
?
1
\ell_{1}
?1?损失相对于
c
c
c的子梯度是
1
n
∑
i
sign
?
(
y
i
?
c
)
\frac{1}{n} \sum_{i} \operatorname{sign}\left(y_{i}-c\right)
n1?∑i?sign(yi??c)对于
c
≠
y
i
c \neq y_{i}
c?=yi? 与
{
1
n
∑
i
≠
j
sign
?
(
y
i
?
c
)
+
t
∣
?
1
≤
t
≤
1
}
\left\{\frac{1}{n} \sum_{i \neq j} \operatorname{sign}\left(y_{i}-c\right)+t \mid-1 \leq t \leq 1\right\}
{n1?∑i?=j?sign(yi??c)+t∣?1≤t≤1} 对于
c
=
y
j
c=y_{j}
c=yj?。因此,我们看到,只有当小于
c
c
c的
y
i
y_{i}
yi?的数量与大于c的
y
i
y_{i}
yi?的数量相同时,
c
c
c处的子梯度才包含零。在奇数
n
n
n的情况下,
c
c
c必须与
y
i
y_{i}
yi?的
(
n
+
1
)
/
2
(n+1)/2
(n+1)/2的最大值相吻合。这正是中位数的定义。
2.1 监督决策的一般设置和泛化误差
让我们从一个更高层次的角度来恢复上述章节的内容。我们引入了一个损失函数,基于训练样本
(
x
i
,
y
i
)
,
i
=
1
,
…
,
N
\left(x_{i}, y_{i}\right), i=1, \ldots, N
(xi?,yi?),i=1,…,N,可以从一个给定的函数类
F
\mathcal{F}
F中学习最佳预测函数
f
f
f。这种方法被称为监督学习方法,因为它们需要一个训练集,其中每个样本
x
i
x_{i}
xi?都有一个相应的
y
i
y_{i}
yi?。一般的问题陈述是:
让
(
X
,
Y
)
∈
R
p
(X, Y)\in \mathbb{R}^{p}
(X,Y)∈Rp中的随机变量,让
F
\mathcal{F}
F是来自
R
p
?
R
\mathbb{R}^{p}\Rightarrow\mathbb{R}
Rp?R中的一类函数。这些函数可以被有限的参数化,例如
Θ
∈
R
M
\Theta \in \mathbb{R}^{M}
Θ∈RM。此外,让
L
:
R
×
R
→
R
0
+
L: \mathbb{R} \times \mathbb{R} \rightarrow \mathbb{R}_{0}^{+}
L:R×R→R0+?是一个损失函数,用来衡量
Y
Y
Y和
f
(
X
)
f(X)
f(X)的偏差。监督下的预测方法的目的是在
f
^
∈
F
\hat{f} \in \mathcal{F}
f^?∈F中找到最小的预期预测误差
E
[
L
(
Y
,
f
(
X
)
]
\mathbb{E}[L(Y, f(X)]
E[L(Y,f(X)]。
事实上,为了建立一个有监督的机器学习方法,我们需要弄清楚三个问题。
-
我们必须指定损失函数
L
L
L。 -
我们必须指定函数类别
F
\mathcal{F}
F。 -
由于在实践中,我们不知道
(
X
,
Y
)
(X, Y)
(X,Y)的联合分布,我们需要训练样本
(
x
i
,
y
i
)
,
i
=
1
,
…
,
N
\left(x_{i}, y_{i}\right), i=1, \ldots, N
(xi?,yi?),i=1,…,N来接近预期预测误差。
所以我们就得到了一个优化问题
f
^
=
arg
?
min
?
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
(2.5)
\hat{f}=\underset{f \in \mathcal{F}}{\arg \min } \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \tag{2.5}
f^?=f∈Fargmin?N1?i=1∑N?L(yi?,f(xi?))(2.5)
这些优化问题或多或少都很难解决,但原则上,它们可以以上述形式送入优化工具箱。
例子:线性回归 对于线性回归,我们选择
L
L
L为二次损失,即
L
(
Y
,
f
(
X
)
)
=
(
Y
?
f
(
X
)
)
2
L(Y, f(X))=(Y-f(X))^{2}
L(Y,f(X))=(Y?f(X))2,我们选择
F
\mathcal{F}
F为仿射函数
f
(
x
)
=
θ
0
+
∑
k
=
1
p
θ
k
x
(
k
)
,
(2.6)
f(x)=\theta_{0}+\sum_{k=1}^{p} \theta_{k} x^{(k)}, \tag{2.6}
f(x)=θ0?+k=1∑p?θk?x(k),(2.6)
其中
x
(
k
)
x^{(k)}
x(k)是向量
x
x
x的条目。考虑到
N
N
N的训练样本,那么优化问题就是
Θ
^
=
arg
?
min
?
θ
0
,
…
,
θ
p
1
N
∑
i
=
1
N
(
y
i
?
θ
0
?
∑
k
=
1
p
θ
k
x
i
(
k
)
)
2
.
(2.7)
\hat{\Theta}=\underset{\theta_{0}, \ldots, \theta_{p}}{\arg \min } \frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-\theta_{0}-\sum_{k=1}^{p} \theta_{k} x_{i}^{(k)}\right)^{2} . \tag{2.7}
Θ^=θ0?,…,θp?argmin?N1?i=1∑N?(yi??θ0??k=1∑p?θk?xi(k)?)2.(2.7)
定义: 对于一个给定的函数
f
f
f,经验损失和预期损失之间的差异
G
N
(
f
)
=
E
[
L
(
Y
,
f
(
X
)
]
?
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
]
.
(2.8)
G_{N}(f)=\mathbb{E}\left[L(Y, f(X)]-\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)\right]. \tag{2.8}
GN?(f)=E[L(Y,f(X)]?N1?i=1∑N?L(yi?,f(xi?))].(2.8)
被称为
f
f
f的泛化误差。
根据大数定律,我们知道
G
N
G_{N}
GN?在
N
N
N趋于无穷大时趋于0。然而,很多时候训练样本的数量是有限的,此外,收敛的速度高度依赖于
(
X
,
Y
)
(X, Y)
(X,Y)的(未知)概率分布。因此,机器学习的一个目标是以高概率来约束泛化误差。
在实践中,我们使用交叉验证(交叉熵 )来检查
f
f
f与数据的匹配程度。
2.2 k近邻
在实践中,我们面临的问题是我们不知道
X
X
X和
Y
Y
Y的联合分布,因此我们必须估计公式(2.3)中的条件平均值。通常情况下,这将通过给定特定实现
X
X
X的
Y
Y
Y的相对频率来完成。然而,在连续的情况下,问题出现了,即使在许多观测值
(
x
i
,
y
i
)
\left(x_{i}, y_{i}\right)
(xi?,yi?)中,也可能没有
x
i
=
x
x_{i}=x
xi?=x。这个问题可以通过扩大
x
x
x周围的区域并考虑所有
x
i
x_{i}
xi?接近期望的
x
x
x的观测来解决。这就引出了
k
k
k近邻的概念。
图2.2: 给出事件
(
1
,
1
)
,
(
2
,
5
)
,
(
3
,
3
)
,
(
4
,
1
)
,
(
5
,
4
)
(1,1),(2,5),(3,3),(4,1),(5,4)
(1,1),(2,5),(3,3),(4,1),(5,4)的二元分布
(
X
,
Y
)
(X, Y)
(X,Y)。虽然
E
Y
∣
X
=
4
[
Y
]
=
5
\mathbb{E}_{Y\mid X=4}[Y]=5
EY∣X=4?[Y]=5,对3个近邻的平均化提供了
f
^
k
=
3
(
4
)
=
(
2
+
3
+
5
)
/
3
=
10
/
3
\hat{f}_{k=3}(4)=(2+3+5)/3=10/3
f^?k=3?(4)=(2+3+5)/3=10/3。
k
k
k近邻的方法是通过以下方式估计
f
f
f:
f
^
k
(
x
)
=
?average?
(
y
i
∣
x
i
∈
N
k
(
x
)
)
,?
(2.9)
\hat{f}_{k}(x)=\text { average }\left(y_{i} \mid x_{i} \in N_{k}(x)\right) \text {, } \tag{2.9}
f^?k?(x)=?average?(yi?∣xi?∈Nk?(x)),?(2.9)
其中
N
k
(
x
)
N_{k}(x)
Nk?(x)表示
x
x
x的
k
k
k近邻的集合。这里有两个近似值。
-
预期是通过平均数来近似的。 -
在一个点上的条件被某些区域(在该点周围)的条件所近似。
如果
N
N
N是观察值的数量,那么要注意以下几点。如果
N
N
N增加,
x
i
x_{i}
xi?就会接近
x
x
x。此外,如果
k
k
k增加,平均数会趋向于期望值。更确切地说,在联合概率测量的温和条件下,我们有
lim
?
N
,
k
→
∞
,
k
N
→
0
f
^
(
x
)
=
E
Y
∣
X
=
x
[
Y
]
.
(2.10)
\lim _{N, k \rightarrow \infty, \frac{k}{N} \rightarrow 0} \hat{f}(x)=\mathbb{E}_{Y \mid X=x}[Y] . \tag{2.10}
N,k→∞,Nk?→0lim?f^?(x)=EY∣X=x?[Y].(2.10)
然而,样本量
N
N
N通常是有限的,因此样本量是不足够满足条件的。
有两种方法可以克服这个问题。
找到
f
:
[
x
1
?
x
p
]
?
[
s
1
?
s
k
]
f:\left[\begin{array}{c}x_{1} \\ \vdots \\ x_{p} \end{array}\right] \mapsto \left[\begin{array}{c} s_{1}\\ \vdots \\ s_{k} \end{array}\right]
f:????x1??xp???????????s1??sk??????,使
f
f
f保持观测的 "内在 "距离。
2.3 维度诅咒
让
X
∈
R
p
X\in \mathbb{R}^{p}
X∈Rp为随机变量。有几件事需要观察。
首先,
X
X
X的绝对噪声随着特征的数量(即随着
p
p
p)增加,因为噪声在所有维度上都会累积。
第二,估计
X
X
X的密度函数所需的观测值数量随着维度
p
p
p的增加而急剧增加。密度函数通常是借助于一个发生率的相对频率来估计的。作为一个例子,假设在一个一维空间中的
N
N
N观测值需要估计某个密度函数,达到预定的精度。如果观察空间增加到2维,观察的数量必须增加到
N
2
N^{2}
N2的数量才能保持同样的精度。对于3维空间,大约需要
N
3
N^{3}
N3的观测,以此类推。这意味着,为了使密度函数的估计具有相同的精度,所需的测量数量随测量空间的维度呈指数增长。
维度诅咒的一个原因是空空间现象(Scott),它指出高维空间本质上是稀疏的。鉴于数据点均匀地分布在10维单位球体中,一个点离中心的距离超过0.9的概率小于35%。因此,高维分布中的尾部要比一维分布中的尾部重要得多。给定一个高维多变量随机变量,有一个成分位于其分布的尾部,就足以使整个样本位于共同密度函数的尾部。图2.3说明了一维的情况。
图2.3:对于一维随机变量,大多数观测值都在平均值附近。更高维度的情况则不然。
|