5.6 贝叶斯统计
频率学派的观点是,对于一个概率模型,参数是未知的常量
而贝叶斯学派的观点是,参数是未知的变量,它自身也是遵循某个概率分布的,我们只有它的先验分布,需要根据观察到的数据来进行调整。通常来说,如果我们对参数不具有太多确定性的时候,采用高斯分布作为先验是附加条件最小的分布
频率派的典型就是极大似然估计,本质上是一个优化问题。而贝叶斯派是基于贝叶斯公式(如下),最关键是求分母,这通常是一个求积分问题
p
(
θ
∣
x
(
1
)
,
…
,
x
(
m
)
)
=
p
(
x
(
1
)
,
…
,
x
(
m
)
∣
θ
)
p
(
θ
)
p
(
x
(
1
)
,
…
,
x
(
m
)
)
p\left(\boldsymbol{\theta} \mid x^{(1)}, \ldots, x^{(m)}\right)=\frac{p\left(x^{(1)}, \ldots, x^{(m)} \mid \boldsymbol{\theta}\right) p(\boldsymbol{\theta})}{p\left(x^{(1)}, \ldots, x^{(m)}\right)}
p(θ∣x(1),…,x(m))=p(x(1),…,x(m))p(x(1),…,x(m)∣θ)p(θ)?
贝叶斯派和频率派的两个重要区别
1.
θ
\theta
θ的不确定性
频率派将
θ
\theta
θ??视为一个常数,而贝叶斯派将其视为一个随机变量。频率派是通过评估估计量的方差来评估
θ
\theta
θ??的不确定性,而贝叶斯的方法是积分。
2. 贝叶斯先验分布
先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。贝叶斯派是同时考虑过去的信念和最新的观测来做预测,而频率派则只考虑最新的观测
贝叶斯线性回归
打公式太累。。。就不写了 白板推导系列,强烈推荐,不只是贝叶斯线性回归,up主讲了很多机器学习的数学推导,包括下面的MAP看到这个合集之后我都不想写博客了,讲的太好了。。。
5.6.1 最大后验估计(MAP)
虽然可以利用积分求得贝叶斯公式的分母,但是通常这个积分是不好求的或者计算量很大,于是我们采用极大似然的思想,找到使后验概率最大的参数作为估计,但与极大似然不同的是,最大后验估计仍然考虑了先验概率。事实上,最大后验估计就等价于极大似然估计的正则惩罚。
推导公式也暂时略了,等我平板到了直接手推
|