最典型的Bagging算法: “随机”是其核心,“森林”意在说明它是通过组合多棵决策树来构建模型。
主要特点:
应用场景广泛:例如市场营销、股票市场分析、金融欺诈检测、基因组数据 分析和疾病风险预测
算法流程
假设单棵决策树的方差
σ
2
(
x
)
{\sigma}^{2}(\boldsymbol{x})
σ2(x),任意两颗决策树之间的相关性为
ρ
(
x
)
\rho(\boldsymbol{x})
ρ(x),随机森林由
T
T
T课决策树组成,则集成的随机森林模型的方差为:
var
?
(
x
)
=
ρ
(
x
)
σ
2
(
x
)
+
1
?
ρ
(
x
)
T
σ
2
(
x
)
\operatorname{var}(\boldsymbol{x})=\rho(\boldsymbol{x}) \sigma^{2}(\boldsymbol{x})+\frac{1-\rho(\boldsymbol{x})}{T}{\sigma}^{2}(\boldsymbol{x})
var(x)=ρ(x)σ2(x)+T1?ρ(x)?σ2(x) 右边一项,随着
T
T
T的增大,方差会减小,但是因为第一项的限制,
T
T
T过大方差反而会上升,为了摆脱第一项的限制,要尽可能降低决策树之间的相关性
ρ
(
x
)
\rho(\boldsymbol{x})
ρ(x)
|