Datawhale组队学习第27期：集成学习
本次学习的指导老师萌弟的教学视频
本贴为学习记录帖，有任何问题欢迎随时交流~
部分内容可能还不完整，后期随着知识积累逐步完善。
开始时间：2021年7月22日
最新更新：2021年7月22日（Task5 Bagging）

一、Bootstrap抽样

1. 简单描述

设总体 $A$ 服从未知分布 $F$ ，样本 $X=\{x_1, x_2,...x_n\}$ 是 $A$ 的一个样本，而样本 $X$ 服从的抽样分布 $\hat F$ 是 $F$ 的估计。其中， $\phi$ 是分布 $F$ 的一个数字特征， $\psi$ 是统计量 $\hat \phi$ 的抽样分布的数字特征。
目标是用统计量 $\hat \phi=g(X)$ 去估计 $\phi$ 。采用随机模拟的方法估计 $\psi$ ，从而得到统计量的数字特征（如用 $\psi=\sqrt{Var(\bar X)}$ 去计算统计量 $\bar X$ 的标准误），这种方法就称为bootstrap方法。

从 $\hat F$ 中有放回随机地抽取 $B$ 个样本量为 $n$ 的独立样本 $Y^{(b)}$ ， $Y^{(b)}$ 称为bootstrap样本，其中 $b = 1, . . ., B$ 。
每个独立样本 $Y^{(b)}$ 用常规的估计方法计算 $\hat \phi^{(b)}$ 去估计得到总体分布 $F$ 的数字特征 $\phi$ ，可以得到 $B$ 个统计量的数字特征。
$\hat \phi = \{\hat \phi^{(1)}, ...,\hat \phi^{(B)}\}$ 的每个 $\hat \phi^{(b)}$ 都是 $\hat F$ 下的独立同分布样本，同样可以用常规的估计方法计算 $\hat \psi$ 去估计 $\hat F$ 的分布特征 $\psi$ 。
更深入的可以查阅李东风老师的《统计计算》。

??以服从均匀分布的概率从数据集中重复且有放回地抽取新的样本，对每个样本进行训练得到模型（子模型），得到多个子模型的预测值。

整体模型一般采用的是线性组合。
对于分类问题来说，通常采用投票法，可以划分成硬投票和软投票两种方式。
- 硬投票，直接计算预测值出现最多的类
- 软投票，计算所有投票结果中概率加权最大的类。
- 软投票一般比硬投票要好，但要看具体的使用场景。软投票必须是基于概率的模型，能够产生预测值。对于关联规则模型、层次聚类模型等不能使用软投票。
对于回归问题来说，通常是直接计算所有子模型预测值的平均值

调用库：sklearn.ensemble.BaggingClassifier和sklearn.ensemble.BaggingRegressor
随机森林：sklearn.ensemble.RandomForestClassifier和sklearn.ensemble.RandomForestRegressor

推导主要参考本篇文章。
设定基模型为 $f$ ，通过给定样本 $X$ 进行bootstrap抽样，训练出m个基模型。
最终模型是m个基模型的线性组合，记为 $\sum\limits_{i=1}^{m}r_if_i$ ，其中 $r_i$ 为第 $i$ 个模型的权重系数
$f$ 训练的样本来自总体 $X$ ，可以记 $E(f_i)=\mu$ 和 $Var(f_i) = \sigma^2$
$\begin{aligned} E(F) &= E(\sum\limits_{i=1}^{m}r_if_i) \\ &= \sum\limits_{i=1}^{m}r_iE(f_i) \\ Var(F) &= Var(\sum\limits_{i=1}^{m}r_if_i) \\ &= \sum\limits_{i=1}^{m}Var(r_if_i) + \sum\limits_{i \ne j}^{m}cov(r_if_i, r_jf_j) \\ &= \sum\limits_{i=1}^{m}r_i^2Var(f_i) + \sum\limits_{i \ne j}^{m}\rho_{ij}r_ir_j\sqrt{Var(f_i)}\sqrt{Var(f_j)} \\ \end{aligned}$
从bootstrap抽样的步骤可以知道， $F$ 的数字特征可以反应原始数据的数字特征，同时每个 $f_i$ 所接受的样本都是独立的，因此可以得到：
$\begin{aligned} E(F) &= \mu \sum\limits_{i=1}^{m}r_i \\ Var(F) &= \sigma^2\sum\limits_{i=1}^{m}r_i^2 \end{aligned}$

根据偏差与方差理论可以知道，测试误差主要由方差 $V a r$ 和偏差的平方 $Bias^2$ 决定的， $Var(\epsilon)$ 是与任务本身有关，不纳入其中考虑。在本模型中， $E (F)$ 反映 $B i a s$ ，而 $V a r (F)$ 反映 $V a r$ 。
$\begin{aligned} {[\frac{E(F)}{E(f)}]}^2 &= (\sum\limits_{i=1}^{m}r_i)^2 \\ \frac{Var(F)}{Var(f)} &= \sum\limits_{i=1}^{m}r_i^2 \\ {[E(F)-E(f)]}^2 &= (1 - \sum\limits_{i=1}^{m}r_i)^2\mu^2 \\ Var(F)-Var(f) &= (1 - \sum\limits_{i=1}^{m}r_i^2)\sigma^2 \\ \end{aligned}$
相对于基模型而言，Bagging模型能够降低模型的方差，同时也有可能增大模型的偏差。而实际上，Bagging模型中的权重系数之和 $\sum\limits_{i=1}^{m}r_i \approx 1$ ，Bagging模型的 $B i a s$ 会十分接近于基模型的 $B i a s$ ，因此模型 $V a r$ 减少的量会大于 $B i a s$ 增大的量，从而达到减少测试误差（即牺牲偏差来减小测试误差）。

假设Bagging模型将每个基模型的权重系数 $r_i$ 都设为 $\frac{1}{m}$ ，则有：
$\begin{aligned} E(F) &= \mu \sum\limits_{i=1}^{m}\frac{1}{m} \\ &= \mu \\ Var(F) &= \sigma^2\sum\limits_{i=1}^{m}\frac{1}{m^2} \\ &= \frac{1}{m}\sigma^2 \end{aligned}$
显然，此时Bagging模型的 $B i a s$ 取决于基模型的 $B i a s$ ，而Bagging模型的 $V a r$ 要远小于基模型的 $V a r$ ，因此Bagging具有更高的泛化能力。