投票法

基本思路

回归模型：投票法最终的预测结果是多个其他回归模型预测结果的平均值。

分类模型：硬投票法的预测结果是多个模型预测结果中出现次数最多的类别，软投票对各类预测结果的概率进行求和，最终选取概率之和最大的类标签。

原理分析

在理想情况下，投票法的预测效果应当优于任何一个基模型的预测效果。

基模型要满足的条件：

基模型之间的效果不能差别过大。当某个基模型相对于其他基模型效果过差时，该模型很可能成为噪声。
基模型之间应该有较小的同质性。例如在基模型预测效果近似的情况下，基于树模型与线性模型的投票，往往优于两个树模型或两个线性模型。

局限性：对所有模型的处理都是一样的

sklearn应用

VotingRegressor和VotingClassifier

bagging

基本思路

通过不同的采样增加模型的差异性，保证基模型可以服从一定的假设

原理分析

核心：bootstrap自助采样——有放回的从数据集中进行采样

Bagging方法之所以有效，是因为每个模型都是在略微不同的训练数据集上拟合完成的，这又使得每个基模型之间存在略微的差异，使每个基模型拥有略微不同的训练能力。

sklearn应用

BaggingRegressor 与 BaggingClassifier

默认基模型是树模型——决策树模型

信息熵：衡量信息的不确定性的程度
$-\sum{p_ilogp_i}$
条件熵：
$-\sum_{x\in X}p(X=x){H(Y|X=x)}$
信息增益：信息熵与条件熵的差值
$I G = H (Y) ? H (Y ∣ X)$
信息增益IG越大，说明使用该特征划分数据所获得的信息量变化越大，子节点的样本“纯度”越高

随机森林

用于每个决策树训练的样本和构建决策树的特征都是通过随机采样得到的，随机森林的预测结果是多个决策树输出的组合（投票）

作业

1.什么是bootstraps？

在现实问题中，对总体进行多次抽样常常是不方便的甚至是无法实施的，所以就只进行一次抽样得到一个样本，再在这个样本中进行多次有放回地抽样，得到多个“样本的样本”，这样通过统计这些小样本的分布，就能得到总体的估计量（例如方差、标准差等）。

2.bootstraps和bagging的联系

bootstraps是自助采样方法，bagging也叫自助聚合，是采用自助采样方法让学习算法训练多轮，最终的预测结果对于分类问题采用投票方式，对于回归问题采用取平均的方式

3.什么是bagging？

是分别训练几个不同的模型，然后让所有模型表决测试样例的输出，首先使用Bootstrap产生不同的训练数据集，然后再分别基于这些训练数据集得到多个基础分类器，最后通过对基础分类器的分类结果进行组合得到一个相对更优的预测模型。

4.使用bagging与基本分类模型做对比，观察bagging是否相对于基础模型的精度有提高

基本分类模型——决策树

from sklearn.tree import DecisionTreeRegressor
model_1 = DecisionTreeRegressor(max_depth=4)
model_1.fit(X,y)
print("Accuracy:%.3f" % model_1.score(X,y))

Accuracy:0.536

使用bagging

from sklearn.datasets import make_classification
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.ensemble import BaggingClassifier
# define dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=5)
# define the model
model = BaggingClassifier()
# evaluate the model
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
n_scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1, error_score='raise')
# report performance
print('Accuracy: %.3f (%.3f)' % (np.mean(n_scores))