一.装袋算法 1.概述 (1)概念:
"自举聚集算法/装袋算法"(Bootstrap Aggregating;Bagging)是1种团体学习算法,最初由Leo Breiman于1996年提出.该算法可与其他分
类/回归算法结合,提高其准确率/稳定性并通过降低结果的方差来避免过拟合.其基本想法是分别训练几个不同的模型,然后让各模型对测试样本的
结果进行投票,从而决定最终的预测结果,即进行"模型平均"(Model Averaging)
(2)步骤:
①通过有放回采样从样本集中选出n个样本,得到训练集
②在训练集上建立模型
③重复上述步骤m次,得到m个模型(可以是不同类型的模型,如SVM+C4.5+CART+逻辑回归)
④使用这m个模型对测试样本的结果进行投票表决,从而得到最终的预测结果
二.随机森林 1.概述 (1)概念:
"随机森林"(Random Forest)是1种分类算法,最初由Leo Breiman和Adele Cutler于1995年提出.其基本思想和装袋算法相同,即分别训练
多颗决策树(习惯上,即使使用的不是决策树,也称为随机森林),然后通过投票决定测试样本所属的类别
(2)步骤:
①通过"自助法"(Bootstrapping)从样本集中选出n个样本,得到训练集
②从所有属性中随机选择k个属性
③在训练集上使用上述k个属性建立决策树(通常是CART树)
④重复上述步骤m次,得到m个决策树
⑤使用这m个决策树形成随机森林,通过投票决定测试样本所属的类
|