主要是记录下自己格外的思考,具体细节在之后补充
决策树 是一种基本的分类与回归方。
核心是选取划分条件(划分属性) 最终目的样本划分越“纯”越好。
决策树通常有三个步骤:特征选择、决策树的生成、决策树的修剪。
常见决策树算法: ID3决策树 C4.5决策树 CART决策树
剪枝处理
剪枝(pruning)是决策树学习算法对付"过拟合"的主要手段。,为了尽可能正确分类训练样本,有时会造成决策树分支过多,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合。可通过主动去掉一些分支来降低过拟合的风险。
之前的学习内容有提到,欠拟合是相对而言较为容易解决的,而这里正是用来解决过拟合的问题。
预剪枝:就是在建树的过程中剪枝,标准就是没构建一个节点,形成一个 ‘树桩’,用测试集验证一下泛化续班性能,如果泛化性能变好,那么继续,否则剪枝。后剪枝:决策树建好之后,再从叶子节点开始,判断是否需要剪枝。
后剪枝:泛化效果比预剪枝效果好,但是训练时间会长,并且对机器资源的占用也会高,毕竟需要建好一颗完整的树。
Reference
- 《机器学习》 周志华著
- https://blog.csdn.net/jiaoyangwm/article/details/79525237?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162694466416780255258490%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=162694466416780255258490&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2alltop_positive~default-2-79525237.first_rank_v2_pc_rank_v29&utm_term=%E5%86%B3%E7%AD%96%E6%A0%91&spm=1018.2226.3001.4187
|