TensorFlow Decision Forests ,是一个基于 Keras 的决策森林 TensorFlow 开源软件库。它旨在于将一些最前沿的决策森林算法(例如,随机森林、GBDT、LambdaMart)以一种易用的方式引入 TensorFlow 中。长时间以来,决策森林一直是建模表格类数据的最前沿机器学习算法。在许多机器学习应用(比如学习排名)中,决策森林都可提供卓越的性能。
分类和决策森林
什么是分类?
- 一个表格数据集
- 其中包含样本(行)和属性(列)
- 一些属性上类别属性,一些属性是数字属性
分类:利用模型通过其他属性预测类别属性。
分类为什么很重要?
什么是模型?
模型:选择(或训练)能够最好的匹配可用观察结果(称为“有标签样本”)的模型。
决策树
- 一种常用模型
- 在树状结构中以分层形式组织而成的一组问题(用绿色标示,也称为决策节点)
- 叶节点(用黄色标示)包含预测结果
- 通常情况下,问题针对的都是单个属性(轴对齐),并且答案都是二元化的(二叉树)
决策树学习
采用贪心策略,一个问题一个问题的生长,以将局部评分函数(例如信息增益、均方误差)最大化。
不断递归,得到一颗决策树:
决策森林
- 对多个决策树的预测结果求和
- 通常包含数百个或数千个决策树
- 相比单个决策树,预测结果往往更准确(但速度更慢)
- 可采用不同算法来一起训练决策树(例如随机森林、梯度提升树、AdaBoost)
TensorFlow决策森林库
- TensorFlow提供一系列决策森林算法
- 易于使用
- 可用使用TensorFlow工具箱
- 支持进阶设置,例如决策森林+神经网络的组合
TF-DF的核心代码: 模型可视化: summary显示模型的各种信息: 和tensorflow其他工具一起使用:
何时使用决策森林?
- 处理表格数据
- 简易性:无需过多调整
- 可解读性
- 速度:包括训练速度和推断速度
|