IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> LightGBM -- Light Gradient Boosting Machine -> 正文阅读

[人工智能]LightGBM -- Light Gradient Boosting Machine

在这里插入图片描述

LightGBM 是微软开源的一个基于决策树和XGBoost的机器学习算法。具有分布式和高效处理大量数据的特点。

  • 更快的训练速度,比XGBoost的准确性更高
  • 更低的内存使用率,通过使用直方图算法将连续特征提取为离散特征,实现了惊人的快速训练速度和较低的内存使用率
  • 通过使用按叶分割而不是按级别分割来获得更高精度,加快目标函数收敛速度,并在非常复杂的树中捕获训练数据的底层模式。使用num_leaves和max_depth超参数控制过拟合
  • 支持并行计算、分布式处理和GPU学习

LightGBM的特点

  • XGBoost 使用决策树对一个变量进行拆分,并在该变量上探索不同的切割点(按级别划分的树生长策略)
  • LightGBM 专注于按叶子节点进行拆分,以便获得更好的拟合(按叶划分的树生长策略)

这使得LightGBM 能够快速获得很好的数据拟合,并生成能够替代XGBoost的解决方案。从算法上讲,XGBoost将决策树进行的分割结构作为一个图来计算,使用广度搜索优先(BFS),而LightGBM使用的是深度优先(DFS)

安装

# conda 安装
conda install -c conda-forge lightgbm

# pip安装
python3.6 -m pip install lightgbm

基本使用

训练的过程有很多API接口可以使用, 下面分别说明一些常用API的使用方法和使用示例
https://lightgbm.readthedocs.io/en/v3.3.2/Python-API.html

lightgbm.train

parameters = {
        'learning_rate': 0.05,
        'boosting_type': 'gbdt',
        'objective': 'binary',
        'metrics': classification_metrics,
        'num_leaves': 32,
        'feature_fraction': 0.8,
        'bagging_fraction': 0.8,
        'bagging_freq': 5,
        'seed': 2022,
        'bagging_seed': 1,
        'feature_fraction_seed': 7,
        'min_data_in_leaf': 20,
        'n_jobs': -1,
        'verbose': -1,
    }

lightgbm.train(
	params, 
	train_set, 
	num_boost_round=100, 
	valid_sets=None, 
	valid_names=None, 
	fobj=None, 
	feval=None, 
	init_model=None, 
	feature_name='auto', 
	categorical_feature='auto', 
	early_stopping_rounds=None, 
	evals_result=None, 
	verbose_eval='warn', 
	learning_rates=None, 
	keep_training_booster=False, 
	callbacks=None)
参数说明
params模型训练的超参数, 比如学习率、评价指标等
train_set训练集
num_boost_roundboosting 迭代次数
valid_sets验证集,一般 valid_sets = [valid_set, train_set]
verbose_eval
early_stopping_rounds模型在验证分数停止提升(收敛了)就停止迭代了,early_stopping_rounds 限制一个最小的迭代次数,比如不少于200次
evals_resultstore all evaluation results of all the items in valid_sets, 一般用evals_result 来画loss在迭代过程中的图

使用示例 :lightgbm.train K折交叉验证 Train 二分类模型的过程

import lightgbm as lgb
import numpy as np
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import roc_auc_score, accuracy_score, f1_score, precision_score, recall_score


X_train, X_test = data[~data['label'].isna()], data[data['label'].isna()]
Y_train = X_train['label']
KF = StratifiedKFold(n_splits=5, shuffle=True, random_state=2022)
parameters = {
    'learning_rate': 0.05,
    'boosting_type': 'gbdt',
    'objective': 'binary',
    'metric': 'auc',
    'num_leaves': 32,
    'feature_fraction': 0.8,
    'bagging_fraction': 0.8,
    'bagging_freq': 5,
    'seed': 2022,
    'bagging_seed': 1,
    'feature_fraction_seed': 7,
    'min_data_in_leaf': 20,
    'n_jobs': -1, 
    'verbose': -1,
}
lgb_result = np.zeros(len(X_train))

for fold_, (trn_idx, val_idx) in enumerate(KF.split(X_train.values, Y_train.values)):
    print("fold 5 of {}".format(fold_))
    trn_data = lgb.Dataset(X_train.iloc[trn_idx][features],label=Y_train.iloc[trn_idx])    
    val_data = lgb.Dataset(X_train.iloc[val_idx][features],label=Y_train.iloc[val_idx])
    evaluation_result = {}
    model = lgb.train(
        params=parameters,
        train_set=trn_data,
        num_boost_round=num_round,
        valid_sets=[trn_data, val_data],
        verbose_eval=500,
        early_stopping_rounds=100,  
        evals_result=evaluation_result
    )
        
    lgb_result[val_idx] = model.predict(X_train.iloc[val_idx][features], num_iteration=model.best_iteration)
    model.save_model(f'model/model_{fold_}.txt')

	lgb.plot_metric(evaluation_result, metric=current_metrics)    
    train_predict = model.predict(X_train, num_iteration=model.best_iteration)
    test_predict = model.predict(X_test, num_iteration=model.best_iteration)

    print('Train Precision score: {}'.format(precision_score(Y_train, [1 if i >= 0.5 else 0 for i in train_predict])))
    print('Train Recall score: {}'.format(recall_score(Y_train, [1 if i >= 0.5 else 0 for i in train_predict])))
    print('Train AUC score: {}'.format(roc_auc_score(Y_train, train_predict)))
    print('Train F1 score: {}\r\n'.format(f1_score(Y_train, [1 if i >= 0.5 else 0 for i in train_predict])))

    print('Test Precision score: {}'.format(precision_score(Y_test, [1 if i >= 0.5 else 0 for i in test_predict])))
    print('Test Recall score: {}'.format(recall_score(Y_test, [1 if i >= 0.5 else 0 for i in test_predict])))
    print('Test AUC score: {}'.format(roc_auc_score(Y_test, test_predict)))
    print('Test F1 score: {}'.format(f1_score(Y_test, [1 if i >= 0.5 else 0 for i in test_predict])))

调参

可视化

特征重要性分布lightgbm.plot_importance

lightgbm.plot_importance(booster, ax=None, height=0.2, xlim=None, ylim=None, title='Feature importance', xlabel='Feature importance', ylabel='Features', 
importance_type='auto', max_num_features=None, 
ignore_zero=True, figsize=None, dpi=None, grid=True, precision=3, **kwargs)
lightgbm.plot_importance(model, max_num_features=10)

模型保存 / 模型加载

model = lgb.train(.....)
model.save_model(
	filename, 
	num_iteration=None, 
	start_iteration=0, 
	importance_type='split'
	)
model.save_model(os.path.join(MODEL_PATH, MODEL_NAME), 
	num_iteration=model.best_iteration)
  • 模型加载:lightgbm.Booster实例化
lightgbm.Booster(
	params=None, 
	train_set=None, 
	model_file=None, 
	model_str=None)
def load_model(model_path):
    if not os.path.exists(model_path):
        return None
    try:
        model = lgb.Booster(model_file=model_path)
    except IOError:
        print('Failed to load model, path: ', model_path)
        return None
    return model
  • 另一种方式使用sklearn的 joblib扩展库
    注意:保存的后缀名是.pkl
from sklearn.externals import joblib

# 模型存储
joblib.dump(model, 'model.pkl')

# 模型加载
model= joblib.load('model.pkl')

# 模型预测
Y_pred = model.predict(X_test, num_iteration=model.best_iteration_)

模型转化

参考文档

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-10-17 12:33:42  更:2022-10-17 12:36:11 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 2:36:02-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计