IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 【Spark】Spark训练Lr模型,并保存为Pmml -> 正文阅读

[大数据]【Spark】Spark训练Lr模型,并保存为Pmml

scala版本spark构建的Lr模型:

一、问题背景

??需要构建一个Lr模型来进行物品的Ctr预测。

二、解决方案

??由于我们训练的数据量较多,所以首先考虑采用spark来构建模型并测试训练,这样的效率较高。
??*模型接口详情可以参考spark的scala的API文档:https://spark.apache.org/docs/latest/api/scala/org/apache/spark/index.html,整体代码如下:

import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel}
import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator
import org.apache.spark.ml.feature.{StringIndexer, StringIndexerModel, VectorAssembler}
import org.apache.spark.sql.SparkSession

import org.jpmml.model.JAXBUtil
import org.jpmml.sparkml.PMMLBuilder
import javax.xml.transform.stream.StreamResult

object CargoClinchLR {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().enableHiveSupport().getOrCreate()
	//原始数据字段
    val path = "hdfs://xxxxxxxx"
    //离散特征字段
	val str_col = Array( "start_city_id", "end_city_id", "start_prov_id", "end_prov_id",
      ……)

    val idx_col = for (c <- str_col) yield s"${c}_idx"
    //连续特征字段
    val num_col = Array("weight", "capacity", "distance")
    val data = spark.read.parquet(path).na.fill("unknown").na.replace(str_col, Map("" -> "unknown"))
    //划分训练集和测试集
    val Array(train, test) = data.randomSplit(Array(0.8, 0.2))
	//这里的特征是进行索引编码的,并没进行onehot操作(常规的lr是进行onehot操作)
    val str_idxers = for (c <- str_col)
      yield new StringIndexer().setInputCol(c).setOutputCol(s"${c}_idx").setHandleInvalid("skip").setStringOrderType("frequencyAsc")
	//离散特征向量与连续特征向量的拼接
    val assember = new VectorAssembler().setInputCols(idx_col ++ num_col).setOutputCol("fea")
    //spark中逻辑回归的模型
    val lr = new LogisticRegression().setFeaturesCol("fea").setLabelCol("label")
    val pip = new Pipeline().setStages(str_idxers ++ Array(assember, lr)).fit(train)
	// pip.write.overwrite().save("XXX").  //保存pip模型
    // val sameModel = PipelineModel.load("/home/a1022856/CargoClinch/spark-logistic-regression-model")                 // 模型导入 

	//模型实例化,获取模型参数
    val lr_model = pip.stages.last.asInstanceOf[LogisticRegressionModel]
    //获取模型的权重
    println(lr_model.coefficients)
	
	//相关二分类相应指标统计值
    val summary = lr_model.binarySummary
    val precision = summary.weightedPrecision
    val recall = summary.weightedRecall
    val accuracy = summary.accurac
    val auc = summary.areaUnderROC
    //打印auc参数
    println(s"train_acc =${auc}")
    
    //二分类的模型评估器,以auc作为评估指标
    val eval = new BinaryClassificationEvaluator().setLabelCol("label")
      .setMetricName("areaUnderROC")
    eval.evaluate(pip.transform(test))
    
	val auc = eval.evaluate(pip.transform(test))
    println(s"eval_acc =${auc}")

    // 保存pmml文件,需要下载对应的pmml转换的包
    val input_col = str_col ++ num_col
    val pmml = new PMMLBuilder(data.schema, pip).build()
	JAXBUtil.marshalPMML(pmml, new StreamResult("model"))
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-11 12:28:56  更:2021-08-11 12:30:06 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/18 21:07:52-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码