IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> MMLSpark+Spark:pyspark+lightGBM应用实践 -> 正文阅读

[大数据]MMLSpark+Spark:pyspark+lightGBM应用实践

MMLSpark?,即?Microsoft Machine Learning for Apache Spark ,是微软开源的一个针对 Apache Spark 的深度学习和数据可视化的库。作为专门为大规模数据处理而设计的快速通用计算引擎,Apache Spark 为用户提供了创建可扩展 ML 的有力平台。新发布的 MMLSpark 能够将诸如深度学习等前沿机器学习技术应用于更大的数据集,并为用户提供能够应对诸如文本、分类数据等多种类型数据的 API , 大大提高数据分析师使用 Apache Spark 的工作效率及实验速度。

?简书链接

lightGBM官网上提示用它可以在Spark上运行lightGBM模型。下面记录一个我的实践过程。

首要条件(环境):scala2.11+spark2.4.0+python3.7。我是pyspark在jupyter上进行实验的。

1.配置好python的pyspark,注意直接安装可能会和spark2.4.0里面的pyspark版本不一致,建议直接将spark里的:

?拷贝进pip的site-package里。同时还需要安装py4j。

2.启动pyspark,尝试过官网的安装mml的方法,没有一个安装成功的,各种问题报错。于是我尝试用pip install mmlspark,发现会安装到一个旧版本的mml,启动pyspark,import mmlspark很多方法都用不了。但是可以在这个地方下载到jar包:然后执行下面的操作,解压jar包把里面的mmlspark文件夹替换至pip site-package里面的mmlspark。替换后即可正常工作。

mmlspark:https://repo1.maven.org/maven2/com/microsoft/ml/spark/mmlspark_2.11/

lightgbmlib:https://repo1.maven.org/maven2/com/microsoft/ml/lightgbm/lightgbmlib/

3.根据官方的实例代码进行测试。示例、数据集可以去kaggle找,因为链接可能连不上去。

能成功运行就代表可以在spark上跑LightGBM了。?

但是注意,应该是要用spark dataframe。通过在pyspark里编写代码运行即可。也可以使用spark-submit来提交py文件到分布式集群里进行运行。

如果是在集群上,同样的方法即可。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-14 10:59:11  更:2021-07-14 10:59:35 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/6 12:21:21-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码