| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Spark MLlib简介 -> 正文阅读 |
|
[人工智能]Spark MLlib简介 |
1. Spark MLlib简介1.1 传统MLML利用数据或以往经验,以此优化计算机程序的性能标准。 ?ML强调的3个关键词: 算法、经验、性能。 基于大数据的ML
1.2 Spark 机器学习库MLlib旨在简化ML的工程实践工作。
?MLlib由一些通用的学习算法和工具组成,同时还包括底层的优化原语和高层的流水线API。
从1.2 版本后被分为两个包
? 2.? 机器学习工作流2.1 ML Pipeline 概念2.1.1 DataFrame使用Spark SQL中的DataFrame作为数据集,相比RDD,可以容纳各种数据类型,还包含了schema信息。被ML Pipeline 用来存储源数据,DF的列可以是存储的文本、特征向量、真实标签和预测的标签等。 2.1.2 Transformer?????? 转换器是一种进行DF转换的算法。一个模型就是一个Transformer,它可以把一个不包含预测标签的测试集DF打上标签,转化成另一个包含预测标签的DF。技术上,Transformer实现了一个transform(),通过附加一个或多个列将一个DF转换为另一个DF。 2.1.3 Estimator评估器是学习算法或在训练数据上的训练方法的概念抽象,在Pipeline里通常是被用来操作DF数据并生成一个Transformer。从技术上讲,Estimator实现了一个fit(),接受一个DF并产生一个Transfomer。比如一个RF算法就是一个Estimator,它可以调用fit(),通过训练特征数据而得到一个RF模型。 2.1.4 Parameter被用来设置Transformer或Estimator的参数。 2.1.5 PipeLine工作流将多个阶段连接在一起,形成ML的工作流并获得结果输出。
然后就可以把训练数据集作为输入参数,调用pipeline.fit()来开始以流的方式处理源训练数据,并返回一个PipelineModel,进而被用来预测测试数据的标签。 ?2.2 构建一个ML Pipeline ? ? ? ? ? ? ? ? ? ? 3. 特征抽取、转化和选择4. 分类与回归5. 聚类算法6. 推荐算法7. 机器学习参数调优
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 16:26:39- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |