IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Pyspark特征工程--StringIndexer -> 正文阅读

[大数据]Pyspark特征工程--StringIndexer

StringIndexer转换器可以把一列类别型的特征(或标签)进行编码,使其数值化。

? 索引的范围从0开始,该过程可以使得相应的特征索引化,使得某些无法接受类别型特征的算法可以使用。

并提高诸如决策树等机器学习算法的效率。

? 索引构建的顺序为标签的频率,优先编码频率较大的标签,所以出现频率最高的标签为0号。
如果输入的是数值型的,我们会把它转化成字符型,然后再对其进行编码。

? 返回的新列的类型为:double

代码如下:

01.生成对象

#%%
from pyspark.sql import SparkSession
from pyspark.ml.feature import StringIndexer
spark = SparkSession.builder.config("spark.driver.host","192.168.1.4")\
    .config("spark.ui.showConsoleProgress","false")\
    .appName("StringIndexerT").master("local[*]").getOrCreate()

02.模拟数据

from pyspark.sql.types import Row
data = spark.createDataFrame([
    Row("hadoop"),
    Row("spark"),
    Row("flink"),
    Row("kafka"),
    Row("java"),
    Row("flink"),
    Row("kafka"),
    Row("python")
],["name"])
data.show()

? 输出结果:

+------+
|  name|
+------+
|hadoop|
| spark|
| flink|
| kafka|
|  java|
| flink|
| kafka|
|python|
+------+

03.使用StringIndexer转换器,并查看结果:

stringIndexer = StringIndexer(inputCol=data.columns[0],outputCol="ADD")
model = stringIndexer.fit(data)
outdata = model.transform(data)
outdata.show()

? 输出结果:

+------+---+
|  name|ADD|
+------+---+
|hadoop|3.0|
| spark|4.0|
| flink|0.0|
| kafka|1.0|
|  java|2.0|
| flink|0.0|
| kafka|1.0|
|python|5.0|
+------+---+

04.查看结果的类型:

outdata.printSchema()
spark.stop()

? 输出结果:

root
 |-- name: string (nullable = true)
 |-- ADD: double (nullable = false)
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-03-11 22:17:06  更:2022-03-11 22:19:06 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 9:11:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码