IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> SparkRdd算子练习 -> 正文阅读

[大数据]SparkRdd算子练习

练习一:

val?rdd?=?sc.parallelize(List("dog","an","cat","an","cat"))

第一步:通过获取rdd中每个元素的长度创建新的rdd1

第二步:通过zip把rdd1和rdd组合创建rdd2

第三步:去重

第四步:输出结果

val rdd = sc.parallelize(List("dog","an","cat","an","cat"))
//第一步:通过获取rdd中每个元素的长度创建新的rdd1
val rdd1 = rdd.map(_.length)
rdd1.collect()
//第二步:通过zip把rdd1和rdd组合创建rdd2
val rdd2 = rdd.zip(rdd1)
rdd2.collect()
//第三步:去重
val rdd3 = rdd2.distinct()
//第四步:输出结果
rdd3.collect()
rdd3.foreach(println)

练习二

val?list?=?List(1,2,3,4,5,6)

要求:

  1. 创建对应的RDD,命名为rdd

  2. 使用map算子,将rdd的数据进行转换操作

?规则如下:

?????????*??????偶数转换成该数的平方

?????????*??????奇数转换成该数的立方

val list = List(1,2,3,4,5,6)
//偶数元素
val rdd1 = rdd.filter(_ % 2 == 0)
rdd1.collect()
//换成平方
val rdd2 = rdd1.map(x=>x*x)
rdd2.collect()
//奇数元素
val rdd3 = rdd.filter(_ % 2 == 1)
rdd3.collect()
//换成立方
val rdd4 = rdd3.map(x=>x*x*x)
//输出
rdd4.collect()

练习三

有一个数组,数组元素为"dog",?"salmon",?"salmon",?"rat",?"elephant"

要求:

  1. 创建对应的RDD

  2. 使用map算子,将rdd的数据进行转换操作

?????????*?规则如下:

?????????*??????将字符串与该字符串的长度组合成一个元组,例如:dog??-->??(dog,3),salmon???-->??(salmon,6)

//第一步:通过获取rdd中每个元素的长度创建新的rdd1
val rdd1 = rdd.map(_.length)
rdd1.collect()
//第二步:通过zip把rdd1和rdd组合创建rdd2
val rdd2 = rdd.zip(rdd1)
rdd2.collect()
//第三步:去重
val rdd3 = rdd2.distinct()
//第四步:输出结果
rdd3.collect()

练习四

有一个words.txt文件,内容如下:

hello,world,hello,spark

good,nice,good,do

要求:

将该文件上传到HDFS下/spark/test目录下,并创建RDD数据集,然后完成以下步骤:

????????第一步:对所给数据创建的rdd切割分词

? ? ? ? 第二步:每个单词计数为1

????????第三步:对相同单词个数进行累加

????????第四步:过滤出单词个数大于一个的

????????第五步:输出结果

//第一步: 将文件加载数据并创建Rdd
val rdd = sc.textFile("/spark/test/word.txt")
//第二步:对所给数据创建的rdd切割分词
val rdd1 = rdd.flatMap(x=>x.split(","))
//第三步:每个单词计数为1
val rdd2 = rdd1.map(x=>(x,1))
//第四步:对相同单词个数进行累加
val rdd3 = rdd2.reduceByKey((a,b)=>a+b)
//第五步:过滤出单词个数大于一个的
val rdd4 = rdd3.map(x=>(x._1,x._2>1))
//第六步:输出结果
rdd4.foreach(println)

练习五

某商店上午卖出10本?spark?书籍,每本50元,4本?Hadoop?书籍,每本40元,下午卖出20本?spark?书籍,每本40元,10本?Hadoop?书籍,每本30元。

现要求求出这两本书这一天销售的平均价格。

数据如下:

spark,10,50

spark,40,25

hadoop,5,40

hadoop,10,25

提示:List(("spark",(10,50)),("hadoop",(5,40)),("hadoop",(10,25)),("spark",(40,25)))

要求:

??????????第一步:通过给定数据通过集合并行化创建rdd

??????????第二步:求出不同书籍一天收入总和以及出售本数??

??????????第三步:求出每本平均售价

? ? ? ? ? 第四步:输出结果

//第一步:通过给定数据通过集合并行化创建rdd
val rdd = sc.parallelize(List(("spark",(10,50)),("hadoop",(4,40)),("hadoop",(10,30)),("spark",(20,40))))
//第二步:求出不同书籍一天收入总和以及出售本数
val rdd1 = rdd.reduceByKey((a,b)=>(a._1*a._2+b._1*b._2,a._1+b._1)) 
//第三步:求出每本平均售价
val rdd2 = rdd1.map(x=>(x._1,x._2._1/x._2._2))    
//输出结果
rdd2.foreach(println)

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-11 12:28:56  更:2021-08-11 12:31:31 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 9:38:54-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码