开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> spark练习 -> 正文阅读

[大数据]spark练习

Spark练习

任务一：
任务二：
- 1. 创建对应的RDD，命名为rdd
- 2. 使用map算子，将rdd的数据进行转换操作
任务三：
- 1. 创建对应的RDD
- 2. 使用map算子，将rdd的数据进行转换操作
任务四：
任务五：
任务六：
综合案例

任务一：

val rdd= sc.parallelize(List("dog","an","cat","an","cat"))

第一步：通过获取rdd中每个元素的长度创建新的rdd1

val rdd1 =rdd.map(x=>x.length())
rdd1.collect

在这里插入图片描述

第二步：通过zip把rdd1和rdd组合创建rdd2

val rdd2 =rdd.zip(rdd1)
rdd2.collect

在这里插入图片描述

第三步：去重

val rdd3 = rdd2.distinct()
rdd3.collect

在这里插入图片描述

第四步：输出结果

在这里插入图片描述

任务二：

val list = List(1,2,3,4,5,6)

要求：

1. 创建对应的RDD，命名为rdd

val rdd = sc.parallelize(list)

在这里插入图片描述

2. 使用map算子，将rdd的数据进行转换操作

规则如下:
* 偶数转换成该数的平方
* 奇数转换成该数的立方

val rdd1 = rdd.map(x=>if(x%2==0){x*x}else{x*x*x})
rdd1.foreach(println)

在这里插入图片描述

任务三：

有一个数组，数组元素为

“dog”, “salmon”, “salmon”, “rat”, “elephant”

要求：

1. 创建对应的RDD

val rdd = sc.parallelize(array)

在这里插入图片描述

2. 使用map算子，将rdd的数据进行转换操作

     * 规则如下:
     *      将字符串与该字符串的长度组合成一个元组，例如：dog  -->  (dog,3),salmon   -->  (salmon,6)

val rdd1 = rdd.map(x=>(x,x.length()))
rdd1.foreach(println)

在这里插入图片描述

任务四：

有一个words.txt文件，内容如下：
hello,world,hello,spark
good,nice,good,do
要求：
将该文件上传到HDFS下/spark/test目录下，并创建RDD数据集，然后完成以下步骤：

第一步：对所给数据创建的rdd切割分词

val rdd = sc.textFile("/spark/test/words.txt")

在这里插入图片描述

第二步：每个单词计数为1

val rdd1 = rdd.flatMap(x=>x.split(","))
val rdd2 = rdd1.map(x=>(x,1))

在这里插入图片描述

第三步：对相同单词个数进行累加

val rdd3 =rdd2.reduceByKey((a,b)=>a+b)
rdd3.collect

在这里插入图片描述

第四步：过滤出单词个数大于一个的

val rdd4 = rdd3.filter(x=>x._2>1)
rdd4.collect

在这里插入图片描述

第五步：输出结果

在这里插入图片描述

任务五：

某商店上午卖出10本 spark 书籍，每本50元，4本 Hadoop 书籍，每本40元，下午卖出20本 spark 书籍，每本40元，10本 Hadoop 书籍，每本30元。

现要求求出这两本书这一天销售的平均价格。

数据如下：

spark,10,50
spark,40,25
hadoop,5,40
hadoop,10,25

提示：

List((“spark”,(10,50)),(“hadoop”,(4,40)),(“hadoop”,(10,30)),(“spark”,(20,40)))

要求：

第一步：通过给定数据通过集合并行化创建rdd

val list = List(("spark",(10,50)),("hadoop",(4,40)),("hadoop",(10,30)),("spark",(20,40)))
val rdd = sc.parallelize(list)
rdd.foreach(println)

在这里插入图片描述

第二步：求出不同书籍一天收入总和以及出售本数

val rdd1 = rdd.reduceByKey((a,b)=>(a._1*a._2+b._1*b._2,a._1+b._1))
rdd1.collect

在这里插入图片描述

第三步：求出每本平均售价

输出结果

val rdd2 = rdd1.map(x=>(x._1,x._2._1/x._2._2))
rdd2.foreach(println)

在这里插入图片描述

任务六：

List((“Bob”,“spark”),(“Lily”,“hadoop”),(“Candy”,“hive”)，(“Bob”,“hbase”),(“Bob”,“hive”))

第一步：根据姓名对所学书籍分组

第二步：求出每个人的书籍本数

第三步：根据项目排序

第四步：输出结果

综合案例

有一份数据格式如下的文档：
日期，姓名，app,下载渠道，地区，版本号

2017-08-14,Lily,Facebook,360 Shop,NewYork,v1.0
2017-08-14,Bob,Facebook,Amazon Appstore,NewYork,v1.2
2017-08-14,Lily,Facebook,360 Shop,Washington,v1.2
2017-08-14,Lily,Facebook,Google Play Store,Washington,v2.0
2017-08-14,Candy,YouTube,app store,Chicago,v1.8
2017-08-14,Lily,Facebook,Google Play Store,Washington,v2.0
2017-08-14,Candy,YouTube,app store,Chicago,v1.9
2017-08-15,Candy,YouTube,app store,Chicago,v2.0
2017-08-15,Candy,YouTube,app store,Chicago,v2.3
2017-08-15,Lily,Facebook,360 Shop,NewYork,v2.0
2017-08-15,Bob,Facebook,Amazon Appstore,NewYork,v1.2
2017-08-15,Bob,Facebook,Amazon Appstore,NewYork,v1.5
2017-08-15,Candy,YouTube,app store,Chicago,v2.9

需求：不考虑地区，列出版本升级情况。
结果格式：日期，姓名，app，下载渠道，升级前版本，升级后版本。
例：数据：

2017-08-14,Lily,Facebook,360 Shop,NewYork,v1.0
2017-08-14,Lily,Facebook,360 Shop,Washington,v1.2
2017-08-14,Lily,Facebook,360 Shop,NewYork,v2.0
结果：
(2017-08-14,Lily,Facebook,360 Shop,v1.0,v1.2）
(2017-08-14,Lily,Facebook,360 Shop,v1.2,v2.0）
要求：
根据需求，去除城市字段

按key分组，key是除城市字段和版本号字段以外的所有字段，value是版本号

过滤版本号重复的(例：（v2.0,v2.0）)以及版本号只有一个的(例（v1.0）)

拆分重新组合（例：(key,（v2.0,v2.5,v3.0))拆分成(key,（v2.0,v2.5）)(key,(v2.5,v3.0)）)

按需求整理输出格式(例：（2017-08-14,Lily,Facebook,360 Shop,v1.2,v2.0）)

执行foreach操作，打印出结果