任务一:
val rdd= sc.parallelize(List("dog","an","cat","an","cat"))
第一步:通过获取rdd中每个元素的长度创建新的rdd1
val rdd1 =rdd.map(x=>x.length())
rdd1.collect
第二步:通过zip把rdd1和rdd组合创建rdd2
val rdd2 =rdd.zip(rdd1)
rdd2.collect
第三步:去重
val rdd3 = rdd2.distinct()
rdd3.collect
第四步:输出结果
任务二:
val list = List(1,2,3,4,5,6)
要求:
1. 创建对应的RDD,命名为rdd
val rdd = sc.parallelize(list)
2. 使用map算子,将rdd的数据进行转换操作
规则如下: * 偶数转换成该数的平方 * 奇数转换成该数的立方
val rdd1 = rdd.map(x=>if(x%2==0){x*x}else{x*x*x})
rdd1.foreach(println)
任务三:
有一个数组,数组元素为
“dog”, “salmon”, “salmon”, “rat”, “elephant”
要求:
1. 创建对应的RDD
val rdd = sc.parallelize(array)
2. 使用map算子,将rdd的数据进行转换操作
* 规则如下:
* 将字符串与该字符串的长度组合成一个元组,例如:dog --> (dog,3),salmon --> (salmon,6)
val rdd1 = rdd.map(x=>(x,x.length()))
rdd1.foreach(println)
任务四:
有一个words.txt文件,内容如下: hello,world,hello,spark good,nice,good,do 要求: 将该文件上传到HDFS下/spark/test目录下,并创建RDD数据集,然后完成以下步骤:
第一步:对所给数据创建的rdd切割分词
val rdd = sc.textFile("/spark/test/words.txt")
第二步:每个单词计数为1
val rdd1 = rdd.flatMap(x=>x.split(","))
val rdd2 = rdd1.map(x=>(x,1))
第三步:对相同单词个数进行累加
val rdd3 =rdd2.reduceByKey((a,b)=>a+b)
rdd3.collect
第四步:过滤出单词个数大于一个的
val rdd4 = rdd3.filter(x=>x._2>1)
rdd4.collect
第五步:输出结果
任务五:
某商店上午卖出10本 spark 书籍,每本50元,4本 Hadoop 书籍,每本40元,下午卖出20本 spark 书籍,每本40元,10本 Hadoop 书籍,每本30元。
现要求求出这两本书这一天销售的平均价格。
数据如下:
spark,10,50 spark,40,25 hadoop,5,40 hadoop,10,25
提示:
List((“spark”,(10,50)),(“hadoop”,(4,40)),(“hadoop”,(10,30)),(“spark”,(20,40)))
要求:
第一步:通过给定数据通过集合并行化创建rdd
val list = List(("spark",(10,50)),("hadoop",(4,40)),("hadoop",(10,30)),("spark",(20,40)))
val rdd = sc.parallelize(list)
rdd.foreach(println)
第二步:求出不同书籍一天收入总和以及出售本数
val rdd1 = rdd.reduceByKey((a,b)=>(a._1*a._2+b._1*b._2,a._1+b._1))
rdd1.collect
第三步:求出每本平均售价
输出结果
val rdd2 = rdd1.map(x=>(x._1,x._2._1/x._2._2))
rdd2.foreach(println)
任务六:
List((“Bob”,“spark”),(“Lily”,“hadoop”),(“Candy”,“hive”),(“Bob”,“hbase”),(“Bob”,“hive”))
第一步:根据姓名对所学书籍分组
第二步:求出每个人的书籍本数
第三步:根据项目排序
第四步:输出结果
综合案例
有一份数据格式如下的文档: 日期,姓名,app,下载渠道,地区,版本号
2017-08-14,Lily,Facebook,360 Shop,NewYork,v1.0 2017-08-14,Bob,Facebook,Amazon Appstore,NewYork,v1.2 2017-08-14,Lily,Facebook,360 Shop,Washington,v1.2 2017-08-14,Lily,Facebook,Google Play Store,Washington,v2.0 2017-08-14,Candy,YouTube,app store,Chicago,v1.8 2017-08-14,Lily,Facebook,Google Play Store,Washington,v2.0 2017-08-14,Candy,YouTube,app store,Chicago,v1.9 2017-08-15,Candy,YouTube,app store,Chicago,v2.0 2017-08-15,Candy,YouTube,app store,Chicago,v2.3 2017-08-15,Lily,Facebook,360 Shop,NewYork,v2.0 2017-08-15,Bob,Facebook,Amazon Appstore,NewYork,v1.2 2017-08-15,Bob,Facebook,Amazon Appstore,NewYork,v1.5 2017-08-15,Candy,YouTube,app store,Chicago,v2.9
需求: 不考虑地区,列出版本升级情况。 结果格式: 日期,姓名,app,下载渠道,升级前版本,升级后版本。 例: 数据:
-
2017-08-14,Lily,Facebook,360 Shop,NewYork,v1.0 -
2017-08-14,Lily,Facebook,360 Shop,Washington,v1.2 -
2017-08-14,Lily,Facebook,360 Shop,NewYork,v2.0 结果: -
(2017-08-14,Lily,Facebook,360 Shop,v1.0,v1.2) -
(2017-08-14,Lily,Facebook,360 Shop,v1.2,v2.0) 要求: 根据需求,去除城市字段 按key分组,key是除城市字段和版本号字段以外的所有字段,value是版本号 过滤版本号重复的(例:(v2.0,v2.0))以及版本号只有一个的(例(v1.0)) 拆分重新组合(例:(key,(v2.0,v2.5,v3.0))拆分成(key,(v2.0,v2.5))(key,(v2.5,v3.0))) 按需求整理输出格式(例:(2017-08-14,Lily,Facebook,360 Shop,v1.2,v2.0)) 执行foreach操作,打印出结果
|