[大数据] spark场景练习题

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> spark场景练习题 -> 正文阅读

[大数据]spark场景练习题

第一题：

给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6)，键值对的key表示图书名称，value表示某天图书销量，请计算每个键对应的平均值，也就是计算每种图书的每天平均销量。

val rdd = sc.makeRDD(Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6)))

object Work03 {
  def main(args: Array[String]): Unit = {
    val upAndDown: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Work3")
    val sc = new SparkContext(upAndDown)
    val rdd = sc.makeRDD(Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6)))
    val tuples: Array[(String, Int)] = rdd.map(x => {
      (x._1, (x._2, 1))
    }).reduceByKey((x, y) => {
      (x._1 + y._1, x._2 + y._2)
    }).map(x => {
      (x._1, x._2._1 / x._2._2)
    }).collect()
    tuples.foreach(println)
  }
}

2、Super WordCount

要求：按照count值降序显示前50行数据，将word转换成小写，去除标点符号，去除停用词。备注：标点符号、停用词自定义【什么是停用词，见百度】。

object Work03 {
  def main(args: Array[String]): Unit = {
    val upAndDown: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Work3")
    val sc = new SparkContext(upAndDown)
    val rdd: RDD[String] = sc.textFile("datas/words.txt")
    var tyc = List("a","an")
    val value: RDD[String] = rdd.map(str => {
      var str1: String = str.replace(",", " ").replace(".", " ")
      str1
    })
    val value2: RDD[(String, Int)] = value.flatMap(_.split(" ")).filter(x => {
      !tyc.contains(x)
    }).map(x => {
      (x.toLowerCase, 1)
    }).reduceByKey(_ + _)
    val tuples: RDD[(String, Int)] =value2.sortBy(_._2, false)
    val tuples1: Array[(String, Int)] = tuples.collect()
    tuples1.foreach(println)

    tuples.foreach(println)
  }
}

3、广告统计案例

数据格式: timestamp   province   city	userid	adid
            时间点    省份	 城市   用户    广告

用户ID范围:0-99；省份,城市,ID相同:0-9；adid:0-19
需求:
1、统计每一个省份点击TOP3的广告ID
2、统计每一个省份每一个小时的TOP3广告ID 



需求一参考答案：
(Hunan,List((5,2273), (1,2202), (2,2193)))
(Hebei,List((7,2250), (8,2240), (3,2234)))
(Henan,List((6,2287), (0,2237), (4,2201)))
(Hubei,List((8,2289), (6,2241), (2,2237)))
(Jiangsu,List((7,2250), (3,2199), (6,2192)))

需求二参考答案：
((0,Hubei),List((8,2289), (6,2241), (2,2237)))
((0,Hunan),List((5,2273), (1,2202), (2,2193)))
((0,Henan),List((6,2287), (0,2237), (4,2201)))
((0,Jiangsu),List((7,2250), (3,2199), (6,2192)))
((0,Hebei),List((7,2250), (8,2240), (3,2234)))

object Work03 {
  def main(args: Array[String]): Unit = {
    val upAndDown: SparkConf = new SparkConf().setMaster("local[*]").setAppName("aaa")
    val sc = new SparkContext(upAndDown)
    val value: RDD[String] = sc.textFile("datas/Advert.log")
    val result = value.map(x => {
      val strings: Array[String] = x.split("\t")
      (strings(1), (strings(4), 1))
    }).groupByKey().map((x) => {
      (x._1,x._2.groupBy(_._1).map((a) => {
        (a._1, a._2.size)
      }))

    }).map((x)=>{
      (x._1,x._2.toList.sortBy(x=>{
        x._2
      }).reverse.take(3))
    }).collect()
    result.foreach(println)
  }
}

需求二：

object Work03 {
  def main(args: Array[String]): Unit = {
    val format = new SimpleDateFormat("yyyy-MM-dd HH")
    val upAndDown: SparkConf = new SparkConf().setMaster("local[*]").setAppName("abc")
    val sc = new SparkContext(upAndDown)
    val value: RDD[String] = sc.textFile("datas/Advert.log")
    val result: Array[((String, String), List[(String, Int)])] = value.map(x => {
      val strings: Array[String] = x.split("\t")
      ((format.format(new Date(strings(0).toLong)), strings(1)), (strings(4), 1))
    }).groupBy(_._1).map((x) => {
      (x._1, x._2.map(_._2).groupBy(_._1).map((y) => {
        (y._1, y._2.size)
      }))
    }).map((x) => {
      (x._1, x._2.toList.sortBy(_._2).reverse.take(3))
    }).collect()
    result.foreach(println)
  }
}

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2021-10-20 12:33:20 更:2021-10-20 12:35:18

360图书馆购物三丰科技阅读网日历万年历 2025年10日历

-2025/10/22 3:59:55-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码