[大数据] SparkStreaming-----第一个wordcount算子，Driver HA

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> SparkStreaming-----第一个wordcount算子，Driver HA -> 正文阅读

[大数据]SparkStreaming-----第一个wordcount算子，Driver HA

1.sparkStreaming
流式处理框架，是Spark API的扩展，RDD最终封装到DStream中

2.第一个wordcount

pom依赖

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.12</artifactId>
    <version>3.0.0</version>
    <scope>provided</scope>
</dependency>


import org.apache.spark.streaming.{Durations, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

/**
 * 1.local[2] 一个线程接收数据，一个线程处理数据
 * 2.Durations.second(10)：每10秒将接收来的数据做一次处理
 * 3.SparkStreaming启动之后，7*24小时不间断运行，不能添加新的逻辑代码
 * 4.所有逻辑代码完成后必须有 output operation类算子
 * */

object SparkStreaming01 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setAppName("streaming01")
    conf.setMaster("local[2]")  //一个线程接收数据，一个线程处理数据
    val sc: SparkContext = new SparkContext(conf)
    val ssc = new StreamingContext(sc, Durations.seconds(10)) //设置每10秒执行一次处理数据
    val lines = ssc.socketTextStream("hadoop102", 999)  //设置了虚拟机和端口号
    //统计所有单词出现次数
    val words=lines.flatMap(line=>line.split(" "))
    val pairWords=words.map(word=>new Tuple2(word,1))
    val result= pairWords.reduceByKey((v1,v2)=>{v1 + v2})
    //output operation类算子
    result.print()
    ssc.start()  //启动sparkStreaming
    ssc.awaitTermination()
  }
}

数据来源
在这里插入图片描述

3.foreachRDD算子

1.foreachRDD可以获取DStream中的RDD,可以对RDD使用RDD的算子操作，但是一定要使用RDD的action算子触发执行

 result.foreachRDD((rdd: RDD[(String, Int)]) => {
      val rdd1: RDD[String] = rdd.map(tp => {
        println("======="+tp)
        tp._1 + "=" + tp._2
      })
      rdd1.count()
    })