[大数据] SparkStreaming学习笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> SparkStreaming学习笔记 -> 正文阅读

[大数据]SparkStreaming学习笔记

SparkStreaming学习笔记

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 Spark 和Hadoop 的根本差异是多个作业之间的数据通信问题 : Spark 多个作业之间数据通信是基于内存，而 Hadoop 是基于磁盘。

Spark核心模块

在这里插入图片描述
数据处理的分类

数据处理的方式角度
流式（Streaming）数据处理
批量（brtch）数据处理

数据处理的延迟长短
实时数据处理：毫秒级
离线数据处理：小时or天数级别

流式（Streaming）数据处理

准实时，微批次(时间)的数据处理框架，而且支持的数据输入源很多。数据输入后可以用 Spark 的高度抽象原语，如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HDFS，数据库等。

在这里插入图片描述
架构图：

使用Dstream进行wordCount操作：

添加依赖

<dependency>
 <groupId>org.apache.spark</groupId>
 <artifactId>spark-streaming_2.12</artifactId>
 <version>3.0.0</version>
</dependency>

代码如下：

package com.cjy.bigdata.spark.streaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object SparkStreaming01_WordCount {
  def main(args: Array[String]): Unit = {
  //TODO 创建环境对象
    //StreamingContext创建时，需要传递两个参数
    //第一个表示环境配置
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkStreaming")
    //第二个参数表示批量处理的周期（采集周期）
    val ssc = new StreamingContext(sparkConf,Seconds(3))

  //TODO 逻辑处理
    //获取端口数据
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("localhost", 9999)
    val words = lines.flatMap(_.split(" "))
    val wordToOne = words.map((_, 1))
    val wordToCount: DStream[(String,Int)] = wordToOne.reduceByKey(_ + _)
    wordToCount.print()
  //TODO 关闭环境
    //由于采集器是长期执行的任务，所以不能直接关闭，而且不能让main方法执行完毕
    //ssc.stop()
    //1、启动采集器
    ssc.start()
    //2、等待采集器的关闭
    ssc.awaitTermination()
  }
}