Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
Spark 和Hadoop 的根本差异是多个作业之间的数据通信问题 : Spark 多个作业之间数据通信是基于内存,而 Hadoop 是基于磁盘。
Spark核心模块
数据处理的分类
数据处理的方式角度 流式(Streaming)数据处理 批量(brtch)数据处理
数据处理的延迟长短 实时数据处理:毫秒级 离线数据处理:小时or天数级别
流式(Streaming)数据处理
准实时,微批次(时间)的数据处理框架,而且支持的数据输入源很多。数据输入后可以用 Spark 的高度抽象原语,如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如 HDFS,数据库等。
架构图:
使用Dstream进行wordCount操作:
添加依赖
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.12</artifactId>
<version>3.0.0</version>
</dependency>
代码如下:
package com.cjy.bigdata.spark.streaming
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}
object SparkStreaming01_WordCount {
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkStreaming")
val ssc = new StreamingContext(sparkConf,Seconds(3))
val lines: ReceiverInputDStream[String] = ssc.socketTextStream("localhost", 9999)
val words = lines.flatMap(_.split(" "))
val wordToOne = words.map((_, 1))
val wordToCount: DStream[(String,Int)] = wordToOne.reduceByKey(_ + _)
wordToCount.print()
ssc.start()
ssc.awaitTermination()
}
}
1、得到StreamingContext对象,参数中是环境配置和采集周期 2、调用socketTextStream方法,采集数据为一行行的 3、使用flatMap将数据切分,形成单词形式 4、words.map((_, 1))将单词映射为元组 5、使用reduceByKey方法将相同单词数做统计
结果如下:
DStream的创建
|