IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Spark概念及相关介绍 -> 正文阅读

[大数据]Spark概念及相关介绍

Spark介绍

  • Spark是UCB大学AMP实验室开发的一款分布式内存计算的统一分析引擎。其特点就是对任意类型的数据进行自定义计算。Spark可以计算结构化、半结构化和非结构化的数据结构,同样也支持Scala、Python、Java、SQL等开发语言去开发应用程序计算数据。由于适用面很广,所以也称为统一的数据分析引擎。
    在这里插入图片描述

Spark与Hadoop MR的比较

HadoopSpark
类型基础平台(计算、调度、存储)计算(分布式)
场景海量数据批处理(磁盘)海量数据批处理(内存迭代、交互式)、流处理(SparkStreaming)
价格节点不需要高配置机器,价格便宜对内存要求极高、价格较贵
编程范式Map+Reduce, API 较为底层, 算法适应性差RDD组成DAG有向无环图, API 较为顶层, 方便使用
数据存储结构MR中间计算结果在HDFS磁盘上, 延迟大RDD中间运算结果在内存中 , 延迟小
运行方式Task以进程方式维护, 任务启动慢Task以线程方式维护, 任务启动快,可批量创建提高并行能力
  • 当然即使Spark功能如此强大,但是它还是没法完全代替Hadoop的,Spark仅做计算,而Hadoop生态圈不仅有计算(MR)也有存储(HDFS)和资源管理调度(YARN),HDFS和YARN仍是许多大数据体系的核心架构。

  • 补充:Hadoop的基于进程的计算和Spark基于线程方式优缺点?
    Hadoop中的MR中每个map/reduce task都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map task中,造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率,Spark采用了线程的最小的执行单位,但缺点是线程之间会有资源竞争。

Spark特点

速度快

  • Spark支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方称其在内存中的运算速度要比MR快100倍,在硬盘中要快10倍。
  • Spark处理数据与MapReduce处理数据相比,有如下两个不同点:
    • 1.Spark处理数据时,可以将中间处理结果数据存储到内存中。
    • 2.Spark 提供了非常丰富的算子(API), 可以做到复杂任务在一个Spark 程序中完成。

易于使用

  • Spark支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。并且3版本可以向下兼容2版本。

通用性强

  • Spark除了基础功能之外,还提供了Spark SQL、Spark Streaming、MLib 及GraphX等多个工具库。
    在这里插入图片描述

运行方式多

  • Spark 支持多种运行方式,包括在 Hadoop 和 Mesos 上,也支持 Standalone的独立运行模式,同时也可以运行在云Kubernetes(Spark 2.3以上)上。

Spark常用的框架模块

  • SparkCore:Spark的核心,Spark核心功能均由Spark Core模块提供,是Spark运行的基础。Spark Core以RDD为数据抽象,提供Python、Java、Scala、R语言的API,可以编程进行海量离线数据批处理计算。
  • SparkSQL:基于SparkCore之上,提供结构化数据的处理模块。SparkSQL支持以SQL语言对数据进行处理,SparkSQL本身针对离线计算场景。同时基于SparkSQL,Spark提供了StructuredStreaming模块,可以以SparkSQL为基础,进行数据的流式计算。
  • SparkStreaming:以SparkCore为基础,提供数据的流式计算功能。
  • MLlib:以SparkCore为基础,进行机器学习计算,内置了大量的机器学习库和API算法等。方便用户以分布式计算的模式进行机器学习计算。
  • GraphX:以SparkCore为基础,进行图计算,提供了大量的图计算API,方便用于以分布式计算模式进行图计算。

Spark的多种运行模式

  • 本地模式(单机)
    本地模式就是以一个独立的进程,通过其内部的多个线程来模拟整个Spark运行时环境。
  • Standalone模式(集群)
    Spark中的各个角色以独立进程的形式存在,并组成Spark集群环境。
  • Hadoop YARN模式(集群)
    Spark中的各个角色运行在YARN的容器内部,并组成Spark集群环境。
  • Kubernetes模式(容器集群)
    Spark中的各个角色运行在Kubernetes的容器内部,并组成Spark集群环境。

Spark架构角色

  • Spark与Yarn对比运行角色示意图
    在这里插入图片描述

  • Master:管理整个资源群集;类比于YARN里的ResourceManager。

  • Worker:管理单个服务器资源;类比于YARN里的NodeManager。

  • Driver:管理单个Spark任务在运行是的工作;类比于YARN里的ApplicationMaster。

  • Executor:单个任务运行时的工作者;类比于YARN里的Task。

  • 从资源管理层面划分:

    • 管理中:Master
    • 工作中:Worker
  • 从任务执行层面划分:

    • 某任务的管理者:Driver
    • 某任务的执行者:Executor

Tips:如果是在Local模式下Driver及管理又执行。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-10-17 12:41:07  更:2022-10-17 12:45:17 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/11 3:42:34-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码