[大数据] Spark基本工作流程和作业调度

IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Spark基本工作流程和作业调度 -> 正文阅读

[大数据]Spark基本工作流程和作业调度

基本工作流程

Spark基本工作流程

Spark的应用分为任务调度和任务执行两个部分
所以Spark程序都离不开SparkContext和Executor两部分，Executor负责执行任务，运行Executor的机器称为Worker节点，SparkContext由用户程序启动，通过资源调度模块和Executor通信。SparkContext和Executor这两部分在各种运行模式上是公用的。
SparkContext是程序运行的总入口，在SparkContext的初始化过程中，会分别创建DAGScheduler作业调度和TaskScheduler任务调度两个级别的调度模块
作业调度模块和具体的运行模式无关，它是根据shuffle来划分调度阶段，每个阶段会构建出具体的任务，然后以TaskSets(任务组)的形式提交给任务调度模块来具体执行
不同运行模式的区别主要体现在任务调度模块，任务调度模块负责启动任务、监控任务和汇报任务的情况。(Standalone模式、Yarn模式等的区别主要体现在任务调度模块这边)

作业调度

作业调度关系图

spark作业调度关系图

Application(应用程序)：Spark应用程序由一个或多个作业组成
Job(作业)：由一个RDD Action 生成一个或多个调度阶段所组成的一次计算作业
Stage(调度阶段)：一个任务集多对应的调度阶段。Stage的划分是根据宽依赖(shuffle操作)来划分的
TaskSet(任务集)：由一组关联的，但互相之间没有shuffle依赖关系的任务所组成的任务集
Task(任务)：单个分区数据集上的最小处理流程单元

作业调度具体流程

作业调度具体流程

用户提交程序(Application)创建SparkContext实例，SparkContext根据RDD对象生成DAG图，将作业(Job)提交给DAGScheduler
DAGScheduler将作业(Job)划分成不同的Stage(从末端RDD开始，根据shuffle来划分)，每个Stage都是任务的集(TaskSet)，以TaskSet为单位提交给TaskScheduler
TaskScheduler管理任务(Task)，并通过资源管理器(Cluster Manager)[Standalone模式下是Master，Yarn模式下是ResourceManager]把任务(task)发给集群中的Worker的Executor
Worker接收到任务(Task)，启动Executor进程中的线程Task来执行任务（实际任务的运行最终由Executor类来执行，Executor对每一个任务创建一个TaskRunner类，交给线程池运行。）

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

上一篇文章下一篇文章查看所有文章

加:2021-07-27 16:17:12 更:2021-07-27 16:17:16

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2026年5日历

-2026/5/1 12:04:49-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码