spark和mr的区别 spark的中间结果存储在内存中,mr的中间结果存储在hdfs的磁盘上 弹性分布式数据集RDD 血统 checkpoint容错
DAGScheduler TaskScheduler job、stage、task之间的关系 rdd的宽窄依赖,使用宽依赖来划分stage
两种数据集 DataFrame DataSet
SPARK作业运行流程 1、driver程序main方法创建sparkContent对象 2、sparkContent向cluster Manager申请cpu、内存计算资源 2.1 sparkContent创建RDD对象,计算RDD间的依赖关系,组成一个DAG有向无环图 2.2 DAGScheduler将DAG划分为多个stage,并将Stage对应的TaskSet提交到cluster Manager,taskScheduler为每个task申请资源 3、cluster manager分配应用程序执行所需要的资源,在worker上创建executor 4、sparkContent程序代码和task任务发送到executor上进行执行,sparkContent收集执行结果到Driver端
参考:https://www.infoq.cn/article/zk8eyph0wn5xuywazstj
|