[大数据] Spark原理

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Spark原理 -> 正文阅读

[大数据]Spark原理

spark和mr的区别
spark的中间结果存储在内存中，mr的中间结果存储在hdfs的磁盘上
弹性分布式数据集RDD
血统
checkpoint容错

DAGScheduler
TaskScheduler
job、stage、task之间的关系
在这里插入图片描述
rdd的宽窄依赖，使用宽依赖来划分stage

两种数据集
DataFrame
DataSet

SPARK作业运行流程
1、driver程序main方法创建sparkContent对象
2、sparkContent向cluster Manager申请cpu、内存计算资源
2.1 sparkContent创建RDD对象，计算RDD间的依赖关系，组成一个DAG有向无环图
2.2 DAGScheduler将DAG划分为多个stage，并将Stage对应的TaskSet提交到cluster Manager，taskScheduler为每个task申请资源
3、cluster manager分配应用程序执行所需要的资源，在worker上创建executor
4、sparkContent程序代码和task任务发送到executor上进行执行，sparkContent收集执行结果到Driver端

参考：https://www.infoq.cn/article/zk8eyph0wn5xuywazstj

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理