[大数据] Hadoop之MapReduce和Yarn内核源码解析

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Hadoop之MapReduce和Yarn内核源码解析 -> 正文阅读

[大数据]Hadoop之MapReduce和Yarn内核源码解析

前言：此文章从客户端提交job任务开始，到对需要处理的数据进行切片，产生对应的maptask任务，Yarn来管理任务的调度来执行maptask和reducetask（包括shuffle）进行了详细的代码分析。

一、hadoop的Job 提交流程源码

流程图：
在这里插入图片描述

1.从我们编写的mapreduce的代码中进入job提交源码
在这里插入图片描述

支线一：进入connect();

2.支线二：进入submitter.submitJobInternal(Job.this, cluster)，向集群提交了job信息，这里是提交job任务的核心代码

在这里插入图片描述
该方法（submitter.submitJobInternal(Job.this, cluster)）往下翻：

存入了切片信息的本地路径
在这里插入图片描述
submitter.submitJobInternal(Job.this, cluster)方法继续往下走

该方法继续往下看：将job的任务创建的Application的appContext上下文信息发送到Yarn的ResourseManager

在这里插入图片描述

在这里插入图片描述
进入setupAMCommand，查看封装的各种参数

该方法继续往下翻

回到YARNRunner的submitJob方法

代码已经从客户端提交到了ClientRMService，ClientRMService就是resourceManager端，接下来可以查看Yarn 源码解析

二、hadoop的Job 提交流程切片源码

补充上面Job提交流程中有切片部分，单独拎出来分析
在这里插入图片描述

该方法继续往下走

总结重点：切片大小默认是这样computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M，公司里也一般是这个，不过可以修改，切块大小不是精准128M切，而是每次切片时，都要判断切完剩下的部分是否大于块的1.1倍，不大于1.1倍就划分一块切片。

三、Yarn 源码解析

1.YARN工作机制
在这里插入图片描述
2.YARN源码解析

1.前言：之前job任务提交的代码（途中灰色部分）已经讲解，客户端发送request到了客户端部分

该方法继续往下看

2.resourceManager通过指令命令执行MRAppMaster.java类的main方法

回到initAndStartAppMaster初始化AppMaster方法
在这里插入图片描述

在这里插入图片描述

3.YarnChild负责MapReduce任务过程

在这里插入图片描述
查看main方法

①查看Maptask的run方法

该方法继续往下看

②回到上边此图部分，查看Reudcetask的run方法

Yarn的ResourceManager负责开始maptask和reducetask的执行开启，接下来讲解mapreduce的执行源码

四、MapTask源码解析

1.MapTask的工作机制
在这里插入图片描述
找到自己编写的mapreducetask的代码，从mapper类中context.write打入断点

回到上一层flush方法

回到之前的close方法

五、ReduceTask源码解析

ReduceTask工作机制
在这里插入图片描述
提前在ReduceTask的run方法中打入断点maptask执行完之后就开始执行reducetask

其中初始化了outputFormat对象

回到ReduceTask的run方法

返回上一级方法

回到ReduceTask的run方法

回到ReduceTask的run方法

在这里插入图片描述
现在调用到我们编写的reduce方法