IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hadoop之MapReduce和Yarn内核源码解析 -> 正文阅读

[大数据]Hadoop之MapReduce和Yarn内核源码解析

前言:此文章从客户端提交job任务开始,到对需要处理的数据进行切片,产生对应的maptask任务,Yarn来管理任务的调度来执行maptask和reducetask(包括shuffle)进行了详细的代码分析。

一、hadoop的Job 提交流程源码

流程图:
在这里插入图片描述

1.从我们编写的mapreduce的代码中进入job提交源码
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
支线一:进入connect();
在这里插入图片描述
在这里插入图片描述
2.支线二:进入submitter.submitJobInternal(Job.this, cluster),向集群提交了job信息,这里是提交job任务的核心代码
在这里插入图片描述

在这里插入图片描述
该方法(submitter.submitJobInternal(Job.this, cluster))往下翻:
在这里插入图片描述

存入了切片信息的本地路径
在这里插入图片描述
submitter.submitJobInternal(Job.this, cluster)方法继续往下走
在这里插入图片描述
在这里插入图片描述
该方法继续往下看:将job的任务创建的Application的appContext上下文信息发送到Yarn的ResourseManager
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
进入setupAMCommand,查看封装的各种参数
在这里插入图片描述
该方法继续往下翻
在这里插入图片描述
回到YARNRunner的submitJob方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
代码已经从客户端提交到了ClientRMService,ClientRMService就是resourceManager端,接下来可以查看Yarn 源码解析

二、hadoop的Job 提交流程切片源码

补充上面Job提交流程中有切片部分,单独拎出来分析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
该方法继续往下走
在这里插入图片描述
总结重点:切片大小默认是这样computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M,公司里也一般是这个,不过可以修改,切块大小不是精准128M切,而是每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片。

三、Yarn 源码解析

1.YARN工作机制
在这里插入图片描述
2.YARN源码解析
在这里插入图片描述
1.前言:之前job任务提交的代码(途中灰色部分)已经讲解,客户端发送request到了客户端部分
在这里插入图片描述
在这里插入图片描述
该方法继续往下看
在这里插入图片描述
2.resourceManager通过指令命令执行MRAppMaster.java类的main方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
回到initAndStartAppMaster初始化AppMaster方法
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3.YarnChild负责MapReduce任务过程
在这里插入图片描述

在这里插入图片描述
查看main方法
在这里插入图片描述
①查看Maptask的run方法
在这里插入图片描述
该方法继续往下看
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
②回到上边此图部分,查看Reudcetask的run方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Yarn的ResourceManager负责开始maptask和reducetask的执行开启,接下来讲解mapreduce的执行源码

四、MapTask源码解析

1.MapTask的工作机制
在这里插入图片描述
找到自己编写的mapreducetask的代码,从mapper类中context.write打入断点
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
回到上一层flush方法
在这里插入图片描述
回到之前的close方法
在这里插入图片描述

五、ReduceTask源码解析

ReduceTask工作机制
在这里插入图片描述
提前在ReduceTask的run方法中打入断点maptask执行完之后就开始执行reducetask
在这里插入图片描述
在这里插入图片描述
其中初始化了outputFormat对象
在这里插入图片描述
回到ReduceTask的run方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
返回上一级方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
回到ReduceTask的run方法
在这里插入图片描述
在这里插入图片描述
回到ReduceTask的run方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
现在调用到我们编写的reduce方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-06-01 15:18:23  更:2022-06-01 15:19:04 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 19:36:02-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码