1.yarn的介绍:
yarn是hadoop集群当中的资源管理系统模块,从hadoop2.x开始引入yarn来进行管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存)以及运行在yarn上面的各种任务。 总结一句话就是说:yarn主要就是为了调度资源,管理任务等 其调度分为两个层级来说: 一级调度管理: 计算资源管理(CPU,内存,网络IO,磁盘) App生命周期管理 (每一个应用执行的情况,都需要汇报给ResourceManager) 二级调度管理: 任务内部的计算模型管理 (AppMaster的任务精细化管理) 多样化的计算模型
1.1yarn当中的各个主要组件的介绍
ResourceManager:yarn集群的主节点,主要用于接收客户端提交的任务,并对资源进行分配 NodeManager:yarn集群的从节点,主要用于任务的计算 ApplicationMaster:当有新的任务提交到ResourceManager的时候,ResourceManager会在某个从节点nodeManager上面启动一个ApplicationMaster进程,负责这个任务执行的资源的分配,任务的生命周期的监控等 Container:资源的分配单位,ApplicationMaster启动之后,与ResourceManager进行通信,向ResourceManager提出资源申请的请求,然后ResourceManager将资源分配给ApplicationMaster,这些资源的表示,就是一个个的container JobHistoryServer:这是yarn提供的一个查看已经完成的任务的历史日志记录的服务,我们可以启动jobHistoryServer来观察已经完成的任务的所有详细日志信息 TimeLineServer:hadoop2.4.0以后出现的新特性,主要是为了监控所有运行在yarn平台上面的所有任务(例如MR,Storm,Spark,HBase等等)
1.2 yarn当中各个主要组件的作用:
resourceManager主要作用: 处理客户端请求 启动/监控ApplicationMaster 监控NodeManager 资源分配与调度 NodeManager主要作用: 单个节点上的资源管理和任务管理 接收并处理来自resourceManager的命令 接收并处理来自ApplicationMaster的命令 管理抽象容器container 定时向RM汇报本节点资源使用情况和各个container的运行状态 ApplicationMaster主要作用: 数据切分 为应用程序申请资源 任务监控与容错 负责协调来自ResourceManager的资源,开通NodeManager监视容的执行和资源使用(CPU,内存等的资源分配)
Container主要作用: 对任务运行环境的抽象 任务运行资源(节点,内存,cpu) 任务启动命令 任务运行环境
1.3 关于yarn常用参数设置
第一个参数:container分配最小内存 yarn.scheduler.minimum-allocation-mb 1024 给应用程序container分配的最小内存 第二个参数:container分配最大内存 yarn.scheduler.maximum-allocation-mb 8192 给应用程序container分配的最大内存 第三个参数:每个container的最小虚拟内核个数 yarn.scheduler.minimum-allocation-vcores 1 每个container默认给分配的最小的虚拟内核个数 第四个参数:每个container的最大虚拟内核个数 yarn.scheduler.maximum-allocation-vcores 32 每个container可以分配的最大的虚拟内核的个数 第五个参数:nodeManager可以分配的内存大小 yarn.nodemanager.resource.memory-mb 8192 nodemanager可以分配的最大内存大小,默认8192Mb 在我们浏览yarn的管理界面的时候会发现一个问题
我们可以在yarn-site.xml当中修改以下两个参数来改变默认值
定义每台机器的内存使用大小 yarn.nodemanager.resource.memory-mb 8192 定义每台机器的虚拟内核使用大小 yarn.nodemanager.resource.cpu-vcores 8
定义交换区空间可以使用的大小(交换区空间就是讲一块硬盘拿出来做内存使用) 这里指定的是nodemanager的n内存的2.1倍 yarn.nodemanager.vmem-pmem-ratio 2.1
|