hadoop基本组成
MapReduce计算框架
Map:将split分片数据按照key,value格式进行组织后数据存入本地磁盘,后续做为Reduce阶段的输入 Reduce:Map阶段结果shuffle之后,做merge,输入Reduce节点进行计算处理,最终结果存入HDFS文件系统 Combine: 非必须,满足幂等性质,及函数复合多次的结果等于1次作用的结果;主要作用是在Map和reduce之间,对map结果进行一步合并,减少网络传输数据量
HDFS分布式文件系统
- 文件读流程:Client请求NameNode,获取DataNode列表,按照返回列表,请求对应的datanode节点获取数据;如果datanode网络连接异常或者datanode节点异常,则发送异常信息给namenode,获取数据备份节点的位置,重新连接datanode请求数据;
读取完成 - 文件写流程:client发送写请求给namenode,返回对应的datanode列表;数据分片后加入数据队列,依次写入每个datanode中,同时维护ack数据当每个datanode写入成功后将ack信号传递给下一个datanode; 最后一个datanode写入成功后,将ack信号传回client; client将成功消息传给namenode。如果某个datanode写失败,则当前datanode与namenode通讯,重新分配datanode,按之前方式继续进行。
YARN资源管理系统
|