hadoop基本组成

MapReduce计算框架

Map：将split分片数据按照key,value格式进行组织后数据存入本地磁盘，后续做为Reduce阶段的输入
Reduce：Map阶段结果shuffle之后，做merge，输入Reduce节点进行计算处理，最终结果存入HDFS文件系统
Combine: 非必须，满足幂等性质，及函数复合多次的结果等于1次作用的结果；主要作用是在Map和reduce之间，对map结果进行一步合并，减少网络传输数据量

HDFS分布式文件系统

文件读流程：Client请求NameNode,获取DataNode列表，按照返回列表，请求对应的datanode节点获取数据；如果datanode网络连接异常或者datanode节点异常，则发送异常信息给namenode,获取数据备份节点的位置，重新连接datanode请求数据；
读取完成
文件写流程：client发送写请求给namenode，返回对应的datanode列表；数据分片后加入数据队列，依次写入每个datanode中，同时维护ack数据当每个datanode写入成功后将ack信号传递给下一个datanode; 最后一个datanode写入成功后，将ack信号传回client; client将成功消息传给namenode。如果某个datanode写失败，则当前datanode与namenode通讯，重新分配datanode，按之前方式继续进行。