HDFS 简介 一、概述 1.HDFS是Hadoop中用于数据存储的模块
细节 一、概述 1.HDFS中,存储数据的时候会将数据进行切块,每一个块称之为一个Block, 2.HDFS中,主要包含两个重要的进程,NameNode和DataNode。NameNode用于管理节点和记录元数据(metedata);DataNode是用于存储数据。 3.HDFS会对数据自动进行备份,称之为副本(replication)。如果不指定,默认情况下副本数量为3(额外复制两次,加上原来的数据构成3个副本) 4.HDFS仿照Linux设计了一套文件存储系统 二、Block 1.在HDFS中,数据都是以Block为单位进行存储的, 2.默认情况下,Block的大小是128M,通过dfs.blocksize来调节大小 3.如果一个文件不足一个Block大小,则这个文件整体作为一个Block存储,并且Block的大小和文件的大小是一致的。 4.会给每一个Block一个编号,称之为BlockID,通过Block ID能够确定Block的顺序。 5.同一个Block的不同副本一定在不同的节点上,但是不同的Block的副本可能在一个节点上。 6.Block的意义: a.为了能够去存储超大文件 b.为了进行快速备份 6am 1.15
|