[大数据] Hbase学习笔记一（理论&定义）

????????rowkey是一个二进制流，长度开发者建议是10-100字节，不过建议越短越好，最好不超过16字节。原因是：数据持久化文件HFile中是按照按照key/value存储的，如果rowkey太长的话就会影响HFile的存储效率。Memstore将缓存数据到内存，如果rowkey字段过长内存的有效利用会降低，系统将会无法缓存更多的数据，降低检索的效率。

6.2 rowkey散列原则

如果rowkey是按照时间戳方式递增的话，不要将时间放在二进制码的前面，建议将rowkey的高位作为散列字段，如果没有散列字段就会出现一个regionServer上堆积的热点现象。

6.3 rowkey的唯一原则

rowkey不能为空且唯一。

7.查询方式

全表查询：scan tableName

单行查询：get tableName，'1’

范围扫描：scan tableName， {STARTROW=>‘1’，STOPROW=>‘2’}

条件查询：

（1）scan可以通过setCaching和setBatch方法来提高速度；

（2）scan也可以通过setStartRow和setEndRow来限定范围；

（3）scan还可以通过setFileter方法来添加过滤器。

8.Hbase的cell结构

单元格（ cell ）：在table中，通过行、列族、列、时间戳来确定一个cell，cell中存储的数据没有数据类型，是字节数组byte[] ，通过<RowKey，Column Family: Column Qualifier，Timestamp>元组来访问单元格。

Hbase中表示行的集合，行是列族的集合，列族是列的集合，列是键值对的集合；

9.Hbase的读写流程

9.1 HBase的读流程：

（1）HRegisonServer保存着.meta.表及数据表，首先client先访问zk，访问-ROOT-表，然后在zk上面获取.meta.表所在的位置信息，找到这个meta表在哪个HRegionServer上面保存着。

（2）接着client访问HRegionServer表从而读取.meta.进而获取.meta.表中存放的元数据。

（3）client通过.meta.中的元数据信息，访问对应的HRegionServer，然后扫描HRegionServer的Memstore和StoreFile来查询数据。

（4）最后HRegionServer把数据反馈给client。

9.2 HBase的写流程：

（1）client访问zk中的-ROOT-表，然后后在访问.meta.表，并获取.meta.中的元数据。

（2）确定当前要写入的HRegion和HRegionServer。

（3）clinet向HRegionServer发出写相应的请求，HRegionServer收到请求并响应。

（4）client先将数据写入到HLog中，以防数据丢失。

（5）然后将数据写入到MemStore中。

（6）如果HLog和MemStore都写入成功了，那么表示这个条数据写入成功了。

（7）如果MemStore写入的数据达到了阈值，那么将会flush到StoreFile中。

（8）当StoreFile越来越多，会触发Compact合并操作，将过多的StoreFile合并成一个大的StoreFile。

（9）当StoreFile越来越多时，Region也会越来越大，当达到阈值时，会触发spilit操作，将这个Region一分为二。

注：HBase中所有的更新和删除操作都会在后续的compact中进行，使得用户的写操作只需要进入内存中就行了。实现了HBase的 I/O高性能。

10.Hbase的结构：

10.1 HMaster：

（1）、为所有的RegionServer分配Region。

（2）、负责RegionServer的负载均衡。

（3）、发现失效的RegionServer并重新分配其上的Region。

（4）、HDFS上的垃圾文件。

（5）、处理Schema更新请求（表的创建，删除，修改，列族的增加等）。

10.2 HRegionServer：

（1）HRegion：

Table在行的方向上分隔为多个Region，Region是HBase中分布式存储和负载均衡的最小单元，即不同的Region可以分在不同的RegionServer上面，但同一个Region是不会拆分到多个Server上面的。随着数据的增多，某个列族的达到一个阈值就会分成两个新的Region。结构：<表名，startRowkey，创建时间>，由目录表（-ROOT-，.META.）记录该Region的endRowkey

（2）Store：

每一个Region由一个或多个Store组成，至少是一个Store，HBase会把访问的数据存放在Store中，即每一个列族建一个Store，如果有多个ColumnFamily，就有多个Store，一个Store由一个MemStore和0或多个StoreFile组成。HBase通过Store的大小判断是否需要切分Region。

（3）MemStore：

它是放在内存中的，保存修改的数据，即key/values。当MemStore的大小达到一定的阈值的时候（默认128M），MemStore会被Flush到文件，即生成一个快照StoreFile，Flush过程由一个线程完成。

（4）StoreFile：

StoreFile底层是HFile，HFile是Hadoop的二进制格式文件，

（5）HLog：

WAL文件，用来灾难恢复使用，HLog记录数据的所有变更，一旦RegionServer宕机，就从HLog中进行恢复，HLog文件就是一个普通的Hadoop Sequence File，Sequence File记录了写入数据的归属信息，除了Table和Region名字外，还同时包括了Sequence Number和TimeStamp，Sequence File的value是HBase的key/value对象，即对应的HFile中的key/value。