HBase是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库?,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
HBase数据模型
Table | Row | KeyTimeStamp | CF1(列族) | CF2(列族) | name | age | salary | role | RK00001 | T1 | 张三 | 18 | 12000 | 岗位A | T5 | 李四 | 22 | 10000 | 岗位B | T9 | 王五 | 24 | 15000 | 岗位A | RK00002 | T3 | 胡二 | 58 | 10000 | 岗位C | T6 | 许六 | 39 | 10200 | 岗位A | T10 | 关七 | 19 | 12000 | 岗位C |
在HBase中上面的表格只是2行数据。
RowKey:用于唯一标识Hbase中的一条数据(记录),不可重复,按照字典顺序排序,只能存储64k的字节数据,因此一般要求设计RowKey要简短。
TimeStamp:HBase自动赋值时间戳(也可自己实现),作为版本号,64位整型。Hbase每个cell存储单元(k:v)对同一份数据有多个版本,通过实践戳来区分版本之间的差异,按时间倒叙排序。
CF(ColumnFamily):列族,可包含多(成千上万)列。权限控制,存储以及调优都是在列族层面进行的。HBase把同一列族里面的数据存储在同一目录下,由几个文件保存(StoreFile)。
新的列族成员(列)可以随后按需、动态加入,Family下面可以有多个Qualifier,所以可以简单的理解为,HBase中的列是二级列,也就是说Family是第一级列,Qualifier是第二级列。两个是父子关系。
Value:数据。
Cell:对应单元格具体值,是未解析的字节数组。由{rowkey, column(=+),version}唯一确定的单元。由rowkey,列族,列,版本(自动赋予的时间戳)唯一确定一个单元。Cell中的数据,没有类型,全部是字节码形式存储。
HBase是KV的数据库,如何通过K获取Value?
KEY ?的组成是以?Row key ?、CF(Column Family) ?、Column ?和?TimeStamp ?组成的。
TimeStamp ?在?HBase ?中充当的作用就是版本号,因为在?HBase ?中有着数据多版本的特性,所以同一个?KEY ?可以有多个版本的?Value ?值(可以通过配置来设置多少个版本)。查询的话是默认取回最新版本的那条数据,但是也可以进行查询多个版本号的数据。
K | V | RowKey | CF | Column | TimeStamp | Value | RK00001 | CF1 | name | T1 | 张三 |
|