一、HBase前置知识

二、 Hbase简介

?面向行就是类似于mysql那种，一行存储许多字段，即使那个字段没有初始化，他也会给他占用存储空间，比较浪费

面向列后面说但是他类似于k，v键值对

非结构化数据比如爬虫爬的html标签

半结构化数据 json 每个json里面的kv都是不一样的

结构化数据就是mysql那种每条信息的字段我都是自定义好的

?三、数据模型

?Row Key就是一行一个记录

Time Stamp就是时间戳表明某一个时间点我插入的数据

CF1是列族的意思 q1 q2是列名 val1 是具体的值

列族+列名可以固定一个属性值，但由于时间戳的存在，他的值不唯一

他的查询就是先看行号再看是哪个列族，哪个列名哪个时间戳

?字典序就是不同字符的ascll码值顺序比较如 a在b前面 1在2前面??

一个列族里面可以有一堆列?

?client客户端负责对Hbase读写东西??

Hbase主从架构，HMaster主? HRegionServer是从

HLog类似于mysql里的日志， HRegion类似于mysql里的一个表，store类似于列族，MemStore就是存在内存，StoreFile存在磁盘

写具体流程：

zookeeper里会有元数据的存储地址（元数据他就是指示我某个资源在某个地方类似于索引的一种东西）
第一次访问先访问zookeeper获取元数据存在哪个 HRegionServer里面
第二次就去对应的HRegionServer找到我的目标表对应的地址
第三次就可以去目标表所在HRegionServer直接进行读写
找到目标表也要找到目标的列族也就是store，对其Memstore进行读写。
MemStore有一个大小限制，只有在溢写的情况或者用户强行存储才会持久化到磁盘StoreFile里面。如果这些文件太小或者达到某一个阈值时候也会有一个合并文件compaction的操作他包括major和minor（合并大规模文件小规模数量文件）

通常zookeeper也会存储少量元数据，比如在某次访问后，可以将对应表名存在zookeeper中，如果我访问某个表问了zookeeper，他告诉我表不存在那我直接返回

写的时候肯定是先写日志Hlog 防止出现断电内存丢失这种情况然后才进行读写，Hlog存在内存，对接有一个Logsync这样一个线程，每一秒就溢写Hlog的内容到磁盘，这样就能最大限度的防止数据丢失

读具体流程：

走到HRegionServer并找到对应列族store了，读的话 Memstore除了是写的缓存，他也可以看做一部分读缓存
因为你当时写的时候可能还没有进行溢写，那么你刚才写的东西磁盘没有只有内存有，所以读会先访问Memstore
看完Memstore后再看? 一个blockcache这个读缓存?
blockcache没有再去看磁盘Hfile
通常为了后续查看的方便，刚读的内容会放进blockcache里? ?它采用是LRU原则。这就有一个麻烦的地方，以后我再读Hbase的时候，就不太能用select *这种查看全部信息，因为每次查看完我都会更新blockcache，浪费了大量时间不说而且我前面好不容易缓存的内容也会被刷写掉。? ?但是 blockcache也有一定的机制，他的内存为了支持LRU会分为三块，一块是访问一次就会放进去的，另外几块是访问多次才会刷写进内存，所以select *只能是会对访问一次那个块造成影响