IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> HBase初涉猎 -> 正文阅读

[大数据]HBase初涉猎

一、HBase简介

1.HBase是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。
2.利用Hadoop HDFS作为其文件存储系统，利用Hadoop Map Reduce来处理HBase中的海量数据，利用zookeeper作为其分布式协同服务。
3、主要用来存储非结构化和半结构化的松散数据（列存NoSQL数据库）

二、HBase系统架构

在这里插入图片描述
1、Master

为Region server分配region
负责Region server的负载均衡
发现失效的Region server并重新分配其上的region
管理用户对table的增删改操作

2、RegionServer

Region server维护region，处理对这些region的IO请求
Region server负责切分在运行过程中变得过大的region

3、Region

HBase自动把表水平划分成多个区域（region），每个region会保存一个表里面某段连续的数据；每一个表一开始只有一个region，随着表不断插入数据，当增加到一个阈值的时候，region就会分为两个新的region（裂变）
当table中的行不断增多，就会有越来越多的region。这样一个完整的表被保存在多个RegionServer上

4、Memstore与store file

一个region由多个store组成，一个store对应一个CF（列族）store包括位于内存中的menstore和位于磁盘的store file写操作先写入menstore,当menstore中的数据达到某个阈值，hregionsercer会启动flashcache进程写入store file，每次写入形成单独的一个storefile
当store file而文件的数量增长到一定的阈值后，系统会进行合并（minor、major、compaction）,在合并工作中会进行版本合并和删除工作（majar），形成更大的storefile
当一个region所有storefile的大小和数量超过一定阈值后，会把当前的region分隔为两个，并由hmaster分配到相应的region server服务器实现负载均衡
客户端检索数据，现在menstore找，找不到再找storefile

三、HBase数据模型

在这里插入图片描述

HRegion是HBase中分布式存储和负载均衡最小单元。最小单元就表示不同的HRegion可以分布在不同的HRegionserver上
HRegion由一个或者多个store组成，每个store保存一个columns family
每个store又有一个menstore和0至多个Store File组成。

1、RowKey

唯一标识一行数据
可以通过RowKey获取一行数据
按照字典顺序排序的
Row Key只能存储64k的字节数据

2、Column Family（列族）和qualifier（列）

HBase中的每个列都归属于某个列族列族必须作为表模式定义的一部分预先给出。如create ‘test’,‘course’。
列名以列族作为前缀，每个列族都可以有多个列成员；如course：English，course：math，新的列族成员可以按需求、动态加入
权限控制、存储以及调优都是在列族层面进行的
HBase把同一列组里面的数据存储在同一目录下，由几个文件保存

3、Timestamp时间戳

在HBase每个cell存储单元对同一份数据有多个版本，根据唯一的时间戳来区分每个版本之间的差异，不同版本的数据按照时间倒序排序，最新的数据排在前面
时间戳的类型是64位整型
时间戳可以有HBase赋值，此时时间戳是精确到毫秒的
时间戳也可以由客户显示赋值，如果应用程序要避免版本冲突，必须自己生成具有唯一性的时间戳

4、cell单元格

由行和列的坐标交叉决定
单元格是有版本的
单元格的内容是为解析的字节数组
由{Row Key，column（=+),version}唯一确定的单元格

四、读写流程

在这里插入图片描述

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

上一篇文章下一篇文章查看所有文章

加:2021-10-17 12:03:34 更:2021-10-17 12:04:54

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2026年4日历

-2026/4/7 9:34:42-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码