IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hbase记录第二篇 -> 正文阅读

[大数据]Hbase记录第二篇

Hbase入门第一篇

优势

相比较于面向行存储的Mysql,hbase面向列存储
Mysql做数据聚合操作时,都是读取一行数据,一行中很多值并不需要,就造成了性能浪费。
而面向列存储,只读取需要的那个列的值,就更适合海量数据的读取统计分析

hbase高可靠,高性能,面向列,可伸缩的分布式存储系统

介绍

按照列簇存储,一个列簇包含很多列。并且稀疏存储,只存需要的列,不是每行所有列的值都必须存值
一个列簇一个store,相当于垂直拆分
Region相当于分区,水平拆分

在这里插入图片描述

查询方式 scan/get 写入方式 put
这里rowkey 1001的name,sex两列数据因为都属于1001 rowkey,算同一行数据。所以这里scan只有2行数据。
因为稀疏表,所以可以一行没有name的列值。另外当根据rowkey范围查询如1001-1003时左闭右开,不会显示1003
put时以时间戳版本形式加入数据。表象是相同覆盖,没有新增。但当通过版本号查询时,删除的数据依然可以读取

在这里插入图片描述
读取的三种方式

在这里插入图片描述
Hbase 协处理功能

在这里插入图片描述

类似Spring AOP,Hbase支持自定义的增强操作。
比如postPut可以实现执行完hbase插入操作后,自动另一个新表插入该数据的后置功能

Hbase优化

高可用配置

HA配置backup-masters

预分区

rowkey存储是根据字典顺序排序的,建议不要用数字日期来分区。
例如rowkey 1000,1001,1002。当触发分区时,会按照rowkey字典中间值来划分,1000,1001和1002两个分区
以后1002以后的数据都只会进入1002的分区,容易造成数据倾斜

为了避免频繁的自动分区,可以提前规划好分区,提高性能

在这里插入图片描述

Rowkey设计

尽量平均划分数据到分区中,避免数据倾斜

原则
	唯一性原则,类似mysql主键。rowkey根据字典排序,可以根据这个规则让经常查询的数据放一起
	长度原则,不能太长太短 60-80byte,最大值64k
	散列原则,随机均分分配

内存优化

在这里插入图片描述

Hbase常见问题

热点/数据倾斜问题

在这里插入图片描述
合并问题

小合并合并文件,大合并清除数据,提高读写效率
大合并/小合并具体内容看第一篇文章。大合并会阻塞写操作
合并时机:每次flush判断,也有专门checkFlush线程周期判断

宕机问题

在这里插入图片描述
Hbase region划分

rowkey根据字典排序的middleKey来划分分区,大小不一定一样
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-04-06 23:15:00  更:2022-04-06 23:18:32 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 5:59:55-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码