IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Greenplum-表的存储模式 -> 正文阅读

[大数据]Greenplum-表的存储模式

在学习Greenplum的过程中,了解到Greenplum中表有多种不同的存储模式,包括堆表、AO表、行存、列表、压缩、加密这些特性,这些不同的存储模式分别适用什么样的场景,我们在真正使用的时候又该怎么合理的选择哪一种表呢?本文就GP中的这几种表的存储模式加以说明。

配置参数

既然GP中的表有这么多的存储模式,那么肯定就有一种存储模式是默认选择,这个默认值通过参数gp_default_storage_options来控制。
我们可以通过以下命令来查看一个数据库中的默认存储模式:
gpconfig --show gp_default_storage_options
示例输出如下:

Values on all segments are consistent
GUC          : gp_default_storage_options
Master  value: appendonly=false,blocksize=32768,compresstype=none,checksum=true,orientation=row
Segment value: appendonly=false,blocksize=32768,compresstype=none,checksum=true,orientation=row

以上输出表示,默认的存储模式为行存无压缩堆表

堆表

堆表是默认的存储模式。
适用场景:OLTP类型工作负载,数据装载之后需要频繁的更新。适合小表,如维度表。
6版本引入全局死锁检测,打开此功能后,堆表的更新操作可以并发执行,通过以下参数控制,默认为off。
gpconfig --show gp_enable_global_deadlock_detector

Values on all segments are consistent
GUC          : gp_enable_global_deadlock_detector
Master  value: off
Segment value: off

堆表创建示例:

=# create table foo (a int, b text) distributed by (a);
CREATE TABLE
=# \d foo
      Table "public.foo"
 Column |  Type   | Modifiers 
--------+---------+-----------
 a      | integer | 
 b      | text    | 
Distributed by: (a)

AO表(Append-Optimized)

适用场景:OLAP类型工作负载,分批加载入库且不会频繁更新。适合大表,如事实表。AO表不维护MVCC信息,节省一定空间。再结合压缩选项,可大大节省空间。

创建示例:

=# create table bar (a int, b text) with (appendoptimized=true) distributed by (a);
CREATE TABLE
=# \d bar
Append-Only Table "public.bar"
 Column |  Type   | Modifiers 
--------+---------+-----------
 a      | integer | 
 b      | text    | 
Compression Type: None
Compression Level: 0
Block Size: 32768
Checksum: t
Distributed by: (a)

以上关键字Append-Only Table代表创建的为AO表

行存

可以是堆表,也可以是AO表。
适用场景:频繁更新、频繁insert、select或where有经常涉及很多字段。
注:堆表只能创建为行存不能创建为列存。AO表如果没有明确指定创建为列存,默认创建为行存。

列存

只能是AO表。
适用场景:与上述相反。数据批量插入、极少更新、select或where只涉及表的很少字段。

创建示例:

=# create table bar (a int, b text) with (appendoptimized=true, orientation=column) distributed by (a);
CREATE TABLE
=# \d bar
Append-Only Columnar Table "public.bar"
 Column |  Type   | Modifiers 
--------+---------+-----------
 a      | integer | 
 b      | text    | 
Checksum: t
Distributed by: (a)

以上关键字Append-Only Columnar代表创建的为AO列存表
注:大部分情况下,不建议使用列存,因为会导致文件数膨胀严重。

压缩

只能是AO表。
压缩可以作用于整表,也可以是特定列,可以对不同的列使用不同的压缩算法。

行或列可用压缩类型支持压缩算法
表级ZLIB, ZSTD, and QUICKLZ(开源版本不可用)
表级或列级RLE_TYPE, ZLIB, ZSTD, and QUICKLZ(开源版本不可用))

创建示例:

=# create table foo (a int, b text) with (appendoptimized=true, compresstype=zlib, compresslevel=5) distributed by (a);
CREATE TABLE
=# \d foo
Append-Only Table "public.foo"
 Column |  Type   | Modifiers 
--------+---------+-----------
 a      | integer | 
 b      | text    | 
Compression Type: zlib
Compression Level: 5
Block Size: 32768
Checksum: t
Distributed by: (a)

以上关键字Compression Type: zlibCompression level: 5代表创建的表使用5级zlib压缩算法

检查压缩与分布情况

Greenplum针对压缩率与数据分布情况分别提供了对应的函数可以查询,

函数返回类型描述
get_ao_distribution(name) get_ao_distribution(oid)集合类型(dbid, tuplecount)展示AO表的分布情况,每行对应segid和记录数
get_ao_compression_ratio(name) get_ao_compression_ratio(oid)float8计算AO表的压缩率。如果该信息未得到,将返回-1。

示例:

=# select * from get_ao_distribution('bar');
 segmentid | tupcount 
-----------+----------
         2 |     3247
         1 |     3385
         0 |     3368
(3 rows)

=# select * from get_ao_compression_ratio('bar');
 get_ao_compression_ratio 
--------------------------
                        1
(1 row)
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-09-21 00:35:41  更:2022-09-21 00:39:18 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 10:33:51-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码