[大数据] 大数据Hive ACID及类似产品

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 大数据Hive ACID及类似产品 -> 正文阅读

[大数据]大数据Hive ACID及类似产品

Hive3.0后默认建立的表为事务表，支持update, merge对数据进行更新处理。下面是示例，可以看到参数'transactional'='true'。

0: jdbc:hive2://node3:2181,node4:2181,node2:2> show create table yah_test;
+----------------------------------------------------+
|                   createtab_stmt                   |
+----------------------------------------------------+
| CREATE TABLE `yah_test`(                           |
|   `id` int,                                        |
|   `name` string,                                   |
|   `age` int,                                       |
|   `datetime` timestamp,                            |
|   `at` bigint,                                     |
|   `ate` string)                                    |
| ROW FORMAT SERDE                                   |
|   'org.apache.hadoop.hive.ql.io.orc.OrcSerde'      |
| WITH SERDEPROPERTIES (                             |
|   'field.delim'='',                               |
|   'serialization.format'='')                      |
| STORED AS INPUTFORMAT                              |
|   'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'  |
| OUTPUTFORMAT                                       |
|   'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat' |
| LOCATION                                           |
|   'hdfs://tpbigdata/warehouse/tablespace/managed/hive/warehouse.db/yah_test' |
| TBLPROPERTIES (                                    |
|   'bucketing_version'='2',                         |
|   'last_modified_by'='hive',                       |
|   'last_modified_time'='1621475554',               |
|   'orc.compress'='snappy',                         |
|   'serialization.encoding'='utf-8',                |
|   'transactional'='true',                          |
|   'transactional_properties'='default',            |
|   'transient_lastDdlTime'='1621475712')            |
+----------------------------------------------------+
27 rows selected (0.154 seconds)

Hive3之后数据的存储目录结构也进行了相应的调整：

[root@node2 ~]# hdfs dfs -ls /warehouse/tablespace
Found 2 items
drwxr-xr-x ? - hdfs hdfs ? ? ? ? ?0 2020-08-27 16:48 /warehouse/tablespace/external
drwxr-xr-x ? - hdfs hdfs ? ? ? ? ?0 2020-08-27 16:48 /warehouse/tablespace/managed

许多开源项目都在解决多版本并发控制(MVCC, multi-version concurrency)以及对数据湖中的数据进行事务更新和删除。比较突出的几个产品包括：