Hive创建表的过程详细过程
Demo
第一个demo
CREATE TABLE db.testTable(
id string COMMENT 'id'
,name string COMMENT '姓名'
,age bigint COMMENT '年龄'
)
COMMENT '测试表'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
SOTRED AS PARQUET;
这个创建表的涉及的参数主要有:
- ROW FORMAT DELIMITED
- FIELDS TERMINATED BY ‘\001’
- SOTRED AS PARQUET;
上述创建过程最后会解析为:
CREATE TABLE db.testTable(
id string COMMENT 'id'
,name string COMMENT '姓名'
,age bigint COMMENT '年龄'
)
COMMENT '测试表'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\u0001'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
也就是说: SOTRED AS PARQUET;等价于
- STORED AS INPUTFORMAT :存储格式
- OUTPUTFORMAT 输出格式
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\001’ 表示要指定表的列分隔符,其中:
- ROW FORMAT DELIMITED:是指定分隔符的标示
- FIELDS TERMINATED BY '\001’表示指定的是列分隔符
第二个demo
CREATE TABLE db.testTable(
id string COMMENT 'id'
,name string COMMENT '姓名'
,age bigint COMMENT '年龄'
)
COMMENT '测试表'
SOTRED AS PARQUET;
这个等价于:
CREATE TABLE db.entity_deleteParquet0728(
id_reserve string COMMENT '需要保留的ID'
,id_delete string COMMENT '需要删除的ID'
,component bigint COMMENT '连通图分组编号'
)
COMMENT '测试'
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
这里SOTRED AS PARQUET;等价于:
- ROW FORMAT SERDE :指定序列化格式为PARQUET
- STORED AS INPUTFORMAT :存储格式
- OUTPUTFORMAT 输出格式
这里没有指定列的分隔符,那么就采用模式的分隔符\001。
这里会有个三个疑问
1、为什么这个SOTRED AS PARQUET包含了ROW FORMAT SERDE而上一个demo没有包含?
答:因为如果使用了ROW FORMAT DELIMITED指定行列分隔符,那么就会采用默认的SERDE 序列化格式,其实也就是
PARQUET的默认序列化格式:org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
2、为什么没有提到行分割符?
答:行分隔符默认是\n,如果不是特殊指定,可以不写
分区表的话:分区一定要写在row format之前,否则报错。
总结:
创建表的模板:
1、无特殊指定列分隔符
CREATE TABLE db.testTable(
id string COMMENT 'id'
,name string COMMENT '姓名'
,age bigint COMMENT '年龄'
)
COMMENT '测试表'
SOTRED AS PARQUET;
格式可以修改
2、指定列分隔符
CREATE TABLE db.testTable(
id string COMMENT 'id'
,name string COMMENT '姓名'
,age bigint COMMENT '年龄'
)
COMMENT '测试表'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
SOTRED AS PARQUET;
关键字含义
- SOTRED AS指定存储格式,等价于下面几项:
- ROW FORMAT SERDE :指定序列化格式为PARQUET
- STORED AS INPUTFORMAT :存储格式
- OUTPUTFORMAT 输出格式
- ROW FORMAT DELIMITED当指定行列分隔符时需要添加,同时指定列分隔符为CREATE TABLE db.testTable(
- 如果什么都不加,那么默认行分隔符时\n 列分隔符为\001 存储格式为TextFile
|