什么是分区表? ????分区表是将较大的数据集,按分区字段进行分开存储,已达到优化查询速度的目的,在Hive中就是采用划分目录的策略来达到分区划分的目的。 ????Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。
什么是动态分区(DP dynamic partition)和静态(SP static partition)分区。
- 静态分区 :在插入数据时,需要手动指定相应的分区。
- 动态分区 :插入数据时,系统会自动将数据分区。
1. 建立分区表的语句
create table tbl_name(
name String,
age int
)
partitioned by (year int comment '出生的年',month int comment '出生的月',...)
2.插入
2.1 静态分区插入数据
1.insert into table `tbl_name` partition(p_key=`p_val`,...) values..
2.load data local inpath `path` into table `tbl_name` partition(p_key=`p_val`,....)
2.2 动态分区插入数据
set hive.exec.dynamic.partition=true; 开启动态分区
set hive.exec.dynamic.partition.mode=nonstrict; 设置为非严格模式
SET hive.exec.max.dynamic.partitions=100000; 可以创建的动态分区数总量
insert into table `tbl_name` partition(p_key) into values(...)
3.查看分区信息
show partition `tbl_name`;
4.删除分区
alter table `tbl_name` drop partition(p_key='p_val')
|