定期执行表（analyze）的分析，分析后的数据放在元数据库中。

1.3分区表

1.4 分桶表

1.5文件格式

1.6 数据压缩

二、参数优化

2.1本地模式（默认开启）

2.2 严格模式

2.3 JVM重用

?2.4 并行执行

2.5 推测执行（默认开启）

2.6 合并小文件（默认开启）

2.7 Fetch模式(默认开启)

三、SQL优化

sort by 代替 order by

group by 代替 count(distinct)

group by 配置调整

map端预聚合

-- 默认为true 
set hive.map.aggr = true

--Map端进行聚合操作的条目数
set hive.groupby.mapaggr.checkinterval = 100000


设置map端预聚合的行数阈值，超过该值就会分拆job，默认值10W。

倾斜均衡配置项

group by 时如果某些 key 对应的数据量过大，就会发生数据倾斜。 Hive 自带了一个均

衡数据倾斜的配置项 hive.groupby.skewindata ，默认值 false 。

set hive.groupby.skewindata=true;

2、map join

map 端连接，与普通连接的区别是这个连接中不会有 reduce 阶段存在，连接在 map 端完成

适用场景：大表与小表连接，小表数据量应该能够完全加载到内存，否则不适用

优点：在大小表连接时性能提升明显

缺点：使用范围较小，只针对大小表且小表能完全加载到内存中的情况。

map join 的配置项是 hive.auto.convert.join ，默认值 true 。

当 build table 大小小于 hive.mapjoin.smalltable.filesize 会启用 map join ，默认值25000000 （约 25MB ）。

还有 hive.mapjoin.cache.numrows ，表示缓存 build table的多少行数据到内存，默认值 25000 。

3、bucket map join

分桶连接： Hive 建表的时候支持 hash 分区通过指定 clustered by (col_name,xxx ) into number_buckets buckets 关键字 . 当连接的两个表的 join key 就是 bucket column 的时候，

就可以通过设置 hive.optimize.bucketmapjoin= true 来执行优化。

原理：通过两个表分桶在执行连接时会将小表的每个分桶映射成 hash 表，每个 task节点都需要这个小表的所有hash 表，但是在执行时只需要加载该 task 所持有大表分桶对应的小表部分的hash 表就可以，

所以对内存的要求是能够加载小表中最大的 hash块即可。

注意点：小表与大表的分桶数量需要是倍数关系，这个是因为分桶策略决定的，分桶时会根据分桶字段对桶数取余后决定哪个桶的，所以要保证成倍数关系。

优点：比 map join 对内存的要求降低，能在逐行对比时减少数据计算量（不用比对小表全量）

缺点：只适用于分桶表

4 、倾斜均衡配置项

这个配置与 group by 的倾斜均衡配置项异曲同工，通过 hive.optimize.skewjoin 来配置，默认false 。

如果开启了，在 join 过程中 Hive 会将计数超过阈值 hive.skewjoin.key （默认 100000）的倾斜 key 对应的行临时写进文件中，然后再启动另一个 job 做 map join 生成结果。

通过 hive.skewjoin.mapjoin.map.tasks 参数还可以控制第二个 job 的 mapper数量，默认 10000 。

5、调整 Map 数

对于小文件采用的策略是合并,减少 Map 数。

对于复杂文件采用的策略是增加 Map 数。

set computeSliteSize(max(minSize, min(maxSize, blocksize))) = blocksize 

minSize : mapred.min.split.size （默认值1） 
maxSize : mapred.max.split.size （默认值256M） 
调整maxSize最大值。让maxSize最大值低于blocksize就可以增加map的个数。 
建议用set的方式，针对SQL语句进行调整。

6、调整 Reduce 数 ?

参数 hive.exec.reducers.bytes.per.reducer 用来设定每个 reducer 能够处理的最大数据量，默认值256M

参数 hive.exec.reducers.max 用来设定每个 job 的最大 reducer 数量，默认值 999（ 1.2 版本之前）或 1009 （ 1.2 版本之后）

即： min( 输入总数据量 / 256M, 1009)

reducer 数量与输出文件的数量相关。如果 reducer 数太多，会产生大量小文件，对

HDFS 造成压力。如果 reducer 数太少，每个 reducer 要处理很多数据，容易拖慢运行

时间或者造成 OOM 。

四、优化实战

-- 创建数据库 
create database tuning; 
use tuning;

-- 创建表 
create table if not exists tuning.student_txt( 
s_no string comment '学号', 
s_name string comment '姓名',
s_birth string comment '出生日期',
s_age int comment '年龄',
s_sex string comment '性别',
s_score int comment '综合得分',
s_desc string comment '自我介绍' 
)
row format delimited fields terminated by '\t';


-- 数据加载 
load data local inpath '/root/hive/student/*.txt' into table tuning.student_txt;

SQL 案例

查询 student_txt 表，每个年龄最晚出生和最早出生的人的出生日期，并将其存入表 student_stat 中。

create table student_stat (
age int, 
brith string
) 
partitioned by (tp string);


-- 开启动态分区 
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

总结：

方法(1)

方法(2)

?把表的文件格式换成ocr格式或者partquet格式

[大数据]Hive调优策略

一、架构优化?

1.1执行引擎

1.2 优化器

1.2.1 矢量化查询执行

1.2.2 成本优化器

1.3分区表