属性优化:

开启本地模式:

hive.exec.mode.local.auto=true;

JVM重用

mapreduce.job.jvm.numtasks=10

推测执行

mapreduce.map.speculative=true
mapreduce.reduce.speculative=true
hive.mapred.reduce.tasks.speculative.execution=true

Fetch抓取

hive.fetch.task.conversion=more

并行执行

hive.exec.parallel=true
hive.exec.parallel.thread.number=16

压缩

hive.exec.compress.intermediate=true
hive.exec.orc.compression.strategy=COMPRESSION
mapreduce.map.output.compress=true
mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.DefaultCodec

矢量化查询

hive.vectorized.execution.enabled = true;
hive.vectorized.execution.reduce.enabled = true;

零拷贝

hive.exec.orc.zerocopy=true;

关联优化

hive.optimize.correlation=true;

CBO优化器

hive.cbo.enable=true;
hive.compute.query.using.stats=true;
hive.stats.fetch.column.stats=true;
hive.stats.fetch.partition.stats=true;

小文件处理

#设置Hive中底层MapReduce读取数据的输入类：将所有文件合并为一个大文件作为输入
hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
#如果hive的程序，只有maptask，将MapTask产生的所有小文件进行合并
hive.merge.mapfiles=true;
hive.merge.mapredfiles=true;
hive.merge.size.per.task=256000000;
hive.merge.smallfiles.avgsize=16000000;

索引优化

hive.optimize.index.filter=true

谓词下推PPD

hive.optimize.ppd=true;

Inner Join和Full outer Join，条件写在on后面，还是where后面，性能上面没有区别
Left outer Join时，右侧的表写在on后面，左侧的表写在where后面，性能上有提高
Right outer Join时，左侧的表写在on后面、右侧的表写在where后面，性能上有提高
如果SQL语句中出现不确定结果的函数，也无法实现下推

Map Join

hive.auto.convert.join=true
hive.auto.convert.join.noconditionaltask.size=512000000

Bucket Join

hive.optimize.bucketmapjoin = true;
hive.auto.convert.sortmerge.join=true;
hive.optimize.bucketmapjoin.sortedmerge = true;
hive.auto.convert.sortmerge.join.noconditionaltask=true;

Task内存

mapreduce.map.java.opts=-Xmx6000m;
mapreduce.map.memory.mb=6096;
mapreduce.reduce.java.opts=-Xmx6000m;
mapreduce.reduce.memory.mb=6096;

缓冲区大小

mapreduce.task.io.sort.mb=100

Spill阈值

mapreduce.map.sort.spill.percent=0.8