当我们使用hive引擎的时候,有时候会出现yarn调度资源内存不足或者java堆内存溢出的问题:
[Error: Error while running task ( failure ) : java.lang.OutOfMemoryError: Java heap space
[2020-12-25 15:17:34,519] {bash_operator.py:127} INFO - at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57)
第一步: 打开hive-env.sh文件,修改hadoop 堆内存大小:
export HADOOP_HEAPSIZE=3072
第二步: 打开hadoop 的yarn-site.xml文件,增加如下内容::
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>2.1</value>
</property>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx1024m</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
到这里一般就可以了,如果还不行,尝试使用下面第三步参数调优!
第三步: 调优(资源允许的情况下)
这个时候需要我们调整tez的参数,如下
–修改tez container大小由2G调到8G
hive.tez.container.size=8192
–TEZ MAP split最小值由16M调为64M
tez.grouping.min-size=67108864 (需要在hive-site文件中自定义新增)
–tez 设置输出排序内存大小由512M调整至2G
tez.runtime.io.sort.mb=2048
–表小于2G时把join转为MAPJOIN
hive.auto.convert.join.noconditionaltask.size=2147483648
–使用的缓冲区大小
tez.runtime.unordered.output.buffer.size-mb=512
参数调整完毕,问题解决
|