[大数据] 关于处理小文件数过多影响sql效率的调优问题

背景：sparksql执行过程中，发现task数目特别多，大大降低了执行的效率，经排查后发现是某张表的底层文件数过多，且每个文件大小都很小，也就是出现了小文件过多的情况

原理：

此处要区分spark任务和hive任务在落盘时候是不同的

spark任务可以直接通过设定repartition(N)的命令来设置每个分区下的文件数目，同时在sql查询末加上distribute by rand()来避免文件大小不均以及数据倾斜的问题，这里不多描述

hive任务略有不同

首先reducer数目直接影响到的就是生成文件的数目

设置reducer数目可以通过set mapred.reduce.tasks=N来设置

这里要解释下distribute by rand() 和 distribute by XXX（通常是分区字段）的区别（区别在reducer=1时体现不出）

前者是根据rand生成的随机数和reducer取模后分配到对应的reducer进行计算，因此数量上比较平均，且每个分区生成N个大小差不多的文件

后者是根据XX字段相同的记录分配到同一个reducer进行计算，因此每个分区生成1个文件，因为同个分区都只有一个reducer，但可能导致数据倾斜

解决办法：

写python脚本，自己读取自己的数据，然后insert overwrite本身设置reducer数目为1且distribute by分区

加:2021-08-06 21:12:14 更:2021-08-06 21:12:33

-2025/8/5 21:24:48-

网站联系: qq:121756557 email:121756557@qq.com IT数码