tez得文件生成个数与什么有关？

原创

已于 2023-05-15 15:12:12 修改 · 1k 阅读

收录于

当前文章被以下社区和专栏收录：

于 2023-04-07 17:04:55 首次发布

文章探讨了在HiveonTez环境下，如何调整参数如hive.tez.cpu.vcores,mapred.reduce.tasks,hive.exec.reducers.bytes.per.reducer和hive.merge.tezfiles来控制文件的生成数量。尽管尝试了不同设置，但测试结果始终未改变，生成11个文件。作者怀疑可能是环境配置问题，并邀请读者进行测试验证。

之前研究过hive on spark，最后的文件生成个数
hive-mapJoin和skewJoin-CSDN博客
现在在cdp了使用的是hive on tez。也在学习下这个文件的生成个数与什么有关？

以该表为例有11个文件每个差不多60M左右总共620M左右。

我们先想下哪些参数和生成的文件数有关？

set hive.tez.cpu.vcores --好像是tez处理时用的core 类似spark的core 默认没有

set mapred.reduce.tasks=10 --reduce的个数默认-1

set hive.exec.reducers.bytes.per.reducer=67108864 --默认64M

set hive.merge.tezfiles=false --合并小文件默认false

-- set mapreduce.reduce.cpu.vcores=1 --reduce使用的core 默认1 这个参数在set找得到但是官网和hive的文档里找不到，不做考虑

distribute by

order by

来点参数说明