之前研究过hive on spark,最后的文件生成个数
hive-mapJoin和skewJoin-CSDN博客
现在在cdp了 使用的是hive on tez。也在学习下这个文件的生成个数与什么有关?
以该表为例 有11个文件 每个差不多60M左右 总共620M左右。

我们先想下 哪些参数和生成的文件数有关?
set hive.tez.cpu.vcores --好像是tez处理时用的core 类似spark的core 默认没有
set mapred.reduce.tasks=10 --reduce的个数 默认-1
set hive.exec.reducers.bytes.per.reducer=67108864 --默认64M
set hive.merge.tezfiles=false --合并小文件 默认false
-- set mapreduce.reduce.cpu.vcores=1 --reduce使用的core 默认1 这个参数在set找得到但是官网和hive的文档里找不到,不做考虑
distribute by
order by
来点参数说明
hive.tez.cpu.vcores
- Default Value: <

文章探讨了在HiveonTez环境下,如何调整参数如hive.tez.cpu.vcores,mapred.reduce.tasks,hive.exec.reducers.bytes.per.reducer和hive.merge.tezfiles来控制文件的生成数量。尽管尝试了不同设置,但测试结果始终未改变,生成11个文件。作者怀疑可能是环境配置问题,并邀请读者进行测试验证。
1480

被折叠的 条评论
为什么被折叠?



