MapReduce Input Split(输入分/切片)详解
public static long getMaxSplitSize(JobContext context) {
return context.getConfiguration().getLong(SPLIT_MAXSIZE,
Long.MAX_VALUE);
}
如果没有设置这maxsize默认是Long.MAX_VALUE
public static long getMinSplitSize(JobContext job) {
return job.getConfiguration().getLong(SPLIT_MINSIZE, 1L);
}
如果没有设置这minsize默认是1L

按照这样的理解,应该是将maxsize设置的小一些(小于blocksiz)那么这个切片就变小了
如果将minisize设置大一些(大于blocksize)那么这个切片就变大了,
设置的方法是
FileInputFormat.setMaxInputSplitSize(job, size);
FileInputFormat.setMinInputSplitSize(job, size);
切片数和文件在hdfs上的块数不是一个概念
本文深入探讨MapReduce中输入切片(MapReduceInputSplit)的机制,包括最大和最小切片大小的设置方法,以及这些设置如何影响数据处理效率。通过调整maxsize和minsize参数,可以优化数据切分,提高并行处理能力。
3万+

被折叠的 条评论
为什么被折叠?



