MapReduce中自定义group所遇到的坑

最新推荐文章于 2021-03-25 15:10:59 发布

原创最新推荐文章于 2021-03-25 15:10:59 发布 · 428 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

大数据

当前文章被收录于：

大数据

1 篇文章 0 人学习

订阅专栏查看详情

当前文章被以下社区和专栏收录：

本文阐述了在MapReduce作业中如何通过自定义分组类和合理选择key2来优化数据处理流程。关键在于设置自定义的group类，并理解默认排序和分组机制，以提高数据处理效率。

1.一定要在主类中设置自定义的group类。
job.setGroupingComparatorClass(自定义分组类.class);
2.当以自定义的类中的某一个具体字段作为key2时（key2也就是分组依据），默认是取map端排序并且分组好的第一个类作为key2进行输出。如图：
在这里插入图片描述