Hive 数据仓库,对经常查询的大数据表建立分区就是对Hive SQL查询的一种优化,一般常用日期做分区,因为日期一直以来业务比较关注的统计维度,比如年度报告,月度报告,甚至季度报告等等。
个人建议:使用年月日分区,作三分区,在建表语句之后使用 partitioned by (pt_year int, pt_month int, pt_date int) 增加分区后,在查询时加入分区条件可以提高查询到速度和降低内存消耗。
本文介绍如何通过使用日期作为分区字段来优化HiveSQL查询。特别推荐采用年月日三级分区的方式,以提升查询效率并减少资源消耗。
Hive 数据仓库,对经常查询的大数据表建立分区就是对Hive SQL查询的一种优化,一般常用日期做分区,因为日期一直以来业务比较关注的统计维度,比如年度报告,月度报告,甚至季度报告等等。
个人建议:使用年月日分区,作三分区,在建表语句之后使用 partitioned by (pt_year int, pt_month int, pt_date int) 增加分区后,在查询时加入分区条件可以提高查询到速度和降低内存消耗。
890
1014

被折叠的 条评论
为什么被折叠?