Hive不同存储格式下的压缩算法对比

本文对比了Hive在不同存储格式(Text、Parquet、ORC)下使用多种压缩算法(Snappy、Gzip、ZLIB)的效果,详细展示了各种格式在压缩前后的存储空间变化。同时,深入探讨了Spark查询Hive ORC格式数据时的常见问题及优化策略,包括压缩格式设置、查询效率对比、事物支持及调优参数。

Hive不同存储格式下的压缩算法对比

压缩算法

Text格式

Parquet格式

ORC格式

不压缩

119.2G

54.1G

20.0G

Snappy压缩

30.2 G

23.6G

13.6G

Gzip压缩

18.8 G

14.1 G

不支持

ZLIB压缩

不支持

不支持

10.1G

 


Spark查询Hive(Orc格式)时遇到的问题

1、Orc的压缩格式设置方法为:orc.compress=SNAPPY,默认为ZLIB(一定要大写;推荐使用ZLIB,和SNAPPY比压缩提升不少,查询差距不大,资源消耗也差距不大)

2、直接全量count时,Hive效率高于Spark(Hive不提交任务到集群,直接通过fil

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值