Hive不同存储格式下的压缩算法对比

最新推荐文章于 2025-09-15 02:24:29 发布

原创

最新推荐文章于 2025-09-15 02:24:29 发布 · 1.1k 阅读

·

0

·

本文对比了Hive在不同存储格式(Text、Parquet、ORC)下使用多种压缩算法(Snappy、Gzip、ZLIB)的效果，详细展示了各种格式在压缩前后的存储空间变化。同时，深入探讨了Spark查询Hive ORC格式数据时的常见问题及优化策略，包括压缩格式设置、查询效率对比、事物支持及调优参数。

Hive不同存储格式下的压缩算法对比

压缩算法	Text格式	Parquet格式	ORC格式
不压缩	119.2G	54.1G	20.0G
Snappy压缩	30.2 G	23.6G	13.6G
Gzip压缩	18.8 G	14.1 G	不支持
ZLIB压缩	不支持	不支持	10.1G

Spark查询Hive（Orc格式）时遇到的问题

1、Orc的压缩格式设置方法为：orc.compress=SNAPPY,默认为ZLIB（一定要大写；推荐使用ZLIB，和SNAPPY比压缩提升不少，查询差距不大，资源消耗也差距不大）

2、直接全量count时，Hive效率高于Spark（Hive不提交任务到集群，直接通过fil

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。