Hive不同存储格式下的压缩算法对比
| 压缩算法 |
Text格式 |
Parquet格式 |
ORC格式 |
|---|---|---|---|
| 不压缩 |
119.2G |
54.1G |
20.0G |
| Snappy压缩 |
30.2 G |
23.6G |
13.6G |
| Gzip压缩 |
18.8 G |
14.1 G |
不支持 |
| ZLIB压缩 |
不支持 |
不支持 |
10.1G |
Spark查询Hive(Orc格式)时遇到的问题
1、Orc的压缩格式设置方法为:orc.compress=SNAPPY,默认为ZLIB(一定要大写;推荐使用ZLIB,和SNAPPY比压缩提升不少,查询差距不大,资源消耗也差距不大)
2、直接全量count时,Hive效率高于Spark(Hive不提交任务到集群,直接通过fil

本文对比了Hive在不同存储格式(Text、Parquet、ORC)下使用多种压缩算法(Snappy、Gzip、ZLIB)的效果,详细展示了各种格式在压缩前后的存储空间变化。同时,深入探讨了Spark查询Hive ORC格式数据时的常见问题及优化策略,包括压缩格式设置、查询效率对比、事物支持及调优参数。
469

被折叠的 条评论
为什么被折叠?



