项目混用了多个HiveServer2 和 HiveCli。一段时间以后,出现了一个奇怪的问题。一个客户端修改了表结构以后,其他客户的访问的时候,却发现表结构并没有被同步修改。
查了不少资料,最后发现是因为HiveServer2 服务器开启了缓存的问题,记录如下:
问题出现原因是由于 L2 cache 这种缓存机制不支持分布式缓存。
关闭 L2 cache 后问题解决
<property>
<name>datanucleus.cache.level2.type</name>
<value>none</value>
</property>
因没有 HiveServer2 的配置权限,发现一个临时的解决办法。登陆到执行作业的 HiveServer2 上,使用 set 语句关闭这个参数,然后访问修改的表(desc 一下就可以),退出。下次再访问的时候就发现缓存已经更新了。
set datanucleus.cache.level2.type=none;
Hive 默认是关闭了这个参数的:
| datanucleus.cache.level2.type
Default Value: none in Hive 0.9 and later; SOFT in Hive 0.7 to 0.8.1 Added In: Hive 0.7.0</ |

在项目中使用多个HiveServer2和HiveCli时,遇到表结构修改后其他客户端未同步的情况。问题根源是HiveServer2的L2缓存导致的分布式缓存不一致。关闭L2缓存或通过Hive CLI设置datanucleus.cache.level2.type为none可临时解决。默认情况下,Hive的Level 2 Cache是启用的,可以通过配置datanucleus.cache.level2.type来控制,选择'none'可禁用二级缓存。
1877

被折叠的 条评论
为什么被折叠?



