最近在使用hive时,需要将hive查询的数据导出到本地文件系统,HQL语法如下:
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1 查询结果导出到本地文件后,试图使用excel加载时遇上了麻烦:不知道hive导出文件时使用的分隔符, 使用文本编辑器打开也显示乱码。 最后在官方文档上找了半天才发现,hive使用 ^A 符号作为域的分隔符,原文如下: Data written to the filesystem is serialized as text with columns separated by ^A
在python中可以使用line.split('\x01')来进行切分
如果确实需要将查询结果导出到本地文件,最好使用hive的命令:
- bin/hive -e "select * from test" >> res.csv
- 或者是:
- bin/hive -f sql.q >> res.csv
- 其中文件sql.q写入你想要执行的查询语句
本文介绍了如何在Python中利用Hive进行数据处理,并将查询结果导出到本地CSV文件的方法,包括使用`hive -e`命令直接执行SQL语句或通过读取SQL文件的方式。
335

被折叠的 条评论
为什么被折叠?



