java连接Hive的几种方式

最新推荐文章于 2024-10-30 22:34:09 发布

原创最新推荐文章于 2024-10-30 22:34:09 发布 · 1.3w 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#java #jdbc #exception #string #测试

JAVA开发技巧专栏收录该内容

12 篇文章

订阅专栏

本文对比了三种Hive连接方式：CLI控制台操作、JDBC连接及直接利用Hive的Driverclass连接。分析了每种方式的特点及适用场景，指出CLI适合测试而非产品开发；JDBC连接不稳定，不适合大数据量；而直接使用Driverclass方式可能更高效。

测试环境　Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.6

1、一般来说我们对hive的操作都是通过cli来进行，也就是Linux的控制台，但是，这样做本质上是每个连接都存放一个元数据，各个之间都不相同，所以，对于这样的模式我建议是用来做一些测试比较合适，并不适合做产品的开发和应用。

2、JDBC连接的方式，当然还有其他的连接方式，比如ODBC等，　这种方式很常用，可以在网上随便找到，就不再累赘了。

不稳定，经常会被大数据量冲挂，不建议使用。

3、这种方式是直接利用Hive的 Driver class 来直接连接，感觉这种方式不通过JDBC，应该速度会比较快一点（未经验证）。我只是在local模式下测试过。

import org.apache.hadoop.hive.conf.HiveConf;
import org.apache.hadoop.hive.ql.Driver;
import org.apache.hadoop.hive.ql.session.SessionState;

public class Test {

    public static void main(String args[]) {
        Vector<String> res = new Vector<String>();
        String sql = "SELECT * from test";
        Driver driver = new Driver(new HiveConf(SessionState.class));
        int ret = driver.run(sql);
        try {
            driver.getResults(res);
        } catch(IOException e) {
            e.printStackTrace();
        }
        driver.close();
        System.out.println(driver.getMaxRows());
        try {
            System.out.println(driver.getSchema());
            //System.out.println(driver.getThriftSchema());
        } catch(Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
//        System.out.println(res);
//        System.out.println(ret);
    }
}