HiveServer2 有一个 JDBC 驱动程序。它支持对 HiveServer2 的嵌入式和 remote 访问。 Remote HiveServer2 模式建议用于 production 使用,因为它更安全,不需要为用户授予直接 HDFS/metastore 访问权限。
HiveServer2 URL 是一个 string,语法如下:
jdbc:hive2://<host1>:<port1>,<host2>:<port2>/dbName;initFile=<file>;sess_var_list?hive_conf_list#hive_var_list
如果需要,sess_var_list, hive_conf_list, hive_var_list参数值中的特殊字符应使用 URL 编码进行编码。
JDBC 连接 URL 格式的前缀为jdbc:hive2://,Driver class 为org.apache.hive.jdbc.HiveDriver。请注意,这与旧的HiveServer不同。
initFile选项在Hive 2.2.0及更高版本中可用。
JDBC 连接 URL:jdbc:hive2://:/;transportMode=http;httpPath=
早于 0.14 的版本
在早于0.14的版本中,这些参数过去分别被称为hive.server2.transport.mode和hive.server2.thrift.http.path,并且是 hive_conf_list 的一部分。这些版本已被弃用,以支持新版本(它们是 sess_var_list 的一部分),但现在仍在继续使用。
JDBC 连接 URL:
jdbc:hive2://<host>:<port>/<db>;ssl=true;sslTrustStore=<trust_store_path>;trustStorePassword=<trust_store_password>
在 HTTP 模式下:
jdbc:hive2://<host>:<port>/<db>;ssl=true;sslTrustStore=<trust_store_path>;trustStorePassword=<trust_store_password>;transportMode=http;httpPath=<http_endpoint>
Hive 0.14.0(HIVE-7935)中引入的 ZooKeeper-based 服务发现可实现 HiveServer2 的高可用性和滚动升级。需要使用指定的 JDBC URL 来使用这些 features。
随着 Hive 2.0.0 和 1.3.0(未发布,HIVE-11581)的进一步更改,需要指定其他 configuration 参数,例如身份验证模式,传输模式或 SSL 参数,因为它们是从 ZooKeeper 条目和主机名一起检索的。
JDBC 连接 URL:
jdbc:hive2://<zookeeper quorum>/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2
与 HiveServer2 使用的 hive-site.xml/hivserver2-site.xml 中 hive.zookeeper.quorum configuration 参数的 value 相同。
查询所需的其他运行时参数可以在 URL 中提供,如下所示,方法是将其附加到? 和以前一样。
JDBC 连接 URL:
jdbc:hive2://<zookeeper quorum>/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2?tez.queue.name=hive1&hive.server2.thrift.resultset.serialize.in.tasks=true
从 Hive 2.1.0(HIVE-13670)开始,Beeline 现在还通过使用环境变量来支持命名的 URL 连接 strings。如果您尝试将!connect设置为不像 URL 的 name,则 Beeline 将尝试查看是否存在名为 BEELINE_URL_ 的环境变量。例如,如果指定!connect blue,它将查找 BEELINE_URL_BLUE,并使用它进行连接。这应该使系统管理员更容易为用户指定环境变量,并且用户无需在每个 time 时键入完整的 URL 进行连接。
传统上,!reconnect已经努力刷新已经建立的连接。 !close运行后,无法进行全新连接。从 Hive 2.1.0(HIVE-13670)开始,Beeline 会记住在 session 中成功连接的最后一个 URL,并且即使已经 run 也可以重新连接。此外,如果用户执行!save,则会将其保存在 beeline.properties 文件中,然后允许!reconnect在多个Beeline会话中连接到此已保存的 last-connected-to URL。这也允许使用命令 line 中的beeline -r在启动时重新连接。
从 Hive 2.2.0(HIVE-14063)开始,Beeline 添加了对使用 classpath 中存在的 hive-site.xml 的支持,以根据 hive-site.xml 中的 configuration properties 和其他用户 configuration 文件自动生成连接 URL。并非所有的 URL properties 都可以从 hive-site.xml 派生,因此在 order 中使用此 feature 用户必须创建一个名为“beeline-hs2-connection.xml”的 configuration 文件,这是一个 Hadoop XML 格式文件。此文件用于为连接 URL 提供 user-specific 连接 properties。 Beeline 在$ {中查找此 configuration 文件。 516} /.beeline/(基于 Unix 的 OS)或$ {。 517}\beeline \目录(如果是 Windows)。如果在上述位置找不到该文件,则 Beeline 会在$ {中查找该文件。 518}位置和/etc/hive/conf(检查HIVE-16335,它在 Hive 2.2.0 中的/etc/conf/hive 中修复此位置)在该 order 中。找到文件后,Beeline 将 beeline-hs2-connection.xml 与 class 路径中的 hive-site.xml 结合使用以确定连接 URL。
beeline-hs2-connection.xml 中的 URL 连接 properties 必须具有前缀“beeline.hs2.connection”。后跟 URL property name。对于 order 中的 example 以提供 property ssl,beeline-hs2-connection.xml 中的 property key 应为“beeline.hs2.connection.ssl”。下面的 sample beeline.hs2.connection.xml 为 Beeline 连接 URL 提供了用户和密码的 value。在这种情况下,使用 class 路径中的 hive-site.xml 来获取 properties 的 rest,如 HS2 主机名和 port 信息,Kerberos configuration properties,SSL properties,传输模式等。如果密码为空,则应删除 beeline.hs2.connection.password property。在大多数情况下,beeline-hs2-connection.xml 中的以下 configuration 值和 classpath 中正确的 hive-site.xml 应足以建立与 HiveServer2 的连接。
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>beeline.hs2.connection.user</name>
<value>hive</value>
</property>
<property>
<name>beeline.hs2.connection.password</name>
<value>hive</value>
</property>
</configuration>
如果 beeline-hs2-connection.xml 和 hive-site.xml 中都存在 properties,则从 beeline-hs2-connection.xml 派生的 property value 优先。对于下面的示例 beeline-hs2-connection.xml 文件,在启用 Kerberos 的环境中为 Beeline 连接提供了 value。在这种情况下,就连接 URL 而言,beeline.hs2.connection.principal 的 property value 会从 hive-site.xml 覆盖 HiveConf.ConfVars.HIVE_SERVER2_KERBEROS_PRINCIPAL 的 value。
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>beeline.hs2.connection.hosts</name>
<value>localhost:10000</value>
</property>
<property>
<name>beeline.hs2.connection.principal</name>
<value>hive/[email protected]</value>
</property>
</configuration>
如果是 properties beeline.hs2.connection.hosts,beeline.hs2.connection.hiveconf 和 beeline.hs2.connection.hivevar,则 property value 是一个 comma-separated 值列表。对于 example,以下 beeline-hs2-connection.xml 以逗号分隔格式提供 hiveconf 和 hivevar 值。
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>beeline.hs2.connection.user</name>
<value>hive</value>
</property>
<property>
<name>beeline.hs2.connection.hiveconf</name>
<value>hive.cli.print.current.db=true, hive.cli.print.header=true</value>
</property>
<property>
<name>beeline.hs2.connection.hivevar</name>
<value>testVarName1=value1, testVarName2=value2</value>
</property>
</configuration>
当 beeline-hs2-connection.xml 存在且没有提供其他 arguments 时,Beeline 会自动连接到使用 configuration files 生成的 URL。当提供连接 arguments(-u,-n 或-p)时,Beeline 使用它们并且不使用 beeline-hs2-connection.xml 自动连接。删除或重命名 beeline-hs2-connection.xml 会禁用此 feature。
除了使用 hive-site.xml 和 beeline-hs2-connection.xml 来导出从 Beeline 连接到 HiveServer2 时使用的 JDBC 连接 URL 的上述方法之外,用户可以选择将 beeline-site.xml 添加到 classpath,并且在 beeline-site.xml 中,她可以指定完整的 JDBC URL。用户还可以指定多个命名 URL 并使用beeline -c
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>beeline.hs2.jdbc.url.tcpUrl</name>
<value>jdbc:hive2://localhost:10000/default;user=hive;password=hive</value>
</property>
<property>
<name>beeline.hs2.jdbc.url.httpUrl</name>
<value>jdbc:hive2://localhost:10000/default;user=hive;password=hive;transportMode=http;httpPath=cliservice</value>
</property>
<property>
<name>beeline.hs2.jdbc.url.default</name>
<value>tcpUrl</value>
</property>
</configuration>
在上面的例子中,只需 typing beeline打开一个到jdbc:hive2://localhost:10000/default;user=hive;password=hive的新 JDBC 连接。如果 classpath 中同时存在 beeline-site.xml 和 beeline-hs2-connection.xml,则通过在 beeline-hs2-connection.xml 派生的 URL properties 之上应用 beeline-hs2-connection.xml 中指定的 properties 来创建最终 URL。作为示例,请考虑以下 beeline-hs2-connection.xml:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>beeline.hs2.connection.user</name>
<value>hive</value>
</property>
<property>
<name>beeline.hs2.connection.password</name>
<value>hive</value>
</property>
</configuration>
考虑以下 beeline-site.xml:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>beeline.hs2.jdbc.url.tcpUrl</name>
<value>jdbc:hive2://localhost:10000/default</value>
</property>
<property>
<name>beeline.hs2.jdbc.url.httpUrl</name>
<value>jdbc:hive2://localhost:10000/default;transportMode=http;httpPath=cliservice</value>
</property>
<property>
<name>beeline.hs2.jdbc.url.default</name>
<value>tcpUrl</value>
</property>
</configuration>
在上面的例子中,只需 typing beeline打开一个到jdbc:hive2://localhost:10000/default;user=hive;password=hive的新 JDBC 连接。当用户键入beeline -c httpUrl时,连接将打开jdbc:hive2://localhost:10000/default;transportMode=http;httpPath=cliservice;user=hive;password=hive。
您可以使用 JDBC 访问存储在关系数据库或其他表格格式中的数据。
Class.forName("org.apache.hive.jdbc.HiveDriver");
Connection cnct = DriverManager.getConnection("jdbc:hive2://:" , "" , "" );
默认是 10000.在 non-secure 配置中,为查询指定以 run 为。在 non-secure 模式中忽略字段 value。
Connection cnct = DriverManager.getConnection("jdbc:hive2://:" , "" , "");
在 Kerberos 安全模式下,用户信息基于 Kerberos 凭据。
Statement stmt = cnct.createStatement();
ResultSet rset = stmt.executeQuery("SELECT foo FROM bar");
import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;
public class HiveJdbcClient {
private static String driverName = "org.apache.hive.jdbc.HiveDriver";
/**
* @param args
* @throws SQLException
*/
public static void main(String[] args) throws SQLException {
try {
Class.forName(driverName);
} catch (ClassNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
System.exit(1);
}
//replace "hive" here with the name of the user the queries should run as
Connection con = DriverManager.getConnection("jdbc:hive2://localhost:10000/default", "hive", "");
Statement stmt = con.createStatement();
String tableName = "testHiveDriverTable";
stmt.execute("drop table if exists " + tableName);
stmt.execute("create table " + tableName + " (key int, value string)");
// show tables
String sql = "show tables '" + tableName + "'";
System.out.println("Running: " + sql);
ResultSet res = stmt.executeQuery(sql);
if (res.next()) {
System.out.println(res.getString(1));
}
// describe table
sql = "describe " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(res.getString(1) + "\t" + res.getString(2));
}
// load data into table
// NOTE: filepath has to be local to the hive server
// NOTE: /tmp/a.txt is a ctrl-A separated file with two fields per line
String filepath = "/tmp/a.txt";
sql = "load data local inpath '" + filepath + "' into table " + tableName;
System.out.println("Running: " + sql);
stmt.execute(sql);
// select * query
sql = "select * from " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(String.valueOf(res.getInt(1)) + "\t" + res.getString(2));
}
// regular hive query
sql = "select count(1) from " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(res.getString(1));
}
}
}
# Then on the command-line
$ javac HiveJdbcClient.java
# To run the program using remote hiveserver in non-kerberos mode, we need the following jars in the classpath
# from hive/build/dist/lib
# hive-jdbc*.jar
# hive-service*.jar
# libfb303-0.9.0.jar
# libthrift-0.9.0.jar
# log4j-1.2.16.jar
# slf4j-api-1.6.1.jar
# slf4j-log4j12-1.6.1.jar
# commons-logging-1.0.4.jar
#
#
# To run the program using kerberos secure mode, we need the following jars in the classpath
# hive-exec*.jar
# commons-configuration-1.6.jar (This is not needed with Hadoop 2.6.x and later).
# and from hadoop
# hadoop-core*.jar (use hadoop-common*.jar for Hadoop 2.x)
#
# To run the program in embedded mode, we need the following additional jars in the classpath
# from hive/build/dist/lib
# hive-exec*.jar
# hive-metastore*.jar
# antlr-runtime-3.0.1.jar
# derby.jar
# jdo2-api-2.1.jar
# jpox-core-1.2.2.jar
# jpox-rdbms-1.2.2.jar
# and from hadoop/build
# hadoop-core*.jar
# as well as hive/build/dist/conf, any HIVE_AUX_JARS_PATH set,
# and hadoop jars necessary to run MR jobs (eg lzo codec)
$ java -cp $CLASSPATH HiveJdbcClient
或者,您可以运行以下 bash 脚本,该脚本将调用数据文件并在调用 client 之前 build 您的 classpath。该脚本还添加了在嵌入模式下使用 HiveServer2 所需的所有其他 jars。
#!/bin/bash
HADOOP_HOME=/your/path/to/hadoop
HIVE_HOME=/your/path/to/hive
echo -e '1\x01foo' > /tmp/a.txt
echo -e '2\x01bar' >> /tmp/a.txt
HADOOP_CORE=$(ls $HADOOP_HOME/hadoop-core*.jar)
CLASSPATH=.:$HIVE_HOME/conf:$(hadoop classpath)
for i in ${HIVE_HOME}/lib/*.jar ; do
CLASSPATH=$CLASSPATH:$i
done
java -cp $CLASSPATH HiveJdbcClient
使用 Kerberos 身份验证连接到 HiveServer2 时,URL 格式为:
jdbc:hive2://<host>:<port>/<db>;principal=<Server_Principal_of_HiveServer2>
在 connecting 之前,client 需要在票证缓存中具有有效的 Kerberos 票证。
注意:如果 port 编号后面没有“/”,则 jdbc 驱动程序不会解析主机名,并且_End up running HS2 处于嵌入模式。因此,如果要指定主机名,请确保在 port 编号后面有“/”或“/ ”。
对于 LDAP,CUSTOM 或 PAM 身份验证,client 需要将有效的用户 name 和密码传递给 JDBC 连接 API。
To use sasl.qop, add the following to the sessionconf part of your HiveJDBC hive connection string, e.g.
jdbc:hive://hostname/dbname;sasl.qop=auth-int
在当前使用 Kerberos 的方法中,您需要在 connecting 之前在票证缓存中拥有有效的 Kerberos 票证。这需要静态登录(使用 kinit,key tab 或 ticketcache)以及每个 client 限制一个 Kerberos 用户。这些限制限制了中间件系统和其他 multi-user 场景的使用,以及 client 希望以编程方式登录 Kerberos KDC 的情况。
缓解 multi-user 场景问题的一种方法是使用安全代理用户(请参阅HIVE-5155)。从 Hive 0.13.0 开始,对安全代理用户的支持有两个组成部分:
Hadoop 生态系统中的代理用户权限与用户名和主机相关联。也就是说,该特权可用于某些主机的某些用户。如果您从一台授权(祝福)机器连接,之后您需要从另一台 non-blessed 机器建立连接,则应使用 Hive 中的委派令牌。您从受祝福的计算机获取委派令牌,并使用来自 non-blessed 计算机的委派令牌进行连接。主要用例是 Oozie,它从服务器计算机获取委托令牌,然后从 Hadoop 任务节点获取另一个连接。
如果您只是从单个受保护的计算机作为特权用户建立 JDBC 连接,则直接代理访问是更简单的方法。您可以使用 hive.server2.proxy.user = 参数传递您需要在 JDBC URL 中模拟的用户。
参见ProxyAuthTest.java中的示例。
使用 HiveServer2 二进制传输模式hive.server2.transport.mode支持委托令牌从 0.13.0 开始可用;在HIVE-13169中添加了对具有 HTTP 传输模式的 feature 的支持,这应该是 Hive 2.1.0 的一部分。
另一种方法是使用 pre-authenticated Kerberos 主题(请参阅HIVE-6486)。在此方法中,从 Hive 0.13.0 开始,Hive JDBC client 可以使用 pre-authenticated 主题对 HiveServer2 进行身份验证。这使得中间件系统能够在用户运行 client 时运行查询。
要使用 pre-authenticated 主题,您需要进行以下更改。
static Connection getConnection( Subject signedOnUserSubject ) throws Exception{
Connection conn = (Connection) Subject.doAs(signedOnUserSubject, new PrivilegedExceptionAction<Object>()
{
public Object run()
{
Connection con = null;
String JDBC_DB_URL = "jdbc:hive2://HiveHost:10000/default;" ||
"principal=hive/[email protected];" ||
"kerberosAuthType=fromSubject";
try {
Class.forName(JDBC_DRIVER);
con = DriverManager.getConnection(JDBC_DB_URL);
} catch (SQLException e) {
e.printStackTrace();
} catch (ClassNotFoundException e) {
e.printStackTrace();
}
return con;
}
});
return conn;
}