Presto学译 | 3. 配置Hive连接器以查询Hive数据

本文为官方文档译文。仅限交流使用。

系列目录

概述

使用 Presto 查询Hive中的数据恐怕是最常用的了。Hive 连接器就允许查询在 Hive 数据仓库中的数据。Hive 由下面三个组件组成：

存储在 HDFS 或者 Amazon S3 中的各种各样格式的数据文件。
用于映射模式与表的元数据。这些元数据被存储在一个数据库中，比如 MySQL，并且可以用过 Hive 的元数据服务尽情存取。
叫做 HiveQL 的查询语言。

Presto 仅仅使用前两个组件：数据与元数据。而不使用 HiveSQL 或者 Hive 的任何执行环境。

支持的文件格式

现在（0.183）的 Hive 连接器支持的文件格式如下：

ORC
Parquet
Avro
RCFile
SequenceFile
JSON
Text

配置

Hive 连接器支持 Apache Hadoop 2.x 与从其衍生出来的平台，比如 CDH 5 与 Hortonworks。

在 etc/catalog/hive.properties 中配置如下内容来挂载 hive-hadoop2 连接器作为 hive catalog。其中的 hive.metastore.uri 就是指定 Hive 元数据的地址，请很据实际情况修改。

connector.name=hive-hadoop2
hive.metastore.uri=thrift://example.net:9083

多个 Hive 集群

如果你需要更多的 catalogs，你可以再次在 etc/catalog 添加另一个 Hive 连接器的相关配置文件，且配置文件的的名字要与其他不同。

HDFS 配置

在最基础的设置中，Presto 会自动配置 HDFS 的客户端，不需要任何的配置文件。但是在一些情况下，比如使用同盟 HDFS 或者 NameNode 高可用，为了能够正常存取 HDFS 集群，就需要另外配置 HDFS 客户端选项。为了达到目的，就需要设置 hive.config.resources 属性来引用你的 HDFS 配置文件：

hive.config.resources=/etc/hadoop/conf/core-site.xml,/etc/hadoop/conf/hdfs-site.xml

最好只在需要配置文件的时候才进行配置，并且尽量精简配置文件中中的属性，额外的属性可能会造成问题。

而且在所有的 Presto 节点中都要存在该配置文件。如果你直接引用的 hadoop 的配置文件，别忘了将配置文件拷贝到没有 Hadoop 存在的节点上。

HDFS 用户名

如果 HDFS 没有使用 Kerberos， Presto进程将会使用系统用户来存取 HDFS。你可以通过配置 JVM 系统属性 HADOOP_USER_NAME 来指定用户名。比如当前使用 hdfs_user 作为存取 HDFS 的用户名：

-DHADOOP_USER_NAME=hdfs_user

Presto 中的数据类型转换

varchar 可以和 tinyint, smallint, integer, bigint 互相转换。
real 可以转成 double。（real 是什么）
整型的可以扩大范围转换，比如 tinyint 转 smallint。

如果类型转换失败，就会返回 null。

一些例子

一般的查询语法与 HiveQL 都是相同的，下面介绍些操作模式（数据库）与表的例子。

创建一个名叫 web 的模式（数据库），并存储在 S3 中：

CREATE SCHEMA hive.web
WITH (location = 's3://my-bucket/')

在 web 中创建一个名叫page_views 的表，使用 ORC 的格式进行存储；添加分区 ds， country；使用 user_id 进行分桶，且数目为 50 个。

CREATE TABLE hive.web.page_views (
  view_time timestamp,
  user_id bigint,
  page_url varchar,
  ds date,
  country varchar
)
WITH (
  format = 'ORC',
  partitioned_by = ARRAY['ds', 'country'],
  bucketed_by = ARRAY['user_id'],
  bucket_count = 50
)

删除一个分区中的数据：

DELETE FROM hive.web.page_views
WHERE ds = DATE '2016-08-09'
  AND country = 'US'

创建一个外部表，名叫 request_logs:

CREATE TABLE hive.web.request_logs (
  request_time timestamp,
  url varchar,
  ip varchar,
  user_agent varchar
)
WITH (
  format = 'TEXTFILE',
  external_location = 's3://my-bucket/data/logs/'
)

删除这个外部表，且只会删除元数据，不会删除表的数据。

DROP TABLE hive.web.request_logs

删除一整个模式：

DROP SCHEMA hive.web

Hive 连接器的限制

Delete 仅仅在 where 语句中指定的是分区字段的时候才可用。

End!!