数据仓库是为了协助分析报告,支持决策,为需要业务智能的企业提供业务流程的改进和指导,从而节省时间和成本,提高质量。它与数据库系统的区别是,数据库系统可以很好地解决事务处理,实现对数据的“增、删、改、查”操作,而数据仓库则是用来做查询分析的数据库,通常不会用来做单条数据的插入、修改和删除。
Hive主要应用于传统的数据仓库任务ETL(Extract‐Transformation‐Loading)和报表生成。Hive作为一个数据仓库工具,非常适合数据的统计分析,它可以将数据文件组成表格并具有完整的类SQL查询功能,还可将类SQL语句自动转换成MapReduce任务来运行。因此,如果使用Hive,可以大幅提高开发效率。
Hive和数据库的主要区别在查询语言、存储位置、数据格式、数据更新、索引、执行、执行延迟、可扩展性和数据规模几方面。
1>、Hadoop部分
其中HDFS、MapReduce是Hadoop的相关内容,主要实现数据的存储和计算。
2>、Driver
解释器、编辑器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。
3>、元数据存储Metastore
Metastore主要用来存储元数据,Hive是将元数据存储在数据库中,如MySQL、derby。在Hive中的元数据包括表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表的数据所在目录等。Metastore包括两部分:服务和后台数据的存储。Hive有3种Metastore的配置方式,分别是内嵌模式、本地模式和远程模式。
4>、用户接口
Hive的用户接口主要有3个,分别是CLI(Command Line)、Client和WUI。其中CLI是最常用的。
在CLI启动时,一个Hive的副本也会随之启动。Client,顾名思义是Hive的客户端,用户会连接至Hive Server,在启动Client模式时,需要指出Hive Server在哪个节点上,同时在该节点启动Hive Server。WUI则是通过浏览器来访问Hive。
HiveServer是Hive的一种实现方式,客户端可以对Hive中的数据进行相应操作,而不启动CLI,HiveServer和CLI两者都允许远程客户端使用Java、Python等多种编程语言向Hive提交请求,并取回结果。
Hive的元数据存储有三种模式,我们这里选择使用本地模式,并使用Mysql存储元数据。所以,在部署Hive之前,我们先安装Mysql。Mysql数据库在Centos环境的安装,请参考《Centos7下使用yum安装Mysql5.7》。
1>、 下载Hive
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
2>、解压
tar -zxvf apache-hive-3.1.2-bin.tar.gz -C ../servers/
<property>
<name>javax.jdo.option.ConnectionURLname>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=truevalue>
property>
<property>
<name>javax.jdo.option.ConnectionDriverNamename>
<value>com.mysql.jdbc.Drivervalue>
property>
<property>
<name>javax.jdo.option.ConnectionUserNamename>
<value>rootvalue>
property>
<property>
<name>javax.jdo.option.ConnectionPasswordname>
<value>123456value>
property>
<property>
<name>system:java.io.tmpdirname>
<value>/tmp/hive/javavalue>
property>
<property>
<name>system:user.namename>
<value>${user.name}value>
property>
<property>
<name>hive.metastore.schema.verificationname>
<value>falsevalue>
property>
<property>
<name>datanucleus.schema.autoCreateAllname>
<value>truevalue>
property>
4、配置环境变量
通过如下命令,
vim /etc/profile
添加该配置:
export HIVE_HOME=/export/servers/apache-hive-3.1.2-bin
export PATH=:$HIVE_HOME/bin:$PATH
执行下面命令,让配置的环境变量生效:
source/etc/profile
5、hive shell命令访问Hive
./bin/hive
1>、显示数据库
hive> show databases;
OK
default
Time taken: 37.711 seconds, Fetched: 1 row(s)
2>、创建数据库
语法:CREATE DATABASE|SCHEMA [IF NOT EXISTS]
hive> create database if not exists test;
OK
Time taken: 2.54 seconds
3>、查看数据库详情
hive> desc database test;
OK
test hdfs://node01:8020/user/hive/warehouse/test.db root USER
Time taken: 0.195 seconds, Fetched: 1 row(s)
4>、创建表
语法:
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
其中,
例子:
hive> create table person(id INT,
> name STRING,
> age INT,
> fav ARRAY<STRING>,
> addr MAP<STRING,STRING>
> )
> COMMENT 'This is the person table'
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
> COLLECTION ITEMS TERMINATED BY '-'
> MAP KEYS TERMINATED BY ':'
> LINES TERMINATED BY '\n'
> STORED AS TEXTFILE;
OK
Time taken: 8.436 seconds
5>、查看表结构
hive> desc formatted person;
OK
# col_name data_type comment
id int
name string
age int
fav array<string>
addr map<string,string>
# Detailed Table Information
Database: default
Owner: root
CreateTime: Fri Aug 07 01:01:32 CST 2020
LastAccessTime: UNKNOWN
Retention: 0
Location: hdfs://node01:8020/user/hive/warehouse/person
Table Type: MANAGED_TABLE
Table Parameters:
COLUMN_STATS_ACCURATE {\"BASIC_STATS\":\"true\"}
comment This is the person table
numFiles 0
numRows 0
rawDataSize 0
totalSize 0
transient_lastDdlTime 1596733292
# Storage Information
SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat: org.apache.hadoop.mapred.TextInputFormat
OutputFormat: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed: No
Num Buckets: -1
Bucket Columns: []
Sort Columns: []
Storage Desc Params:
colelction.delim -
field.delim \u0001
mapkey.delim :
serialization.format \u0001
Time taken: 0.222 seconds, Fetched: 38 row(s)
6>、导入数据
在目录export下准备test.txt文件,内容如下:
rod 18 study-game-driver std_addr:beijing-work_addr:shanghai
tom 21 study-game-driver std_addr:beijing-work_addr:beijing
jerry 33 study-game-driver std_addr:beijing-work_addr:shenzhen
然后执行导入命令:
load DATA LOCAL INPATH '/export/test.txt' OVERWRITE INTO TABLE person;
7>、查看数据
注:出现下面全部数据为空的情况,一般都是创建表时,分隔符和实际txt文件中的不匹配造成的。
hive> select * from person;
OK
NULL NULL NULL NULL NULL
NULL NULL NULL NULL NULL
NULL NULL NULL NULL NULL
Time taken: 1.0 seconds, Fetched: 3 row(s)
8>、清空表数据
语法:truncate table 表名;
hive> truncate table person;
Moved: 'hdfs://node01:8020/user/hive/warehouse/person' to trash at: hdfs://node01:8020/user/root/.Trash/Current
OK
Time taken: 0.652 seconds
hive> load DATA LOCAL INPATH '/export/test.txt' OVERWRITE INTO TABLE person;
Loading data to table default.person
OK
Time taken: 2.51 seconds
hive> select * from person;
OK
1 rod 18 ["study","game","driver"] {"std_addr":"beijing","work_addr":"shanghai"}
2 tom 21 ["study","game","driver"] {"std_addr":"beijing","work_addr":"beijing"}
3 jerry 33 ["study","game","driver"] {"std_addr":"beijing","work_addr":"shenzhen"}
Time taken: 0.614 seconds, Fetched: 3 row(s)