Hadoop的数据仓库Hive的基础知识和安装部署

1、数据仓库 和 Hive

  数据仓库是为了协助分析报告,支持决策,为需要业务智能的企业提供业务流程的改进和指导,从而节省时间和成本,提高质量。它与数据库系统的区别是,数据库系统可以很好地解决事务处理,实现对数据的“增、删、改、查”操作,而数据仓库则是用来做查询分析的数据库,通常不会用来做单条数据的插入、修改和删除。

  Hive主要应用于传统的数据仓库任务ETL(Extract‐Transformation‐Loading)和报表生成。Hive作为一个数据仓库工具,非常适合数据的统计分析,它可以将数据文件组成表格并具有完整的类SQL查询功能,还可将类SQL语句自动转换成MapReduce任务来运行。因此,如果使用Hive,可以大幅提高开发效率。

  • Hive可以处理超大规模的数据,可扩展性和容错性非常强
  • Hive有类SQL的查询语言,学习成本相对比较低。
2、Hive和关系数据库的区别

  Hive和数据库的主要区别在查询语言、存储位置、数据格式、数据更新、索引、执行、执行延迟、可扩展性和数据规模几方面。
Hadoop的数据仓库Hive的基础知识和安装部署_第1张图片
Hadoop的数据仓库Hive的基础知识和安装部署_第2张图片

3、Hive的运行架构

Hadoop的数据仓库Hive的基础知识和安装部署_第3张图片
1>、Hadoop部分
  其中HDFS、MapReduce是Hadoop的相关内容,主要实现数据的存储和计算。

2>、Driver
  解释器、编辑器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。

3>、元数据存储Metastore
  Metastore主要用来存储元数据,Hive是将元数据存储在数据库中,如MySQL、derby。在Hive中的元数据包括表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表的数据所在目录等。Metastore包括两部分:服务和后台数据的存储。Hive有3种Metastore的配置方式,分别是内嵌模式、本地模式和远程模式。

  • 内嵌模式使用的是内嵌的Derby数据库来存储数据,配置简单,但是一次只能与一个客户端连接,适用于做单元测试,不适用于生产环境。
  • 本地模式和远程模式都采用外部数据库来存储数据,目前支持的数据库有MySQL、Oracle、SQL Server等。本地元存储和远程元存储的区别是本地元数据不需要单独启动Metastore服务,因为本地元存储用的是和本地Hive在同一个进程里的Metastore服务。
  • Hadoop的数据仓库Hive的基础知识和安装部署_第4张图片

4>、用户接口

  Hive的用户接口主要有3个,分别是CLI(Command Line)、Client和WUI。其中CLI是最常用的。

  在CLI启动时,一个Hive的副本也会随之启动。Client,顾名思义是Hive的客户端,用户会连接至Hive Server,在启动Client模式时,需要指出Hive Server在哪个节点上,同时在该节点启动Hive Server。WUI则是通过浏览器来访问Hive。

  HiveServer是Hive的一种实现方式,客户端可以对Hive中的数据进行相应操作,而不启动CLI,HiveServer和CLI两者都允许远程客户端使用Java、Python等多种编程语言向Hive提交请求,并取回结果。

5、Mysql数据库安装

  Hive的元数据存储有三种模式,我们这里选择使用本地模式,并使用Mysql存储元数据。所以,在部署Hive之前,我们先安装Mysql。Mysql数据库在Centos环境的安装,请参考《Centos7下使用yum安装Mysql5.7》。

6、Hive安装

1>、 下载Hive

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz

2>、解压

tar -zxvf apache-hive-3.1.2-bin.tar.gz -C ../servers/

在这里插入图片描述
3>、配置hive-site.xml文件

<property>
    <name>javax.jdo.option.ConnectionURLname>
	<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=truevalue>
    
  property>
  
<property>
    <name>javax.jdo.option.ConnectionDriverNamename>
    
	<value>com.mysql.jdbc.Drivervalue>
  property>

<property>
    <name>javax.jdo.option.ConnectionUserNamename>
    <value>rootvalue>
    
  property>
<property>
    <name>javax.jdo.option.ConnectionPasswordname>
	<value>123456value>
    
  property>

<property>
    <name>system:java.io.tmpdirname>
    <value>/tmp/hive/javavalue>
  property>
  <property>
    <name>system:user.namename>
    <value>${user.name}value>
  property>
  
  <property>
    <name>hive.metastore.schema.verificationname>
    <value>falsevalue>
  property>

<property>
	<name>datanucleus.schema.autoCreateAllname>
	<value>truevalue>
property>

4、配置环境变量

通过如下命令,

vim /etc/profile

添加该配置:

export HIVE_HOME=/export/servers/apache-hive-3.1.2-bin
export PATH=:$HIVE_HOME/bin:$PATH

执行下面命令,让配置的环境变量生效:

source/etc/profile

5、hive shell命令访问Hive

./bin/hive

进入下面页面,说明Hive配置成功了。
Hadoop的数据仓库Hive的基础知识和安装部署_第5张图片

7、简单使用

1>、显示数据库

hive> show databases;
OK
default
Time taken: 37.711 seconds, Fetched: 1 row(s)

2>、创建数据库

语法:CREATE DATABASE|SCHEMA [IF NOT EXISTS]

hive> create database if not exists test;
OK
Time taken: 2.54 seconds

3>、查看数据库详情

hive> desc database test;
OK
test		hdfs://node01:8020/user/hive/warehouse/test.db	root	USER	
Time taken: 0.195 seconds, Fetched: 1 row(s)

4>、创建表

语法:

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]

其中,

  • CREATE TABLE 创建一个指定名字的表。
  • IF NOT EXISTS 创建表时,如果存在会抛异常,这个选项用来忽略这个异常。
  • EXTERNAL关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)。Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。
  • COMMENT:为表和列添加注释。
  • PARTITIONED BY创建分区表
  • CLUSTERED BY创建分桶表
  • SORTED BY不常用
  • ROW FORMAT 可选值:DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char][MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, …)]。用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED,将会使用自带的 SerDe。在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的 SerDe,Hive通过 SerDe 确定表的具体的列的数据。
  • STORED AS 可选值EQUENCEFILE | TEXTFILE | RCFILE,指定存储文件类型。如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。如果数据需要压缩,使用 STORED AS SEQUENCEFILE
  • LOCATION :指定表在HDFS上的存储位置。

例子:

hive> create table person(id INT,
    > name STRING,
    > age INT,
    > fav ARRAY<STRING>,
    > addr MAP<STRING,STRING>
    > )
    > COMMENT 'This is the person table'
    > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
    > COLLECTION ITEMS TERMINATED BY '-'
    > MAP KEYS TERMINATED BY ':'
    > LINES TERMINATED BY '\n'
    > STORED AS TEXTFILE;
OK
Time taken: 8.436 seconds

5>、查看表结构

hive> desc formatted person;
OK
# col_name            	data_type           	comment             
	 	 
id                  	int                 	                    
name                	string              	                    
age                 	int                 	                    
fav                 	array<string>       	                    
addr                	map<string,string>  	                    
	 	 
# Detailed Table Information	 	 
Database:           	default             	 
Owner:              	root                	 
CreateTime:         	Fri Aug 07 01:01:32 CST 2020	 
LastAccessTime:     	UNKNOWN             	 
Retention:          	0                   	 
Location:           	hdfs://node01:8020/user/hive/warehouse/person	 
Table Type:         	MANAGED_TABLE       	 
Table Parameters:	 	 
	COLUMN_STATS_ACCURATE	{\"BASIC_STATS\":\"true\"}
	comment             	This is the person table
	numFiles            	0                   
	numRows             	0                   
	rawDataSize         	0                   
	totalSize           	0                   
	transient_lastDdlTime	1596733292          
	 	 
# Storage Information	 	 
SerDe Library:      	org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe	 
InputFormat:        	org.apache.hadoop.mapred.TextInputFormat	 
OutputFormat:       	org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat	 
Compressed:         	No                  	 
Num Buckets:        	-1                  	 
Bucket Columns:     	[]                  	 
Sort Columns:       	[]                  	 
Storage Desc Params:	 	 
	colelction.delim    	-                   
	field.delim         	\u0001              
	mapkey.delim        	:                   
	serialization.format	\u0001              
Time taken: 0.222 seconds, Fetched: 38 row(s)

6>、导入数据

在目录export下准备test.txt文件,内容如下:

rod 18 study-game-driver std_addr:beijing-work_addr:shanghai
tom 21 study-game-driver std_addr:beijing-work_addr:beijing
jerry 33 study-game-driver std_addr:beijing-work_addr:shenzhen

然后执行导入命令:

load DATA LOCAL INPATH '/export/test.txt' OVERWRITE INTO TABLE person;

在这里插入图片描述

7>、查看数据

注:出现下面全部数据为空的情况,一般都是创建表时,分隔符和实际txt文件中的不匹配造成的。

hive> select * from person;
OK
NULL	NULL	NULL	NULL	NULL
NULL	NULL	NULL	NULL	NULL
NULL	NULL	NULL	NULL	NULL
Time taken: 1.0 seconds, Fetched: 3 row(s)

8>、清空表数据

语法:truncate table 表名;

hive> truncate table person;
Moved: 'hdfs://node01:8020/user/hive/warehouse/person' to trash at: hdfs://node01:8020/user/root/.Trash/Current
OK
Time taken: 0.652 seconds
hive> load DATA LOCAL INPATH '/export/test.txt' OVERWRITE INTO TABLE person;
Loading data to table default.person
OK
Time taken: 2.51 seconds
hive> select * from person;
OK
1	rod	18	["study","game","driver"]	{"std_addr":"beijing","work_addr":"shanghai"}
2	tom	21	["study","game","driver"]	{"std_addr":"beijing","work_addr":"beijing"}
3	jerry	33	["study","game","driver"]	{"std_addr":"beijing","work_addr":"shenzhen"}
Time taken: 0.614 seconds, Fetched: 3 row(s)

你可能感兴趣的:(大数据,大数据,数据仓库,Hive,数据导入)