Hadoop离线(数仓与hive操作1)

Hadoop离线

1-数据仓库-基本概念和主要特征

  • 基本概念
    • 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。
    • 数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。
    • 可以理解为:面向分析的存储系统。
  • 特征
    • 面向主题(Subject-Oriented )
      • 数据仓库通过一个个主题域将多个业务系统的数据加载到一起,为了各个主题(如:用户、订单、商品等)进行分析而建,操作型数据库是为了支撑各种业务而建立。
    • 集成性(Integrated)
      • 数据仓库会将不同源数据库中的数据汇总到一起,数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过统一与整合,这一步是数据仓库建设中最关键、最复杂的一步(ETL),要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。
    • 非易失性(Non-Volatile)
      • 在数据仓库中只要保存过去的业务数据,不需要每一笔业务都实时更新数据仓库,而是根据商业需要每隔一段时间把一批较新的数据导入数据仓库。
    • 时变性(Time-Variant )
      • 数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要定时更新,以适应决策的需要。

2-数据仓库-与数据库区别

  • 数据库与数据仓库的区别实际讲的是 OLTPOLAP 的区别。

    • 操作型处理,叫联机事务处理 OLTP(On-Line Transaction Processing,),它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段,主要用于操作型处理。
    • 分析型处理,叫联机分析处理 OLAP(On-Line Analytical Processing)一般针对某些主题的历史数据进行分析,支持 管理决策。
  • 数据仓库的出现,并不是要取代数据库。

    • 数据库是面向事务的设计,数据仓库是面向主题设计的。
    • 数据库一般存储业务数据,数据仓库存储的一般是历史数据。
    • 数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名、密码等简单数据即可,符合业务应用,但是不符合分析。数据仓库在设计是有意引入冗余,依照分析需求,分析维度、分析指标进行设计。
    • 数据库是为捕获数据而设计,数据仓库是为分析数据而设计。

    数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。

3-数据仓库-分层架构和元数据管理

  • 按照数据流入流出的过程,数据仓库架构可分为三层——源数据、数据仓库、数据应用。

    • 源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。贴源层(直接通过sqoop、datax导入到hdfs上,通过hive创建外部表的方式形成第一层)ods ods_itheima_order ordre_id,user_id,prd_id,date

    • 数据仓库层(DW):也称为细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。(通过ods层经过sql统计分析计算得来的) dw dw_order_desc

      dw_order_agg

    • 数据应用层(DA或APP):前端应用直接读取的数据源;根据报表、专题分析需求而计算生成的数据。 app app_credit

  • 为什么要对数据仓库分层?

    • 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
  • 元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。

4-hive-基本简介

  • Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
    • 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive就是一个MapReduce的客户端
  • 为什么使用 Hive
    • 采用类SQL语法去操作数据,提供快速开发的能力。
    • 避免了去写MapReduce,减少开发人员的学习成本。
    • 功能扩展很方便。

5-hive-分层架构

[外链图片转存失败(img-KMo4ABSg-1563102889494)(assert/1-数据仓库.bmp)]

  • 用户接口: 包括CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行;JDBC/ODBC是Hive的JAVA实现,与传统数据库JDBC类似;WebGUI是通过浏览器访问Hive。
  • 元数据存储: 通常是存储在关系数据库如mysql/derby中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
  • 解释器、编译器、优化器、执行器: 完成HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS 中,并在随后有MapReduce 调用执行。

6-hive-与hadoop关系以及与数据库的对比

  • hive 利用 hadoop存储数据,将hql转化为MapReduce进行查询分析(在yarn上执行)
  • hive具有sql数据库的外表,但应用场景完全不同,hive只适合用来做批量数据统计分析

7-hive-安装

第一步:上传并解压安装包

将我们的hive的安装包上传到第三台服务器的/export/softwares路径下,然后进行解压

cd /export/softwares/
tar -zxvf apache-hive-2.1.1-bin.tar.gz -C ../servers/
第二步:安装mysql

第一步:在线安装mysql相关的软件包

yum install mysql mysql-server mysql-devel

第二步:启动mysql的服务

/etc/init.d/mysqld start

第三步:通过mysql安装自带脚本进行设置

/usr/bin/mysql_secure_installation

第四步:进入mysql的客户端然后进行授权

grant all privileges on *.* to 'root'@'%' identified by '123456' with grant option;

flush privileges;

service mysqld status

service mysqld start

chkconfig mysqld on

第三步:修改hive的配置文件

修改hive-env.sh

cd /export/servers/apache-hive-2.1.1-bin/conf
cp hive-env.sh.template hive-env.sh
HADOOP_HOME=/export/servers/hadoop-2.7.5
export HIVE_CONF_DIR=/export/servers/apache-hive-2.1.1-bin/conf

修改hive-site.xml

cd /export/servers/apache-hive-2.1.1-bin/conf
vim hive-site.xml


<configuration>
<property>
      <name>javax.jdo.option.ConnectionUserNamename>
      <value>rootvalue>
  property>
  <property>
      <name>javax.jdo.option.ConnectionPasswordname>
      <value>123456value>
  property>
  <property>
      <name>javax.jdo.option.ConnectionURLname>
      <value>jdbc:mysql://node03:3306/hive?createDatabaseIfNotExist=truevalue>
  property>
  <property>
      <name>javax.jdo.option.ConnectionDriverNamename>
      <value>com.mysql.jdbc.Drivervalue>
  property>
  <property>
      <name>hive.metastore.schema.verificationname>
      <value>falsevalue>
  property>
  <property>
    <name>datanucleus.schema.autoCreateAllname>
    <value>truevalue>
 property>
 <property>
		<name>hive.server2.thrift.bind.hostname>
		<value>node03value>
   property>
configuration>
第四步:添加mysql的连接驱动包到hive的lib目录下

​ hive使用mysql作为元数据存储,必然需要连接mysql数据库,所以我们添加一个mysql的连接驱动包到hive的安装目录下,然后就可以准备启动hive了

将我们准备好的mysql-connector-java-5.1.38.jar 这个jar包直接上传到
/export/servers/apache-hive-2.1.1-bin/lib 这个目录下即可

至此,hive的安装部署已经完成,接下来我们来看下hive的三种交互方式

第五步:配置hive的环境变量

node03服务器执行以下命令配置hive的环境变量

sudo vim /etc/profile
export HIVE_HOME=/export/servers/apache-hive-2.1.1-bin
export PATH=:$HIVE_HOME/bin:$PATH

8-hive-交互方式

第一种交互方式 bin/hive
cd /export/servers/apache-hive-2.1.1-bin/
bin/hive

创建一个数据库

create database if not exists mytest;
第二种交互方式:使用sql语句或者sql脚本进行交互

不进入hive的客户端直接执行hive的hql语句

cd /export/servers/apache-hive-2.1.1-bin
bin/hive -e "create database if not exists mytest;"

或者我们可以将我们的hql语句写成一个sql脚本然后执行

cd /export/servers
vim  hive.sql
create database if not exists mytest;
use mytest;
create table stu(id int,name string);

通过hive -f 来执行我们的sql脚本

bin/hive -f /export/servers/hive.sql

9-hive基本操作-数据库操作-上

  • 创建数据库

    create database if not exists myhive;
    use  myhive;
    
  • 创建数据库并指定位置

    create database myhive2 location '/myhive2';
    

10-hive基本操作-数据库操作-下

  • 设置数据库键值对信息

    create database foo with dbproperties ('owner'='itcast', 'date'='20190120');
    
  • 查看数据库的键值对信息

    describe database extended foo; 
    desc database extended foo;
    
  • 修改数据库的键值对信息

    alter database foo set dbproperties ('owner'='itheima');
    
  • 查看数据库更多详细信息

    desc database extended  myhive2;
    
  • 删除数据库

    • 空数据库
    drop  database  myhive2;
    
    Error: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Unable to clean up com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table 'hive.TXN_COMPONENTS' doesn't exist
    
    schematool -initSchema -dbType mysql  初始化元数据
    
    • 强制删除数据库,包含数据库下面的表一起删除
    drop  database  myhive  cascade;   
    

11-hive基本操作-数据库表操作-语法格式

create [external] table [if not exists] table_name (
col_name data_type [comment '字段描述信息']
col_name data_type [comment '字段描述信息'])
[comment '表的描述信息']
[partitioned by (col_name data_type,...)]
[clustered by (col_name,col_name,...)]
[sorted by (col_name [asc|desc],...) into num_buckets buckets]
[row format row_format]
[storted as ....]
[location '指定表的路径']

TEXTFILE //文本,默认值
SEQUENCEFILE // 二进制序列文件
RCFILE //列式存储格式文件 Hive0.6以后开始支持
ORC //列式存储格式文件,比RCFILE有更高的压缩比和读写效率,Hive0.11以后开始支持
PARQUET //列出存储格式文件,Hive0.13以后开始支持

12-hive基本操作-数据库表操作-建表入门

use myhive;
create table stu(id int,name string);
insert into stu values (1,"zhangsan");  #插入数据
select * from stu;

13-hive基本操作-数据库表操作-内部表基本操作

建表入门:

create  table if not exists stu2(id int ,name string) row format delimited fields terminated by '\t';

创建表并指定表文件的存放路径

create  table if not exists stu2(id int ,name string) row format delimited fields terminated by '\t' location '/user/stu2';

根据查询结果创建表

create table stu3 as select * from stu2; # 通过复制表结构和表内容创建新表

根据已经存在的表结构创建表

create table stu4 like stu;

查询表的详细信息

desc formatted  stu2;

删除表

drop table stu4;

14-hive基本操作-数据库表操作-外部表基本操作-上

创建老师表

create external table teacher (t_id string,t_name string) row format delimited fields terminated by '\t';

创建学生表

create external table student (s_id string,s_name string,s_birth string , s_sex string ) row format delimited fields terminated by '\t';

加载数据

load data local inpath '/export/servers/hivedatas/student.csv' into table student;

15-hive基本操作-数据库表操作-外部表基本操作-下

加载数据并覆盖已有数据

load data local inpath '/export/servers/hivedatas/student.csv' overwrite  into table student;

从hdfs文件系统向表中加载数据(需要提前将数据上传到hdfs文件系统)

cd /export/servers/hivedatas
hdfs dfs -mkdir -p /hivedatas
hdfs dfs -put techer.csv /hivedatas/
load data inpath '/hivedatas/techer.csv' into table teacher;

16-hive基本操作-分区表操作-概述

  • 在大数据中,最常用的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每月,或者天进行切分成一个个的小的文件,存放在不同的文件夹中.

17-hive基本操作-分区表操作-创建表和加载表数据

创建分区表语法

create table score(s_id string,c_id string, s_score int) partitioned by (month string) row format delimited fields terminated by '\t';

创建一个表带多个分区

create table score2 (s_id string,c_id string, s_score int) partitioned by (year string,month string,day string) row format delimited fields terminated by '\t';

加载数据到分区表中

load data local inpath '/export/servers/hivedatas/score.csv' into table score partition (month='201806');

加载数据到多分区表中

load data local inpath '/export/servers/hivedatas/score.csv' into table score2 partition(year='2018',month='06',day='01');

多分区表联合查询(使用 union all)

select * from score where month = '201806' union all select * from score where month = '201806';

查看分区

show  partitions  score;

添加一个分区

alter table score add partition(month='201805');

删除分区

alter table score drop partition(month = '201806');

18-hive基本操作-分区表操作-分区表练习

  • 需求描述 :

    现在有一个文件score.csv文件,存放在集群的这个目录下/scoredatas/month=201806,这个文
    件每天都会生成,存放到对应的日期文件夹下面去,文件别人也需要公用,不能移动。需
    求,创建hive对应的表,并将数据加载到表中,进行数据统计分析,且删除表之后,数据不能
    删除

  • 数据准备 :

    hdfs dfs -mkdir -p /scoredatas/month=201806
    
    hdfs dfs -put score.csv /scoredatas/month=201806/
    

  • 创建外部分区表,并指定文件数据存放目录

    create external table score4(s_id string, c_id string,s_score int) partitioned by (month string) row format delimited fields terminated by '\t' location '/scoredatas';
    
    

  • 进行表的修复 (建立表与数据文件之间的一个关系映射)

    msck repair   table score4;
    

你可能感兴趣的:(Hadoop离线(数仓与hive操作1))