1.海量数据的存储处理
2.数据挖掘
3.海量数据的离线分析
3.1目前的Hive的Thrift服务端通常使用HiveServer2,它是HiveServer2改进版本,它提供了新的ThriftAPI来处理JDBC或者ODBC客户端,可以进行Kerberos身份验证,支持多个客户端并发。
3.2BeeLine
HiveServer2还提供了新的CLI:BeeLine,它是Hive 0.11引入的新的交互式CLI,基于SQLLine,可以作为Hive JDBC Client 端访问HievServer2。
通过BeeLine连接hive
hive安装目录/bin/./beeline -u jdbc:hive2://hiveServer2所在ip:端口号 -n 用户名
例如: ./beeline -u jdbc:hive2://127.0.0.1:10000 -n root
类似传统数据库的DataBase,在元数据库里实际上是一张表,对应于HDFS上的数据仓库目录下是一个文件夹。数据仓库目录路径,由hive-site.xml中${hive.metastore.warehouse.dir}参数指定
创建数据库示例:create database 数据库名
元数据库中查询数据库列表select * from dbs; 如下图
内部表与关系数据库中的Table在概念上类似。每一个Table在Hive中都有一个相应的目录存储数据。所有的Table数据(不包括External Table)都保存在这个目录中。删除表时,元数据与数据都会被删除。
元数据库中查询数据表列表:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20181216210745688.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NodXhpbmdidWJpYW4=,size_16,color_FFFFFF,t_70)
HDFS下对应存储目录:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20181216210802205.png)
外部表指向已经在HDFS中存在的数据,可以创建Partition。它和内部表在元数据的组织上是相同的,而实际数据的存储则有较大的差异。内部表的创建过程和数据加载过程这两个过程可以分别独立完成,也可以在同一个语句中完成,在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。而外部表只有一个过程,加载数据和创建表同时完成(CREATE EXTERNAL TABLE ……LOCATION),实际数据是存储在LOCATION后面指定的 HDFS 路径中,并不会移动到数据仓库目录中。当删除一个External Table时,仅删除该链接。
如果所有处理都由hive来完成,则使用内部表
如果需要用hive和外部其他工具处理同一组数据集,则使用外部表。
Partition对应于关系数据库中的Partition列的密集索引,但是Hive中Partition的组织方式和数据库中的很不相同。在Hive中,表中的一个Partition对应于表下的一个目录,所有的Partition的数据都存储在对应的目录中。例如pvs表中包含ds和city两个Partition,则
对应于ds = 20090801, city= jinan 的HDFS子目录为:/wh/pvs/ds=20090801/city=jinan ;
Buckets是将表的列通过Hash算法进一步分解成不同的文件存储。它对指定列计算hash,根据hash值切分数据,目的是为了并行,每一个Bucket对应一个文件。分区是粗粒度的划分,桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。适合进行表连接查询、适合用于采样分析。
例如将user列分散至32个bucket,首先对user列的值计算hash,则
对应hash值为0的HDFS目录为:/wh/pvs/ds=20090801/ctry=US/part-00000;
对应hash值为20的HDFS目录为:
/wh/pvs/ds=20090801/ctry=US/part-00020。
如果想应用很多的Map任务这样是不错的选择。
视图与传统数据库的视图类似。视图是只读的,它基于的基本表,如果改变,数据增加不会影响视图的呈现;如果删除,会出现问题。如果不指定视图的列,会根据select语句后的生成。
视图的简单示例:
创建表:create view test_view as select * from test;
查看数据:select * from test_view;
CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常。
EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),
有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分区,每一个分区单独存在一个目录下。
表和分区都可以对某个列进行 CLUSTERED BY 操作,将若干个列放入一个桶(bucket)中。
可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。
默认的字段分隔符为ascii码的控制符\001(^A)
tab分隔符为 \t。只支持单个字符的分隔符。
如果文件数据是纯文本,可以使用 STORED AS
TEXTFILE。如果数据需要压缩,使用 STORED
AS SEQUENCE 。
LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 …)]
Load 操作只是单纯的复制/移动操作,将数据文件移动到 Hive 表对应的位置。如果表中存在分区,则必须指定分区名
加载本地数据,指定LOCAL关键字,即本地,可以同时给定分区信息 。
load 命令会去查找本地文件系统中的 filepath。如果发现是相对路径,则路径会被解释为相对于当前用户的当前路径。用户也可以为本地文件指定一个完整的 URI,比如:file:///user/hive/project/data1.
例如:加载本地数据,同时给定分区信息:
hive> LOAD DATA LOCAL INPATH ‘file:///examples/files/kv2.txt’ OVERWRITE INTO TABLE invites PARTITION (ds=‘2008-08-15’);
加载DFS数据 ,同时给定分区信息:
如果 filepath 可以是相对路径 URI路径,对于相对路径,Hive 会使用在 hadoop 配置文件中定义的 fs.defaultFS 指定的Namenode 的 URI来自动拼接完整路径。
例如:加载数据到hdfs中,同时给定分区信息
hive> LOAD DATA INPATH ‘/user/myname/kv2.txt’ OVERWRITE INTO TABLE invites
PARTITION (ds=‘2008-08-15’);
OVERWRITE
指定 OVERWRITE ,目标表(或者分区)中的内容(如果有)会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。如果目标表(分区)已经有一个文件,并且文件名和 filepath 中的文件名冲突,那么现有的文件会被新文件所替代。
建表示例:
例如: 创建人员信息表person_inside,列以逗号","分隔。
create table person_inside (id string,name string,sex string,age int)
row format delimited fields terminated by ‘,’ stored as textfile;
加载数据: 本地数据位置: /tmp/person.txt
load data local inpath ‘file:///tmp/person.txt’ into table person_inside;
外部表
例如: 创建人员信息表person_ex,列以逗号","分隔。
外部表对应路径:hdfs://mycluster/hivedb/person.txt
建表示例:
create external table person_ext
(id string,name string,sex string,age int)
row format delimited fields terminated by ‘,’
stored as textfile
location ‘/hivedb’; (注意:location后面跟的是目录,不是文件,hive将依据默认配置的hdfs路径,自动将整个目录下的文件都加载到表中)
hive 默认数据仓库路径下,不会生成外部表的文件目录,
查看表信息: desc formatted person_ext; 查看location指向。
查询数据:select * from person_ext;
删除表:drop table person_ext;
只删除逻辑表,不删除数据文件,数据文件依然存在
例如: 创建人员信息表person_part,列以逗号","分隔。建立city为分区。
建表示例:
create table person_part
(id string,name string,sex string,age int)
partitioned by (city string)
row format delimited fields terminated by ‘,’
stored as textfile;
加载数据:本地数据位置: /tmp/person.txt
load data local inpath ‘file:///tmp/person.txt’ into table
person_part partition(city=‘jinan’);
数据存储在以分区 city='jinan’为目录的路径下
根据分区查询数据:hive 会自动判断where语句中是否包含分区的字段。而且可以使用大于小于等运算符
select * from person_part where city=‘jinan’;
例如: 创建人员信息表person_bucket,列以逗号","分隔,在年龄age字段上建5个桶。
建表示例:
create table person_bucket
(id string,name string,sex string,age int) partitioned by (city string)
clustered by (age) sorted by(name) into 5 buckets
row format delimited fields terminated by ‘,’
stored as textfile;
打开桶参数: set hive.enforce.bucketing = true;
加载数据:insert into table person_bucket partition (city=‘jinan’) select * from person_inside;
数据加载到桶表时,会对字段取hash值,然后与桶的数量取模。把数据放到对应的文件中。
抽样查询:查询5个桶中的第2个桶,即000001_0 文件
select * from person_bucket tablesample(bucket 2 out of 5 on age);
注意:
要生成桶的数据,只能是由其他表通过insert into 或是insert overwrite导入数据,如果使用LOAD DATA 加载数据,则不能生成桶数据。
定义桶可以使用整型字段或是string类型字段。
若表没有定义桶也可以进行随机抽样,但是要全表扫描,速度慢。
必须先set hive.enforce.bucketing = true,才可以将数据正常写入桶中。
导出到本地文件系统
insert overwrite local directory ‘/tmp/exporttest/’ select * from person_inside;
注意:导出路径为文件夹路径,不必指定文件名。执行语句后,会在本地目录的/tmp/exporttest/下 生成一个000000_0结果集数据文件。
导出的数据列之间的分隔符默认是^A(ascii码是\001)。
导出到HDFS中
insert overwrite directory ‘/hivedb’ select * from person_inside;
注意:导出路径为文件夹路径,不必指定文件名。执行语句后,会在HDFS目录的/hivedb下 生成一个000000_0结果集数据文件。
导出到Hive的另一个表中
insert into table person_part partition (city=‘jinan’) select * from person_inside;
基于Partition的查询
例如:分区为 city
SELECT * FROM person_part WHERE city=‘jinan’;
限制条数查询 LIMIT
Limit可以限制查询的记录数。查询的结果是随机选择的。下面的查询语句从t1表中随机查询5条记录:
SELECT * FROM person_inside LIMIT 5;
Top N查询
下面的查询语句查询年龄最大的5个人。
set mapred.reduce.tasks= 2; 设置mapReduce任务数为2 个
Hive多表关联使用join…on语句
Hive只支持等值连接,即ON子句中使用等号连接,不支持非等值连接。
如果连接语句中有WHERE子句,会先执行JOIN子句,再执行WHERE子句。
可以 join 多个表。
创建employee表
创建表
create table employee(employee_id string,name string)
row format delimited fields terminated by ‘,’ stored as textfile;
加载数据: 本地数据位置: /tmp/employee.txt
load data local inpath ‘file:///tmp/employee.txt’ into table employee;
创建job表
创建表
create table job (job_id string,job string,employee_id string)
row format delimited fields terminated by ‘,’ stored as textfile;
加载数据: 本地数据位置: /tmp/job.txt
load data local inpath ‘file:///tmp/job.txt’ into table job ;
指的是把符合两边连接条件的数据查询出来。
查询语句
select * from employee join job on employee.employee_id=job.employee_id;
如果 左边有数据,右边没有数据,则左边有数据的记录的对应列返回为空。
查询语句
select * from employee left outer join job on employee.employee_id=job.employee_id;
注意:不能使用left join,只能使用left outer join。
如果 左边没有数据,右边有数据,则右边有数据的记录对应列返回为空。
查询语句
select * from employee right outer join job on employee.employee_id=job.employee_id;
注意:不能使用right join,只能使用right outer join。
显示左外连接,右外连接的合集。
查询语句
select * from employee full outer join job on employee.employee_id=job.employee_id;
左半连接与in操作或者exists操作,效果一样。
查询语句
select * from employee left semi join job on employee.employee_id=job.employee_id;
上面语句相当于如下语句:
select * from employee where employee_id in (select employee_id from job);
左边的表在右边表的范围内。与left semi join 效果一样。
select * from employee where employee_id in (select employee_id from job);
左边的表不在右边表的范围内。
select * from employee where employee_id not in (select employee_id from job);
查询左右模糊匹配的所有结果。
select * from employee where name like ‘张%’;
查询左右模糊匹配以外的所有结果。
select * from employee where name not like ‘张%’;
查询数据库:show databases;
模糊搜索表:show tables like ‘name’;
删除数据库:drop database dbname;
删除数据表:drop table tablename;
查看表结构信息:desc table_name;
查看详细表结构信息: desc formatted table_name;
查看分区信息: show partitions table_name;
查看hdfs文件列表信息:hadoop fs -ls /user/hive/warehouse/
查看hdfs文件内容:hadoop fs -cat /user/hive/warehouse/file.txt
//创建movie表。电影信息表
create table movie
(movie_id int,movie_name string,movie_leixing string)
row format delimited fields terminated by ‘^’
stored as textfile
//从本地填充数据进入内部表
load data local inpath ‘/home/cloudera/Desktop/movie.dat’ into table movie
如法炮制其他两张表
//创建user表,用户信息表
create table user
(user_id int,user_sex string,user_age int,user_zhiye string,user_youbian string)
row format delimited fields terminated by ‘^’
stored as textfile
//从本地填充数据进入内部表
load data local inpath ‘/home/cloudera/Desktop/user.dat’ into table user
//创建rating表,评论信息表
create table rating
(user_id int,movie_id int,rating_pingfen int,rating_shijian string)
row format delimited fields terminated by ‘^’
stored as textfile;
//从本地填充数据进入内部表
load data local inpath ‘/home/cloudera/Desktop.rating.dat’ into table rating
//利用内连接进行数据合并
第一步合并评论数据表和用户数据表
即合并rating表和user表
1.建表填充数据法,首先创建合并表的表即rating_user表
create table rating_user
(user_id int,movie_id int,rating_pingfen string,rating_shijian string,user_sex string,user_age int,user_zhiye string,user_youbian string)
row format delimited fields terminated by ‘^’
stored as textfile;
//将查询结果插入到此表中
insert into table rating_user select rating.user_id,movie_id,rating_pingfen,rating_shijian,user_sex,user_age,user_zhiye,user_youbian
from rating join user on rating.user_id=user.user_id
2.查询建表法,
create table rating_user
row format serde ‘org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe’
stored as rcfile
as
select rating.user_id,movie_id,rating_pingfen,rating_shijian,user_sex,user_age,user_zhiye,user_youbian
from rating join user on rating.user_id=user.user_id
3.不建表法,通过将第一次join的结果作为第二次join的条件,一次查出所有数据的合集
select rating_user.user_id,rating_user.movie_id,rating_pingfen,rating_shijian,user_sex,user_age,user_zhiye,user_youbian,movie_name,movie_leixing from
(select rating.user_id,movie_id,rating_pingfen,rating_shijian,user_sex,user_age,user_zhiye,user_youbian from rating join user on rating.user_id=user.user_id)
rating_user join movie on rating_user.movie_id=movie.movie_id
2.一步到位查询建表法,
create table rating_user_movie
row format serde ‘org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe’
stored as rcfile
as
select rating_user.user_id,rating_user.movie_id,rating_pingfen,rating_shijian,user_sex,user_age,user_zhiye,user_youbian,movie_name,movie_leixing from
(select rating.user_id,movie_id,rating_pingfen,rating_shijian,user_sex,user_age,user_zhiye,user_youbian from rating join user on rating.user_id=user.user_id)
rating_user join movie on rating_user.movie_id=movie.movie_id
//查询合并后的表的数据条数
select count(*) from rating_user_movie;
//对数据进行合并查询
select count(movie_id) from rating_user_movie
//通过电影id进行分组,将统计出的数据条数作为新的列,对组内数据进行合并,最后对所有数据进行排序,倒序排序,取出前20条
select movie_id,count(movie_id) as m1
from rating_user_movie
group by movie_id
order by m1 desc
limit 20;
2.//通过电影id和电影name进行分组,将统计出的数据条数作为新的列,对组内数据进行合并,最后对所有数据进行排序,倒序排序,取出前20条
select movie_name,count(movie_id) as m1
from rating_user_movie
group by movie_id,movie_name
order by m1 desc
having m1 >= 20
limit 20;
3.//通过电影id和电影name进行分组,将统计出的数据平均值作为新的列,对组内数据进行合并,
计数,做条件判断,取平均值,最后对数据进行排序
select movie_name,count(movie_id) as m1,avg(rating_pingfen) as m2
from rating_user_movie
group by movie_id,movie_name
having m1 >= 100
order by m2 desc
limit 10;
//查看合并数据条数是否正确
select count(*) from rating_user_movie;
select count(1) from rating_user_movie group by movie_id;
4.//通过电影id和性别进行分组,经统计出的数据平均值作为新的列,对组内数据做合并,
//通过电影id,电影名字,电影类型,用户性别,进行分组,统计出
select movie_id,movie_name,movie_leixing,user_sex,avg(rating_pingfen) as f
from rating_user_movie where user_sex like ‘F’
group by movie_id,movie_name,movie_leixing,user_sex
limit 5;
//通过电影的id,用户的性别来对电影表做数据平均
select movie_id,movie_name,movie_leixing,user_sex,avg(rating_pingfen) as f
from rating_user_movie
group by movie_id,movie_name,movie_leixing,user_sex
limit 5;
4.平均值过后对数据进行处理时,先根据性别进行分割在join连接到一起。
select m1.movie_id,m1.movie_name,m1.movie_leixing,f,m from
(select movie_id,movie_name,movie_leixing,user_sex,avg(rating_pingfen) as f
from rating_user_movie where user_sex like ‘F’
group by movie_id,movie_name,movie_leixing,user_sex) f1 join
(select movie_id,movie_name,movie_leixing,user_sex,avg(rating_pingfen) as m
from rating_user_movie where user_sex like ‘M’
group by movie_id,movie_name,movie_leixing,user_sex) m1 on f1.movie_id=m1.movie_id
select movie_id,movie_name,count(movie_id) as m1
from rating_user_movie
group by movie_id,movie_name
order by m1 desc
limit 50;
select movie_id,user_age,avg(rating_pingfen) as f1
from rating_user_movie
group by movie_id,movie_name,user_age
5.1//通过两次筛选,对第一次筛选出的评论数量前50条电影数据做处理后,
连接第二次筛选出的每部电影每个年龄段的平均分,最终七个年龄段连接出350条数据
并将其生成data_age表
create table data_age
row format serde ‘org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe’
stored as rcfile
as
select t1.movie_name,t2.user_age,pingjunfen from
(select movie_id,movie_name,count(movie_id) as m1
from rating_user_movie
group by movie_id,movie_name
order by m1 desc
limit 50) t1 join
(select movie_id,user_age,avg(rating_pingfen) as pingjunfen
from rating_user_movie
group by movie_id,movie_name,user_age) t2 on
t1.movie_id=t2.movie_id
5.2//行转列
select movie_name, case 0
select movie_name,
case user_age when 1 then pingjunfen else 0 end as 1,
case user_age when 18 then pingjunfen else 0 end as 18,
case user_age when 25 then pingjunfen else 0 end as 25,
case user_age when 35 then pingjunfen else 0 end as 35,
case user_age when 45 then pingjunfen else 0 end as 45,
case user_age when 50 then pingjunfen else 0 end as 50,
case user_age when 56 then pingjunfen else 0 end as 56,
from data_age;