一、Hive数据的存放位置
Hive是构建在Hadoop上的,所以Hive的数据是存放在HDFS之上,但是一般Hive的元数据存放在RDBMS之上。
Hive数据抽象结构图:
二、关于数据库(Database)
(一)创建数据库:
CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name
[COMMENT database_comment]
[LOCATION hdfs_path]
[WITH DBPROPERTIES (property_name=property_value, ...)];
eg:create database if not exists hive_database;
注:(1) if not exists —— 如果不存在,则执行
(2) 创建的数据库名为—— hive_database
(二)查看数据库:show databases; ——查看所有的数据库
desc database hive_database; —— 获取数据表结构
desc database extended hive_database; —— 显示数据结构和参数
注:desc命令用于获取数据结构。
(三)删除数据库:
DROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASCADE];
eg: drop database if exists hive_database;
drop database if exists hive_database cascade;
注:if exists —— 如果存在,则执行
cascade —— 默认情况下,Hive不允许删除一个包含表的数据库,加关键字cascade,可以实现级联删除。
(四)修改数据库:
Hive中不允许更改数据库的元数据信息,唯一可改变的就是添加数据库的dbproperties值。
eg:alter database database_name set dbproperties ('key' = 'value');
(五)切换数据库: USE database_name;
USE DEFAULT;
注:在Hive中,会有一个默认的DEFAULT数据库
三、关于表(Table)
(一)创建表:create table hive_table (id int,name string)
(二)给新建的hive表加载数据:
(1) load data [local] inpath 'filepath' [overwrite] into table table_name;
****大括号中的关键字解析:
local —— 从本地文件系统加载数据到hive表,没有加local关键字则表示从HDFS文件系统加载数据到hive表中;
overwrite —— 加载数据到hive表时,覆盖hive表的原有数据,没有加overwrite关键字则表示加载数据到hive表时追加到原有数据的后面;
filepath —— 表示加载到hive表数据的原地址。
(2) create table hive_table1 like hive_table2 ——创建一个与hive_table2 结构一样的表
insert overwrite table hive_table1 select * from hive_table2;
注:hive_table1——目标表 hive_table2——来源表
**使用insert加载数据之前,必须先创建好目标表
(三)修改表:alter
alter table table3 rename to table3_1;
rename to:重命名
(四)删除
drop table if exists table_name;
(五)关于内部表和外部表
hive默认创建的是内部表
1.内部表
create table test (name string , age string) location '/input/table_data';
此时,会在hdfs上新建一个test表的数据存放地
loaddata inpath '/input/data' into table test ;
会将hdfs上的/input/data目录下的数据转移到/input/table_data目录下。删除test表后,会将test表的数据和元数据信息全部删除,即最后/input/table_data下无数据,当然/input/data下再上一步已经没有了数据!
如果创建内部表时没有指定location,就会在/user/Hive/warehouse/下新建一个表目录,其余情况同上。
注:load data会转移数据
2. 外部表
create external table test (name string , age string);
会在/user/hive/warehouse/新建一个表目录et
load data inpath'/input/edata'into table test;
把hdfs上/input/edata/下的数据转到/user/hive/warehouse/et下,删除这个外部表后,/user/hive/warehouse/et下的数据不会删除,但是/input/edata/下的数据在上一步load后已经没有了!数据的位置发生了变化!
本质是load一个hdfs上的数据时会转移数据!