Hive的数据库操作(增删改)

Hive的数据库操作(增删改)

  1. Hive的基本数据类型

    Hive 数据类型 Java 数据类型 长度

    TINYINT byte 1byte 有符号整数

    SMALINT short 2byte 有符号整数
    INT int 4byte有符号整数

    BIGINT long 8byte 有符号整数

    BOOLEAN boolean 布尔类型 true 或者 false

    FLOAT float 单精度浮点数

    DOUBLE double 双精度浮点数

    STRING string 字符系列。可以指定字符集。可以使用单引号或者双引号

  2. 集合的数据类型

数据类型 描述 语法示例
STRUCT 和 c 语言中的 struct 类似,都可以通过“点”符号访问元素内容。例如,如果某个列的数据类型是 STRUCT{first STRING, last STRING},那么第 1 个元素可以通过字段.first 来引用。
struct()
例如 struct
MAP MAP 是一组键-值对元组集合,使用数组表示法可以访问数据。例如,如果某个列的数据类型是 MAP,其中键->值对是’first’->’John’和’last’->’Doe’,那么可以通过字段名[‘last’]获取最后一个元素
map()
例如 map
ARRAY 数组是一组具有相同类型和名称的变量的集合。这些变量称为数组的元素,每个数组元素都有一个编号,编号从零开始。例如,数组值为[‘John’, ‘Doe’],那么第 2 个元素可以通过数组名[1]进行引用。
Array()
例如 array
Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的Array 和 Map 类似,而 STRUCT 与 C 语言中的 Struct 类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。

  1. 类型转换

    Hive 的原子数据类型是可以进行隐式转换的,类似于 Java 的类型转换,例如某表达式使用 INT 类型,TINYINT 会自动转换为 INT 类型,但是 Hive 不会进行反向转化,例如,某表达式使用 TINYINT 类型,INT 不会自动转换为 TINYINT 类型,它会返回错误,除非使用 CAST 操作。
    1.隐式类型转换规则如下

    (1)任何整数类型都可以隐式地转换为一个范围更广的类型,如 TINYINT 可以转换成 INT,INT 可以转换成 BIGINT。
    (2)所有整数类型、FLOAT 和 STRING 类型都可以隐式地转换成 DOUBLE。
    (3)TINYINT、SMALLINT、INT 都可以转换为 FLOAT。
    (4)BOOLEAN 类型不可以转换为任何其它的类型。

    2.可以使用 CAST 操作显示进行数据类型转换 例如 CAST(‘1’ AS INT)将把字符串’1’ 转换成整数 1;如果强制类型转换失败,如执行
    CAST(‘X’ AS INT),表达式返回空值 NULL。
    select ‘1’+2, cast('1’as int) + 2;

  2. DDL数据库定义

    1. 数据库操作

      1.建库
      CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];
      案例:
      create database if not exists db_hive; 
      2. 显示库
      show databases;
      3. 查看详情
      desc database extended db_hive; 
      4. 修改数据库
       alter database db_hive set dbproperties('createtime'='20170830'); 
      (注意用户可以使用 ALTER DATABASE 命令为某个数据库的 DBPROPERTIES 设置键-值对属性值,来描述这个数据库的属性信息。数据库的其他元数据信息都是不可更改的,包括数据库名和数据库所在的目录位置。 )
      5.删库
      drop databases db;
      
    2. 管理表

      1.建表
      create table if not exists student2( id int, name string ) row format delimited fields terminated by '\t' stored as textfile location '/user/hive/warehouse/student2';
      2. 外部表
      1.理论 因为表是外部表,所以 Hive 并非认为其完全拥有这份数据。删除该表并不会删除掉这
      份数据,不过描述表的元数据信息会被删除掉。 
      2. 案例
      	create external table if not exists default.dept( deptno int, dname string, loc int ) row format delimited fields terminated by '\t';
      	 load data local inpath '/opt/module/data/dept.txt' into table default.dept; 
      	 
      3. 内部表与外部表之间的转换
      	修改内部表 student2 为外部表 alter table student2 set tblproperties('EXTERNAL'='TRUE'); 
      	修改外部表 student2 为内部表 alter table student2 set tblproperties('EXTERNAL'='FALSE'); 
      
    3. 分区表
      分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。

      1. 创建分区表
      hive (default)> create table dept_partition( deptno int, dname string, loc string ) partitioned by (month string) row format delimited fields terminated by '\t'; 
      注意:分区字段不能是表中已经存在的数据,可以将分区字段看作表的伪列
      2. 加载数据到分区表
      load data local inpath '/opt/module/datas/dept.txt' into table default.dept_partition partition(month='201709');
      注意:分区表加载数据时,必须指定分区
      3. 查询分区表中的数据
      select * from dept_partition where month='201709'; 
      4. 增加分区
      alter table dept_partition add partition(month='201706') ;
      5.删除分区
       alter table dept_partition drop partition (month='201704'); 
      6.查看分区
       show partitions dept_partition; 
      7. 创建二级分区
      	 create table dept_partition2(deptno int, dname string, loc string )                partitioned by (month string, day string)           
      	 row format delimited fields terminated by '\t'; 
      8. 加载数据
      	load data local inpath '/opt/module/datas/dept.txt' into table  default.dept_partition2 partition(month='201709', day='13');
      
    4. 修改表

      1. 重命名
      ALTER TABLE table_name RENAME TO new_table_name 
      2. 增加/修改/替换列信息
      	更新:ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name] 
      	增加和替换:ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...) 
      	注:ADD 是代表新增一字段,字段位置在所有列后面(partition 列前)REPLACE 则是 表示替换表中所有字段。
      案例:
      	1. 增加列
      	 alter table dept_partition add columns(deptdesc string);
      	2. 更新列
      	 alter table dept_partition change column deptdesc desc int;
          3. 替换列
            alter table dept_partition replace columns(deptno string, dname  string, loc string); 
          4. 删除表
          drop table dept_partition
      
  3. DML数据操作

    1. 像表中装载数据(Load)

      1. 语法:hive> load data [local] inpath ‘/opt/module/datas/student.txt’ [overwrite] into table student [partition (partcol1=val1,…)];

      2. 案例:

        加载本地文件:load data local inpath ‘/opt/module/datas/student.txt’ into table default.student;

        加载 HDFS 上数据 load data inpath ‘/user/ityouxin/hive/student.txt’ into table default.student;

    2. 通过查询语句向表中插入数据(Insert)

      1.创建一张分区表 hive (default)> create table student(id int, name string) partitioned by (month string) row format delimited fields terminated by '\t'; 
      2.基本插入数据 hive (default)> insert into table  student partition(month='201709')		values(1,'wangwu')(2,’zhaoliu’); 
      3.基本模式插入(根据单张表查询结果) hive (default)> insert overwrite table student partition(month='201708')     select id, name from student where month='201709';insert into:以追加数据的方式插入到表或分区,原有数据不会删除 
      
      ​	insert overwrite:会覆盖表或分区中已存在的数据 注意:insert 不支持插入部分字段 
      4.多表(多分区)插入模式(根据多张表查询结果)
      
      ​	 hive (default)> from student   
      
      ​	insert overwrite table student partition(month='201707')               select id, name where month='201709'             
      
        insert overwrite table student partition(month='201706')               select id, name where month='201709';
      
    3. 查询语句中创建表并加载数据((As Select)

      create table if not exists student3 as select id, name from student; 
      
    4. 数据导出

      1insert导出
      	1).将查询的结果导出到本地
      	hive (default)> insert overwrite local directory '/opt/module/datas/export/student'    
      	select * from student; 
      	2).将查询的结果格式化导出到本地
      	hive(default)>insert overwrite local directory '/opt/module/datas/export/student1'            ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'            
      		   select * from student; 
      	3).将查询的结果导出到 HDFS 上(没有 local) 
      	hive (default)> insert overwrite directory 	'/user/ityouxin/student2'              ROW FORMAT 	DELIMITED FIELDS TERMINATED BY '\t'             
      	select * from student; 
      2. Hadoop 命令导出到本地
      hive (default)> dfs -get /user/hive/warehouse/student/month=201709/000000_0 /opt/module/datas/export/student3.txt;
      3. Hive Shell 命令导出 
      [ityouxin@hadoop102 hive]$ bin/hive -e 'select * from default.student;' >  /opt/module/datas/export/student4.txt;
      4.  Export 导出到 HDFS 上 
      (defahiveult)> export table default.student to  '/export/student'; export 和 import 主要用于两个 Hadoop 平台集群之间 Hive 表迁移。 
      5. Sqoop 导出 :后续详细解析
      6.清除表中数据(Truncate) 
      注意:Truncate 只能删除管理表,不能删除外部表中数据 hive (default)> truncate table student;
      

你可能感兴趣的:(Hive)