菜鸟进阶(Hive的安装与使用)


1.上传tar包

2.解压
    tar -zxvf hive-1.2.1.tar.gz
3.安装mysql数据库
   推荐yum 在线安装(运行脚本安装)

4.配置hive
    (a)配置HIVE_HOME环境变量  
        vi conf/hive-env.sh 
        配置其中的$hadoop_home

    
    (b)配置元数据库信息  
        vi  hive-site.xml 
        添加如下内容:
        
        
        javax.jdo.option.ConnectionURL
        jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true
        JDBC connect string for a JDBC metastore
        

        
        javax.jdo.option.ConnectionDriverName
        com.mysql.jdbc.Driver
        Driver class name for a JDBC metastore
        

        
        javax.jdo.option.ConnectionUserName
        root
        username to use against metastore database
        

        
        javax.jdo.option.ConnectionPassword
        root
        password to use against metastore database
        

        
    
5.安装hive和mysq完成后,将mysql的连接jar包拷贝到$HIVE_HOME/lib目录下
    如果出现没有权限的问题,在mysql授权(在安装mysql的机器上执行)
    mysql -uroot -p
    
    设置密码
    set password=password('root');
    
    #(执行下面的语句  *.*:所有库下的所有表   %:任何IP地址或主机都可以连接)
    GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;
    
    FLUSH PRIVILEGES;
    
    
    通过mysql -uroot -proot
    
    
6. Jline包版本不一致的问题,需要拷贝hive的lib目录中jline.2.12.jar的jar包替换掉hadoop中的 
    6.1、 cp hive/lib/jline-2.12.jar /opt/software/hadoop-2.6.4/share/hadoop/yarn/lib/
    6.2、装hive和mysq完成后,将mysql的连接jar包拷贝到$HIVE_HOME/lib目录下

 

 


启动hive
bin/hive
----------------------------------------------------------------------------------------------------
Hive几种使用方式:
    1.Hive交互shell      bin/hive
    
    2.Hive JDBC服务(参考java jdbc连接mysql)
    
    3.hive启动为一个服务器,来对外提供服务
        bin/hiveserver2
        nohup bin/hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err &
        
        启动成功后,可以在别的节点上用beeline去连接
        bin/beeline -u jdbc:hive2://mini1:10000 -n root
        
        或者
        bin/beeline
        ! connect jdbc:hive2://mini1:10000
    
    4.Hive命令 
        hive  -e  ‘sql’
        bin/hive -e 'select * from t_test'

 

导入数据:
    1、load data local inpath '/root/tes.txt' into table test.usr;
      将本地的数据导入到hive中
    2、load data  inpath 'hdfs://node01:9000/user/tes.txt' into table test.te;
        从hdfs集群导入数据
    3、insert into
创建表:
        内部表--删除之后数据全部丢失
        外部表--删除元数据之后源数据还存在
        1、结构一样,但是数据不一样  ----like
            create table bws like te;
        2、结构一样,数据也一样----as
            create table bws2 as select * from tes;

ROW FORMAT DELIMITED : 行格式分隔
FIELDS TERMINATED BY ’,’ : 字段之间使用空格分隔
COLLECTION ITEMS TERMINATED BY ‘,’ : 集合(就是这的数据)使用逗号分隔
MAP KEYS TERMINATED BY ‘:’ : 键值对使用冒号分隔
LINES TERMINATED BY ‘\t’ : 记录之间使用换行符分隔

 

 

 


?LOAD DATA命令,可分为LOAD DATA LOCAL INPATH和LOAD DATA INPATH。两者的区别在于LOCAL导入的是本地文件而不加LOCAL的导入的是HDFS文件

 


创建表:

Hive 内部表
    CREATE  TABLE [IF NOT EXISTS] table_name
    删除表时,元数据与数据都会被删除
Hive 外部表
    CREATE EXTERNAL TABLE [IF NOT EXISTS] table_name LOCATION hdfs_path
    删除外部表只删除metastore的元数据,不删除hdfs中的表数据

Hive 查看表描述

DESCRIBE [EXTENDED|FORMATTED] table_name
    extended
    formatted


Hive 建表

Create Table Like:
CREATE TABLE empty_key_value_store LIKE key_value_store;

Create Table As Select (CTAS)
CREATE TABLE new_key_value_store 
      AS
    SELECT columA, columB FROM key_value_store;

Hive 分区partition
    必须在表定义时指定对应的partition字段
    a、单分区建表语句:
    create table day_table (id int, content string) partitioned by (dt string);
    单分区表,按天分区,在表结构中存在id,content,dt三列。
    以dt为文件夹区分
b、 双分区建表语句:
    create table day_hour_table (id int, content string) partitioned by (dt string, hour string);
    双分区表,按天和小时分区,在表结构中新增加了dt和hour两列。
    先以dt为文件夹,再以hour子文件夹区分
 

你可能感兴趣的:(菜鸟进阶(Hive的安装与使用))