大数据 - Hive介绍和安装使用

Hive

       hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Hive为什么需要mysql?

       metastore是hive元数据(表结构)的集中存放地;
       metastore默认使用内嵌的derby数据库作为存储引擎;
       Derby引擎的缺点:一次只能打开一个会话;
       使用Mysql作为外置存储引擎,多用户同时访问。

安装配置

       已经安装好hadoop,并启动了hdfs。Hadoop安装参考 https://blog.csdn.net/lyhkmm/article/details/88037565

hive下载地址

       http://mirror.bit.edu.cn/apache/hive/
       这里选择apache-hive-2.3.4-bin.tar.gz,通过远程工具上传到指定目录,这里上传的/app/目录下。

解压到当前文件夹

[root@hadoop1 app]# tar -vzxf apache-hive-2.3.4-bin.tar.gz

修改环境变量

[root@hadoop1 app]# vi /etc/profile

       添加

export HIVE_HOME=/app/apache-hive-2.3.4-bin
export PATH=$PATH:$HIVE_HOME/bin

       加载配置文件,验证是否安装成功。

[root@hadoop1 app]# source /etc/profile
[root@hadoop1 app]# hive --version
Hive 2.3.4
Git git://daijymacpro-2.local/Users/daijy/commit/hive -r 56acdd2120b9ce6790185c679223b8b5e884aaf2
Compiled by daijy on Wed Oct 31 14:20:50 PDT 2018
From source with checksum 9f2d17b212f3a05297ac7dd40b65bab0

配置文件

[root@hadoop1 app]# cd apache-hive-2.3.4-bin/conf/
[root@hadoop1 conf]# cp hive-default.xml.template hive-site.xml
[root@hadoop1 conf]# vi hive-site.xml

       添加mysql配置信息,在配置文件末尾最一行之前添加。

    
        javax.jdo.option.ConnectionUserName
        root
    
    
        javax.jdo.option.ConnectionPassword
        123456
    
   
        javax.jdo.option.ConnectionURL
        jdbc:mysql://127.0.0.1:3306/hive
    
    
        javax.jdo.option.ConnectionDriverName
        com.mysql.jdbc.Driver
    
    
                hive.metastore.schema.verification
                false
    

       复制mysql驱动jar包:mysql-connector-java-5.1.43.jar(这个jar包从自己已有的项目拷过来就行)到apache-hive-2.3.4-bin/lib。在自己的mysql创建新数据库,数据名为:hive,编码utf-8。

初始化

       初始化mysql中hive数据库的schema,–verbose是输出详细日志

[root@hadoop1 conf]# schematool -dbType mysql -initSchema --verbose

       执行完后可以看到mysql中的hive库多了很多表,如果以下报错误,当前用户没有hdfs足够的权限

Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=EXECUTE, inode="/tmp":hadoop:supergroup:drwx------

        解决办法:
       1、用拥有相应的hdfs用户的权限操作,切换到拥有hdfs操作权限的hadoop用户

[root@hadoop1 conf]# su hadoop

        2、开放hdfs权限,切换到拥有hdfs操作权限的hadoop用户,然后授权
[root@hadoop1 conf]# su hadoop
[hadoop@hadoop1 conf]$ hadoop fs -chmod 777 /tmp

Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: ${system:java.io.tmpdir%7D/$%7Bsystem:user.name%7D

       解决办法:
       修改hive-site.xml中的配置变量value,根据实际情况修改。value中的文件夹需要新建和授权。

  
    hive.exec.local.scratchdir
    /app/tmp/hive
    Local scratch space for Hive jobs
  
  
    hive.downloaded.resources.dir
    /app/tmp/${hive.session.id}_resources
    Temporary local directory for added resources in the remote file system.
  

安装完成

[root@hadoop1 conf]# hive
which: no hbase in (/usr/lib/java/jdk1.8.0_191/bin:/usr/local/apache-maven-3.0.5/bin:/usr/lib/java/jdk1.8.0_191/bin:/usr/local/apache-maven-3.0.5/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/app/scala-2.11.12/bin:/app/hadoop/spark-2.4.0-bin-hadoop2.7/bin:/app/hadoop/spark-2.4.0-bin-hadoop2.7/sbin:/app/apache-flume-1.8.0-bin/bin:/app/hadoop/hadoop-2.8.5/bin:/app/hadoop/hadoop-2.8.5/sbin:/app/apache-hive-3.1.1-bin/bin:/root/bin:/app/scala-2.11.12/bin:/app/hadoop/spark-2.4.0-bin-hadoop2.7/bin:/app/hadoop/spark-2.4.0-bin-hadoop2.7/sbin:/app/apache-flume-1.8.0-bin/bin:/app/hadoop/hadoop-2.8.5/bin:/app/hadoop/hadoop-2.8.5/sbin:/app/apache-hive-2.3.4-bin/bin)
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/app/apache-hive-2.3.4-bin/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/app/hadoop/hadoop-2.8.5/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]

Logging initialized using configuration in jar:file:/app/apache-hive-2.3.4-bin/lib/hive-common-2.3.4.jar!/hive-log4j2.properties Async: true
Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
hive>

使用

HDFS的文件映射为Hive

       终端上传测试文件用户信息user.txt到/tmp。
       user.txt

张三 13112233445 福建
李四 15123456789 广州
王五 18123456789 北京

       上传user.txt到hdfs的/text目录下,没有text目录则新建 。

[hadoop@hadoop1 ~]$ hadoop fs -mkdir /test
[hadoop@hadoop1 ~]$ hadoop fs -put /tmp/user.txt /test

       创建数据库,和sql语法一致。

hive> create database from_hdfs;
hive> use from_hdfs;

       创建表结构

hive> create table  user_from_hdfs (name string, tel_num string,province string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

       将hdsf的文件映射为Hive中的表

hive> load data inpath 'hdfs://hadoop1:9000/test/user.txt' into table user_from_hdfs;

       查询

hive> select * from user_from_hdfs;

在这里插入图片描述
       这里出现乱码原因是之前上传的/tmp/user.txt编码为iso-8859-1

[hadoop@hadoop1 sbin]$  file --mime-encoding /tmp/user.txt
/tmp/user.txt: iso-8859-1

       修改编码为utf-8

[hadoop@hadoop1 sbin]$ sudo iconv -f iso-8859-1 -t utf-8 /tmp/user.txt -o /tmp/user.txt

       重新上传到hdfs

[hadoop@hadoop1 sbin]$ hadoop fs -put /tmp/user.txt /test/

       重新再映射

hive>load data inpath 'hdfs://hadoop1:9000/test/user.txt' into table user_from_hdfs;
hive>select * from user_from_hdfs;

大数据 - Hive介绍和安装使用_第1张图片

你可能感兴趣的:(大数据,大数据)