hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
metastore是hive元数据(表结构)的集中存放地;
metastore默认使用内嵌的derby数据库作为存储引擎;
Derby引擎的缺点:一次只能打开一个会话;
使用Mysql作为外置存储引擎,多用户同时访问。
已经安装好hadoop,并启动了hdfs。Hadoop安装参考 https://blog.csdn.net/lyhkmm/article/details/88037565
http://mirror.bit.edu.cn/apache/hive/
这里选择apache-hive-2.3.4-bin.tar.gz,通过远程工具上传到指定目录,这里上传的/app/目录下。
[root@hadoop1 app]# tar -vzxf apache-hive-2.3.4-bin.tar.gz
[root@hadoop1 app]# vi /etc/profile
添加
export HIVE_HOME=/app/apache-hive-2.3.4-bin
export PATH=$PATH:$HIVE_HOME/bin
加载配置文件,验证是否安装成功。
[root@hadoop1 app]# source /etc/profile
[root@hadoop1 app]# hive --version
Hive 2.3.4
Git git://daijymacpro-2.local/Users/daijy/commit/hive -r 56acdd2120b9ce6790185c679223b8b5e884aaf2
Compiled by daijy on Wed Oct 31 14:20:50 PDT 2018
From source with checksum 9f2d17b212f3a05297ac7dd40b65bab0
[root@hadoop1 app]# cd apache-hive-2.3.4-bin/conf/
[root@hadoop1 conf]# cp hive-default.xml.template hive-site.xml
[root@hadoop1 conf]# vi hive-site.xml
添加mysql配置信息,在配置文件末尾最一行之前添加。
javax.jdo.option.ConnectionUserName
root
javax.jdo.option.ConnectionPassword
123456
javax.jdo.option.ConnectionURL
jdbc:mysql://127.0.0.1:3306/hive
javax.jdo.option.ConnectionDriverName
com.mysql.jdbc.Driver
hive.metastore.schema.verification
false
复制mysql驱动jar包:mysql-connector-java-5.1.43.jar(这个jar包从自己已有的项目拷过来就行)到apache-hive-2.3.4-bin/lib。在自己的mysql创建新数据库,数据名为:hive,编码utf-8。
初始化mysql中hive数据库的schema,–verbose是输出详细日志
[root@hadoop1 conf]# schematool -dbType mysql -initSchema --verbose
执行完后可以看到mysql中的hive库多了很多表,如果以下报错误,当前用户没有hdfs足够的权限
Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=EXECUTE, inode="/tmp":hadoop:supergroup:drwx------
解决办法:
1、用拥有相应的hdfs用户的权限操作,切换到拥有hdfs操作权限的hadoop用户
[root@hadoop1 conf]# su hadoop
2、开放hdfs权限,切换到拥有hdfs操作权限的hadoop用户,然后授权
[root@hadoop1 conf]# su hadoop
[hadoop@hadoop1 conf]$ hadoop fs -chmod 777 /tmp
Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: ${system:java.io.tmpdir%7D/$%7Bsystem:user.name%7D
解决办法:
修改hive-site.xml中的配置变量value,根据实际情况修改。value中的文件夹需要新建和授权。
hive.exec.local.scratchdir
/app/tmp/hive
Local scratch space for Hive jobs
hive.downloaded.resources.dir
/app/tmp/${hive.session.id}_resources
Temporary local directory for added resources in the remote file system.
[root@hadoop1 conf]# hive
which: no hbase in (/usr/lib/java/jdk1.8.0_191/bin:/usr/local/apache-maven-3.0.5/bin:/usr/lib/java/jdk1.8.0_191/bin:/usr/local/apache-maven-3.0.5/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/app/scala-2.11.12/bin:/app/hadoop/spark-2.4.0-bin-hadoop2.7/bin:/app/hadoop/spark-2.4.0-bin-hadoop2.7/sbin:/app/apache-flume-1.8.0-bin/bin:/app/hadoop/hadoop-2.8.5/bin:/app/hadoop/hadoop-2.8.5/sbin:/app/apache-hive-3.1.1-bin/bin:/root/bin:/app/scala-2.11.12/bin:/app/hadoop/spark-2.4.0-bin-hadoop2.7/bin:/app/hadoop/spark-2.4.0-bin-hadoop2.7/sbin:/app/apache-flume-1.8.0-bin/bin:/app/hadoop/hadoop-2.8.5/bin:/app/hadoop/hadoop-2.8.5/sbin:/app/apache-hive-2.3.4-bin/bin)
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/app/apache-hive-2.3.4-bin/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/app/hadoop/hadoop-2.8.5/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
Logging initialized using configuration in jar:file:/app/apache-hive-2.3.4-bin/lib/hive-common-2.3.4.jar!/hive-log4j2.properties Async: true
Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
hive>
终端上传测试文件用户信息user.txt到/tmp。
user.txt
张三 13112233445 福建
李四 15123456789 广州
王五 18123456789 北京
上传user.txt到hdfs的/text目录下,没有text目录则新建 。
[hadoop@hadoop1 ~]$ hadoop fs -mkdir /test
[hadoop@hadoop1 ~]$ hadoop fs -put /tmp/user.txt /test
创建数据库,和sql语法一致。
hive> create database from_hdfs;
hive> use from_hdfs;
创建表结构
hive> create table user_from_hdfs (name string, tel_num string,province string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
将hdsf的文件映射为Hive中的表
hive> load data inpath 'hdfs://hadoop1:9000/test/user.txt' into table user_from_hdfs;
查询
hive> select * from user_from_hdfs;
这里出现乱码原因是之前上传的/tmp/user.txt编码为iso-8859-1
[hadoop@hadoop1 sbin]$ file --mime-encoding /tmp/user.txt
/tmp/user.txt: iso-8859-1
修改编码为utf-8
[hadoop@hadoop1 sbin]$ sudo iconv -f iso-8859-1 -t utf-8 /tmp/user.txt -o /tmp/user.txt
重新上传到hdfs
[hadoop@hadoop1 sbin]$ hadoop fs -put /tmp/user.txt /test/
重新再映射
hive>load data inpath 'hdfs://hadoop1:9000/test/user.txt' into table user_from_hdfs;
hive>select * from user_from_hdfs;