Hive基本介绍及配置
www.jianshu.com
Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序
image.png
image.png
1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行程序运行在Yarn上
image.png
image.png
1.用户接口:Client CLI(command-line interface)、JDBC/ODBC(jdbc访问hive)、WEBUI(浏览器访问hive) 2.元数据:Metastore 元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等; 默认存储在自带的derby数据库中,推荐使用MySQL存储Metastore 3.Hadoop 使用HDFS进行存储,使用MapReduce进行计算。 4.驱动器:Driver (1)解析器(SQL Parser):将SQL字符串转换成抽象语法树AST,这一步一般都用第三方工具库完成,比如antlr;对AST进行语法分析,比如表是否存在、字段是否存在、SQL语义是否有误。 (2)编译器(Physical Plan):将AST编译生成逻辑执行计划。 (3)优化器(Query Optimizer):对逻辑执行计划进行优化。 (4)执行器(Execution):把逻辑执行计划转换成可以运行的物理计划。对于Hive来说,就是MR/Spark。
Hive安装部署 1.Hive安装及配置 (1)把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下 (2)解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面
(3)修改apache-hive-1.2.1-bin.tar.gz的名称为hive
(4)修改/opt/module/hive/conf目录下的hive-env.sh.template名称为hive-env.sh
(5)配置hive-env.sh文件 (a)配置HADOOP_HOME路径
(b)配置HIVE_CONF_DIR路径
2.Hadoop集群配置 (1)必须启动hdfs和yarn
(2)在HDFS上创建/tmp和/user/hive/warehouse两个目录并修改他们的同组权限可写
本地数据导入hive (1)删除已创建的表
hive> drop table xx;
(2)创建xx表, 并声明文件分隔符’\t’
hive> create table student(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
(3)加载/opt/module/datas/student.txt 文件到student数据库表中。
hive> load data local inpath '/opt/module/datas/student.txt' into table student;
1.在/opt/software/mysql-libs目录下解压mysql-connector-java-5.1.27.tar.gz驱动包
2.拷贝/opt/software/mysql-libs/mysql-connector-java-5.1.27目录下的mysql-connector-java-5.1.27-bin.jar到/opt/module/hive/lib/
1.在/opt/module/hive/conf目录下创建一个hive-site.xml
2.根据官方文档配置参数,拷贝数据到hive-site.xml文件中
https://cwiki.apache.org/confluence/display/Hive/AdminManual+MetastoreAdmin
3.配置完毕后,如果启动hive异常,可以重新启动虚拟机。(重启后,别忘了启动hadoop集群)
1 启动hiveserver2服务
Beeline version 1.2.1 by Apache Hive beeline>
1).“-e”不进入hive的交互窗口执行sql语句
2).“-f”执行脚本中sql语句 (1)在/opt/module/datas目录下创建hivef.sql文件 [atguigu@hadoop102 datas]$ touch hivef.sql 文件中写入正确的sql语句 select *from student; (2)执行文件中的sql语句
(3)执行文件中的sql语句并将结果写入文件中
在新版的hive中没区别了,在以前的版本是有的: exit:先隐性提交数据,再退出; quit:不提交数据,退出; 2.在hive cli命令窗口中如何查看hdfs文件系统
3.在hive cli命令窗口中如何查看本地文件系统
4.查看在hive中输入的所有历史命令 (1)进入到当前用户的根目录/root或/home/atguigu (2)查看. hivehistory文件
1)Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路径下。
2)在仓库目录下,没有对默认的数据库default创建文件夹。如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹。
3)修改default数据仓库原始位置(将hive-default.xml.template如下配置信息拷贝到hive-site.xml文件中)。
配置同组用户有执行权限
bin/hdfs dfs -chmod g+w /user/hive/warehouse
1)在hive-site.xml文件中添加如下配置信息,就可以实现显示当前数据库,以及查询表的头信息配置。
2)重新启动hive,对比配置前后差异。
image.png
image.png
1.Hive的log默认存放在/tmp/atguigu/hive.log目录下(当前用户名下)
2.修改hive的log存放日志到/opt/module/hive/logs
(1)修改/opt/module/hive/conf/hive-log4j.properties.template文件名称为
hive-log4j.properties
(2)在hive-log4j.properties文件中修改log存放位置
1.查看当前所有的配置信息
2.参数的配置三种方式
(1)配置文件方式
默认配置文件:hive-default.xml 用户自定义配置文件:hive-site.xml 注意:用户自定义配置会覆盖默认配置。另外,Hive也会读入Hadoop的配置,因为Hive是作为Hadoop的客户端启动的,Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启动的所有Hive进程都有效。
(2)命令行参数方式
启动Hive时,可以在命令行添加-hiveconf param=value来设定参数。 例如:
注意:仅对本次hive启动有效 查看参数设置:
(3)参数声明方式
可以在HQL中使用SET关键字设定参数 例如:
注意:仅对本次hive启动有效。 查看参数设置
上述三种设定方式的优先级依次递增。即配置文件<命令行参数<参数声明。注意某些系统级的参数,例如log4j相关的设定,必须用前两种方式设定,因为那些参数的读取在会话建立以前已经完成了。