hive初识

1、hive是个啥

1)hive主要是对mapreduce任务进行简化操作,方便工作人员快速进行数据分析;

2)hive是构建在hadoop之上的数据仓库,能够将结构化的数据文件映射成一张表,以HQL作为查询接口,使用HDFS进行数据存储,使用mapreduce进行计算,运行在yarn上;

2、hive用处

1)ETL:Extract-Transform-Load,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程;

2)对结构化的数据进行查询,适合离线数据处理

3、hive环境搭建

hive的运行依赖于HDFS文件系统,所以首先必须要有HADOOP HDFS环境,这里略过,主要记录一下hive相关配置

3.1 首先是到网站下载相应版本的hive,建议不要使用太高的版本,会出各种问题,这里下载的是2.3.0版本,然后解压到相应路径。
3.2 拷贝conf目录下的hive-log4j2.properties.template文件并重命名hive-log4j2.properties,hive-env.sh.template文件并重命名为hive-env.sh,然后修改HADOOP_HOME和HIVE_CONF_DIR值
# Set HADOOP_HOME to point to a specific hadoop install directory
HADOOP_HOME=/home/luozheng/tools/hadoop-3.0.1

# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/home/luozheng/tools/hive-2.3.0-bin/conf
3.3 通过命令bin/schematool -initSchema -dbType derby对hive进行相关初始化
3.4 通过命令bin/start-dfs.sh启动hdfs,bin/hive命令运行hive cli
hive.PNG
3.5 hive.log位置:/tmp/(当前用户名)/hive.log

你可能感兴趣的:(hive初识)