HIVE

--------hive 数据仓库

hive底层执行引擎有 MapReduce Tez Spark

压缩 GZIP LZO Snappy BZIP2等
存储 TextFile SequenceFile RCFile ORC Parquet
UDF 自定义函数

环境搭建

1)hive下载 http://archive.clordera.com/cdh5/cdh/5/
wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0

2)解压 tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app/

3)配置 ~/.bash_profile

export HIVE_HOME =/home/hadoop/app/hive-1.1.0-cdh5.7.0
export PATH=$HIVE_HOME/bin:$PATH

事先安装一个mysql yum install xxx

cp hive-env.sh.template hive-env.sh

vi hive-env.sh

HADOOP_HOME=hadoop根目录

vi hive-site.xml



javax.jdo.option.ConnectionURL
jdbc:mysql://localhost:3306/sparksql?createDatabaseIfNotExist=true


javax.jdo.option.ConnectionDriverName
com.mysql.jdbc.Driver
z


javax.jdo.option.ConnectionUserName
root


javax.jdo.option.ConnectionPassword
root

  1. 进入hive根目录
    cd lib
    将mysql的驱动包 拷贝到这里 驱动包可以自己下载(mysql-connector-java-5.1.27-bin.jar之类)

  2. 启动hive

进入hive根目录
cd bin
./hive

-----hive 基础操作

创建hive表
create table hive_wordcount2(context string);
此时mysql中的sparksql库的TBLS中就有数据了

加载数据到hive表

LOAD DATA LOCAL INPATH '/home/hadoop/data/hello.txt' INTO TABLE hive_wordcount2

查询hive表

select word,count(1) from hive_wordcount2 lateral view explode(split(context,'\t')) wc as word group by word;

lateral view explode 把每行记录按照指定分隔符拆解

在yarn的web页面上 可以看到我们执行过的语句

hive ql 提交执行以后会产生mapreduce作业 并在yarn上运行

你可能感兴趣的:(HIVE)