大数据学习十五:Hive1.1.0编译及安装

1、使用CDH版本大数据组件可以避免在编程中遇到的jar包冲突等问题,下载地址:

http://archive.cloudera.com/cdh5/cdh/5/

2、Hive官方地址,https://hive.apache.org/

3、Hive简介:The Apache Hive是使用sql对分布式大数据集进行读写和管理操作的数据仓库,可以使用JDBC对结构化数据(MySQL\Oracle等)进行操作。使用sql语法来代替复杂的MapReduce获取结果数据的编码,且基于MapReduce进行底层计算。

4、相关概念

     离线数据仓库:对数据进行定时批量处理计算,数据巨大、确定、保存时间长,可用来计算模型,如Spark SQL、HDFS+MapReduce+Hive(Hive存储最终的计算结果)。

     实时数据仓库:对数据进行实时的一条一条的计算处理,如Spark Streaming、Flink

     结构化数据:如Oracle\MySQL,每行一个实体,按建表定义每行有固定的顺序和属性,便于增删改查。

    半结构化数据:有一定的结构和属性,但是结构顺序不一定固定,属性也不一定要完整,如XML、Json文件。

   非结构化数据:没有固定的结构和属性,如文本文件、图片、视频等。

5、编译

$ tar -zxvf hive-1.1.0-cdh5.7.0-src.tar.gz

$ cd hive-1.1.0-cdh5.7.0

$ mvn clean package -P sources,hadoop-2 -DskipTests -Dtar   #-P来源于pom文件中的中的属性


6、安装配置

Hive默认数据库为Derby,此处使用MySQL,准备MySQL5.1.7驱动包,将驱动包拷贝到

/home/hadoop/app/hive-1.1.0-cdh5.7.0/lib目录下。

$ cd /home/hadoop/app/hive-1.1.0-cdh5.7.0/conf

$ cp hive-env.sh.template hive-env.sh        #该文件为配置Hive和Hadoop环境变量的配置文件,如果在.bash_profile文件中配置了的话,可以不配置

$ vi hive-site.xml        #配置连接Mysql,图中红色部分为IP地址

大数据学习十五:Hive1.1.0编译及安装_第1张图片

修改windows下hosts文件 :C:\Windows\System32\drivers\etc  hosts中添加 

192.168.1.x hostname,其次要确保上图红线中的IP地址在mysql.user表中与对应的用户存在,否则hive无权限连接。

$ cd $HIVE_HOME

$ ./hive    #出现下图则连接成功

大数据学习十五:Hive1.1.0编译及安装_第2张图片

新建的表ruozedata_basic03在Mysql中,

# su - mysql

$ mysql -uroot -p123456

>show databases;

大数据学习十五:Hive1.1.0编译及安装_第3张图片

7、在hive中建表报错com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes

解决办法:在mysql中,alter database dbname character set latin1;

若库中已经有表,则修改已建表的字符集 alter table tablename convert to character set latin1;

查看mysql字符集  show variables like 'character_set_database';

大数据学习十五:Hive1.1.0编译及安装_第4张图片

你可能感兴趣的:(大数据学习十五:Hive1.1.0编译及安装)