Spark SQL:RDD、DataFrame、Dataset、反射推断机制 Schema 操作!!
Mysql+Hive:1、Centos7 MySQL安装 —— 用网盘简单安装
2、Hadoop集群搭建及配置⑨——Hive 可靠的安装配置
3、Spark SQ操作 MySQL数据库和 Hive数据仓库
4、Spark SQL RDD基本操作、RDD—DataFrame、API MySQL
云盘链接:https://pan.baidu.com/s/1u2TU5xhxLzv2GgENHdREuQ
提取码:z7pu
1、简单易懂,手把手带小白用VMware虚拟机安装Linux centos7系统
2、Hadoop集群搭建及配置〇 —— Hadoop组件获取 & 传输文件
3、Hadoop集群搭建及配置① —— 克隆节点
4、Hadoop集群搭建及配置② —— 网络IP配置,连接网络
5、Hadoop集群搭建及配置③ —— 基础环境搭建
6、Hadoop集群搭建及配置④ —— JDK简介及其安装
7、Hadoop集群搭建及配置⑤ —— Zookeeper 讲解及安装
8、Hadoop集群搭建及配置⑥ —— Hadoop组件安装及配置
9、Hadoop集群搭建及配置⑦—— Spark&Scala安装配置
10、Hadoop集群搭建及配置⑧——Hbase的安装配置
11、HDFS的 Java API编程配置
12、HDFS的 java API 编程实现基本功能
13、HBase API java表操作
把Hive安装包apache-hive-2.1.1-bin 拖进shell 目录下
创建hive文件夹
mkdir -p /usr/hive
# 1.解压文件放在 /usr/hive目录下
tar zxvf ./apache-hive-2.1.1-bin.tar.gz -C /usr/hive/
# 2.重命名hive解压文件
mv /usr/hive/apache-hive-2.1.1-bin/ /usr/hive/hive-2.1.1
vim /etc/profile
# hive
export HIVE_HOME=/usr/hive/hive-2.1.1
export PATH=$PATH:$HIVE_HOME/bin
# 2.保存退出生效环境变量
source /etc/profile
# 将 hive-env.sh.template改名为 hive-env.sh
cp hive-env.sh.template hive-env.sh
vi hive-env.sh
# 修改HADOOP_HOME的路径
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
# 修改HIve配置文件的路径
export HIVE_CONF_DIR=/usr/hive/hive-2.1.1/conf
# 修改Hive需要jar包的路径
export HIVE_AUX_JARS_PATH=/usr/hive/hive-2.1.1/lib
scp -r /usr/hive/hive-2.1.1/ root@slave1:/usr/hive/
slave1作为服务器端。需要相关连接的数据库的配置。比如ip、端口、数据库用户名、密码等。
# 进入conf目录
cd /usr/hive/hive-2.1.1/conf
vi hive-site.xml
# 添加以下配置:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true</value>
<description>数据库连接JDBC的URL地址</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>数据库连接Driver,class name for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>Mysql数据库用户名</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>abc123456</value>
<description>mysql数据库密码</description>
</property>
<property>
<name>datanucleus.schema.autoCreateAll</name>
<value>true</value>
<description>数据中心数据库代码自动生成</description>
</property>
<property>
<name>hive.metastore.schema.verification</name>
<value>false</value>
<description>数据库不使用metastore</description>
</property>
</configuration>
因为服务器端需要和Mysql通信,所以服务器端的驱动程序 mysql-connector-java-5.1.46-bin.jar 到hive的lib目录下。
在 pom.xml 添加配置:
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>5.1.46</version>
</dependency>
在IDEA下载完成后,在External Libraiesc -> 右键 mysql-connector-java-5.1.46-bin -> Find in Path(查找路径) -> 复制路径(…\repository\ mysql\mysql-connector-java )
把 mysql-connector-java-5.1.46-bin.jar 传输到 虚拟机slave1节点的 /usr/hive/hive-2.1.1/lib目录下。
由于客户端需要和Hadoop通信,所以需要更改Hadoop中jline的版本。即保留一个高版本的jline jar包,从hive的lib包中拷贝到Hadoop中lib位置为:
/usr/hadoop/hadoop-2.7.3/share/hadoop/yarn/lib
.
cp /usr/hive/hive-2.1.1/lib/jline-2.12.jar /usr/hadoop/hadoop-2.7.3/share/hadoop/yarn/lib/
# 在 msater 执行:
cd /usr/hive/hive-2.1.1/conf/
vi hive-site.xml
<configuration>
<!-- Hive产生的元数据存放位置-->
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
<!--连接服务器-->
<property>
<name>hive.metastore.uris</name>
<value>thrift://slave1:9083</value>
</property>
</configuration>
<property>
<name>hive.metastore.localname>
<value>falsevalue>
<description>在0.10,0.11之后的HIVE版本hive.metastore.local 属性不再使用description>
property>
slave1 作为服务端开启
输入:bin/hive --service metastore
master 作为客户端开启 hive,bin/hive
总结下:Hive客户端在master,Hive服务端在slave1是因为,降低资源占有率,提高查询效率。以上hive安装完成,希望对你有所帮助。
除了实践,我们也要了解了解Hive的发展历史~
Hive的表= HDFS的目录
Hive数据=HDFS文件