数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备

1 DataGrip准备

1.1 启动HiveServer2

[zhang@hadoop102 hive]$ hiveserver2

1.2 配置DataGrip连接

启动DataGrip,创建连接

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第1张图片

 

配置连接属性

所有属性配置,和Hive的beeline客户端配置一致即可。初次使用,配置过程会提示缺少JDBC驱动,按照提示下载即可。

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第2张图片

 测试时,根据提示下载驱动。

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第3张图片

测试使用

创建数据库gmall,并观察是否创建成功。

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第4张图片

注意当前使用的数据库是谁,默认default

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第5张图片

 

 修改连接,指明连接数据库,这样以后打开默认数据库就是gmall数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第6张图片

 在文件中查看

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第7张图片

 数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第8张图片

 重命名操作

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第9张图片

 2 数据准备

回顾:数据仓库的数据来源
(1)用户行为日志:采集通道,Flume+Kafak+Flume

(2)业务数据:采集通道,sqoop

一般企业在搭建数仓时,业务系统中会存在一定的历史数据,此处为模拟真实场景,需准备若干历史数据。假定数仓上线的日期为2020-06-14,具体说明如下。

2.1  用户行为日志

用户行为日志,一般是没有历史数据的,故日志只需要准备2020-06-14一天的数据。具体操作如下:

1)启动日志采集通道,包括Flume、Kafak等

2)修改两个日志服务器(hadoop102、hadoop103)中的/opt/module/applog/application.yml配置文件,将mock.date参数改为2020-06-14。

3)执行日志生成脚本lg.sh。

4)观察HDFS是否出现相应文件。

启动日志采集通道:

[zhang@hadoop102 hadoop]$ zk.sh start

[zhang@hadoop102 hadoop]$ kf.sh start

[zhang@hadoop102 hadoop]$ f1.sh start

[zhang@hadoop102 hadoop]$ f2.sh start

(前一个老师配置了集群脚本,老师应该是忘了,所以只需要cluster.sh start,即可)

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第10张图片

 [zhang@hadoop102 hadoop]$ cd /opt/module/applog/
[zhang@hadoop102 applog]$ ll

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第11张图片

 [zhang@hadoop102 applog]$ vim application.yml数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第12张图片

 对hadoop103做同样的修改

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第13张图片

 先进去web端,把之前的origin_data文件删除

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第14张图片

[zhang@hadoop102 applog]$ lg.sh 

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第15张图片

 数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第16张图片

 证明用户行为日志数据已经准备好了。

2.2 业务数据

业务数据一般存在历史数据,此处需准备2020-06-10至2020-06-14的数据。具体操作如下。

1)修改hadoop102节点上的/opt/module/db_log/application.properties文件,将mock.date、mock.clear,mock.clear.user三个参数调整为如图所示的值。

[zhang@hadoop102 applog]$ cd /opt/module/db_log/
[zhang@hadoop102 db_log]$ ll

[zhang@hadoop102 db_log]$ vim application.properties

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第17张图片

 [zhang@hadoop102 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第18张图片

 再打开配置文件,修改6月11号

[zhang@hadoop102 db_log]$ vim application.properties

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第19张图片

写入11号的文件  [zhang@hadoop102 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第20张图片

 修改6月12日数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第21张图片

 数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第22张图片

  修改6月13日

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第23张图片

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第24张图片   修改6月14日

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第25张图片

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第26张图片

[zhang@hadoop102 ~]$ cd bin/

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第27张图片

 [zhang@hadoop102 bin]$ ./mysql_to_hdfs_init.sh all 2020-06-14

数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备_第28张图片

 

 

你可能感兴趣的:(hive,大数据,hadoop)