Hive+Spark离线数仓工业项目实战--环境构建(3)

项目环境配置

根据需求实现项目环境配置

实施

  - 注意:所有软件Docker、Hadoop、Hive、Spark、Sqoop都已经装好,不需要额外安装配置,启动即可

配置网络:如果你的VM Nat网络不是88网段,请按照以下修改

    - 修改Linux虚拟机的ens33网卡,网卡和网关,修改为自己的网段

Hive+Spark离线数仓工业项目实战--环境构建(3)_第1张图片

Hive+Spark离线数仓工业项目实战--环境构建(3)_第2张图片

  配置映射

Hive+Spark离线数仓工业项目实战--环境构建(3)_第3张图片项目环境测试:Oracle

实现项目Oracle环境的测试

实施

Hive+Spark离线数仓工业项目实战--环境构建(3)_第4张图片 - 远程连接:DG

    - step1:安装DG

    - step2:创建连接

      - SID:helowin
    - 用户名:ciss
      - 密码:123456
  Hive+Spark离线数仓工业项目实战--环境构建(3)_第5张图片
   
  Hive+Spark离线数仓工业项目实战--环境构建(3)_第6张图片
    
  
 
    
   step3:配置驱动包
Hive+Spark离线数仓工业项目实战--环境构建(3)_第7张图片
  
  
  
  step4:配置JDK
  
Hive+Spark离线数仓工业项目实战--环境构建(3)_第8张图片
   step5:测试
  
Hive+Spark离线数仓工业项目实战--环境构建(3)_第9张图片
- 关闭
  

项目环境测试:MySQL

实现项目MySQL环境的测试

实施

  - 大数据平台中自己管理的MySQL:两台机器

    - 存储软件元数据:Hive、Sqoop、Airflow、Oozie、Hue
    - 存储统计分析结果

  - 注意:MySQL没有使用Docker容器部署,直接部署在当前node1宿主机器上

  - 启动/关闭:默认开启自启动

  - 连接:使用命令行客户端、Navicat、DG都可以

    - 用户名:root
    - 密码:123456

  Hive+Spark离线数仓工业项目实战--环境构建(3)_第10张图片

 Hive+Spark离线数仓工业项目实战--环境构建(3)_第11张图片

 查看

Hive+Spark离线数仓工业项目实战--环境构建(3)_第12张图片

项目环境测试:Hadoop

目标:实现项目Hadoop环境的测试

实施

Hive+Spark离线数仓工业项目实战--环境构建(3)_第13张图片 Hive+Spark离线数仓工业项目实战--环境构建(3)_第14张图片

 node1:8088

Hive+Spark离线数仓工业项目实战--环境构建(3)_第15张图片

node1:19888

Hive+Spark离线数仓工业项目实战--环境构建(3)_第16张图片

 Hive+Spark离线数仓工业项目实战--环境构建(3)_第17张图片

项目环境测试:Hive

目标:实现项目Hive环境的测试

实施

Hive+Spark离线数仓工业项目实战--环境构建(3)_第18张图片

    - Shuffle【分区、排序、分组】三种场景
    - 重分区:repartition:分区个数由小变大
        - 调用分区器对所有数据进行重新分区
        - rdd1
          - part0:1 2 3 
          - part1: 4 5 6 
        - rdd2:调用分区器【只有shuffle阶段才能调用分区器】
          - part0:0 6
          - part1:1  4 
          - part2:2  5
      - 全局排序:sortBy
        - part0:1 2 5
        - part1: 4  3 6 
        - 方案:将所有数据放入磁盘
        - 实现:对数据做了范围分区:将所有数据做了采样:4
          - part0:6  5  4 
          - part1:3 2 1
      - 全局分组:groupBy,reduceByKey

  - 关闭Hive容器

项目环境测试:Spark

目标:实现项目Spark环境的测试

实施

Hive+Spark离线数仓工业项目实战--环境构建(3)_第19张图片

Hive+Spark离线数仓工业项目实战--环境构建(3)_第20张图片

项目环境测试:Sqoop

目标:实现项目Sqoop环境的测试

实施

Hive+Spark离线数仓工业项目实战--环境构建(3)_第21张图片

  - 实现项目Sqoop环境的测试

## 要求

1. Python面向对象

   - 类和对象
   - 方法

2. Hive中建表语法

   ```
   create [external] table tbname(
       字段 类型 comment,
   ) 
   comment
   partitioned by 
   clustered by col into N buckets
   row format 
   stored as textfile
   location
   ```

你可能感兴趣的:(Spark,hive,大数据,hive,spark,hadoop)