Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)

Docker的介绍

了解Docker的基本功能和设计

  - 为什么要用Docker?
  - 什么是Docker?

路径
  - step1:生产环境的问题
  - step2:容器的概念
  - step3:Docker的设计
  
实施
  生产环境的问题

    - 运维层面:一台机器上的应用太多,不同的环境,安装过程也不一样,管理麻烦,怎么办?
    - 开发层面:不同程序的运行受到环境、资源等因素的干扰,不同的环境,开发的方式也不一样,怎么办?

  容器的概念

    - 硬件容器:将一个硬件虚拟为多个硬件,上层共用硬件
      - VMware WorkStation
  - 应用容器:将一个操作系统虚拟为多个操作系统,不同操作系统之间互相隔离
  
Docker
  
-Docker的设计
  Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第1张图片

  
定义:Docker是一个开源的应用容器引擎,使用GO语言开发,基于Linux内核的cgroup,namespace,Union FS等技术,对应用程序进行封装隔离,并且独立于宿主机与其他进程,这种运行时封装的状态称为容器。
  
目标
  
      - 提供简单的应用程序打包工具
    - 开发人员和运维人员职责逻辑分离
    
  - 多环境保持一致性,消除了环境差异
    
  - **功能**:“Build,Ship and Run Any App,Anywhere”
  
    - 通过对应用组件的封装,分发,部署,运行等生命周期的管理,达到应用组件级别的一次封装,多次分发,到处部署
  
  架构
 
Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第2张图片
  
   组成
  
    - 宿主机:安装Docker的那台实际的物理机器
    
    - docker client 【客户端】:用于连接服务端,提交命令给服务端
    Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第3张图片
    
    - docker daemon【服务端】:用于接收客户端请求,实现所有容器管理操作
  
    - docker image【镜像】:用于安装APP的软件库,简单点理解为软件的安装包
    
      - docker container 【容器】:用于独立运行、隔离每个APP的单元,相当于每个独立的Linux系统

Docker的网络

了解Docker的网络管理设计

  - Docker的

路径

  - step1:问题
  - step2:模式
  - step3:选型

实施

 问题

    - Docker的本质在一个操作上虚拟了多个操作系统出来,那每个操作之间如何进行网络通信呢?

  模式

    host模式:每个虚拟系统与主机共享网络,IP一致,用不同端口区分不同虚拟系统

    Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第4张图片

 container模式:第一个容器构建一个独立的虚拟网络,其他的容器与第一个容器共享网络

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第5张图片

 none模式:允许自定义每个容器的网络配置及网卡信息,每个容器独立一个网络

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第6张图片

bridge模式:构建虚拟网络桥,所有容器都可以基于网络桥来构建自己的网络配置

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第7张图片选型

    - 本次项目中使用bridge模式,类似于VM中的Net模式使用

  - **管理**

    - 了解即可,不用操作

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第8张图片

Docker的使用

了解docker的基本使用

路径

  - step1:docker管理
  - step2:image管理
  - step3:container管理

实施

  docker管理

    - 默认开机自启

    - 了解即可,不用操作

    - 启动服务Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第9张图片image管理

    - 了解即可,不用操作

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第10张图片

container管理

    - 熟悉常用操作

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第11张图片

    删除container

Oracle的介绍

了解Oracle工具的基本功能和应用场景

路径

  - step1:数据库分类
  - step2:Oracle的介绍

实施

数据库分类

RDBMS:关系型数据库管理系统
      - 工具:MySQL、Oracle、SQL Server……
      - 应用:**业务性数据存储系统**:事务和稳定性
      - 特点:体现数据之间的关系,**支持事务**,保证**业务完整性和稳定性**,小数据量的性能也比较好
      - 开发:SQL
    - **NoSQL**:Not Only SQL:非关系型数据库
      - 工具:Redis、HBASE、MongoDB……
      - 分类:KV、文档、时序、图……
      - 应用:一般用于**高并发高性能**场景下的**数据缓存或者数据库存储**
      - 特点:**读写速度特别快,并发量非常高**,相对而言不如RDBMS稳定,对事务性的支持不太友好
      - 开发:每种NoSQL都有自己的命令语法

Oracle的介绍

    - 概念:甲骨文公司的一款关系数据库管理系统

      - Oracle在古希腊神话中被称为“神谕”,指的是上帝的宠儿
      - 在中国的商周时期,把一些刻在龟壳上的文字也称为上天的指示,所以在中国Oracle又翻译为甲骨文
      - Oracle是现在全世界最大的数据库提供商,编程语言提供商,应用软件提供商,它的地位等价于微软的地位

    - 分类:RDBMS,属于大型RDBMS数据库

      - 大型数据库:IBM DB2、Oracle、Sybase
      - 中型数据库:SQL Server、MySQL、Informix、PostgreSQL
      - 小型数据库:Access、Visual FoxPro、SQLite

    - 功能:实现大规模关系型数据存储

    - 特点

      - 功能全面:数据字典、动态性能视图、TRACE跟踪、AWR、ASH、SQL Monitor等
      - 性能优越:支持SQL大量的表连接、子查询、集合运算,长度可达上千行
      - 数据量大:相比较于其他的数据库,Oracle支持千万级别以上的数据高性能存储
      - 高可靠性:基于Oracle自带的RAC架构下,可靠性和稳定性相对比较高

    - 综合排名

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第12张图片

 - 应用

      - 中国各大银行、电信、政府单位等机构所有系统

    - 趋势

      - 去IOE【IBM服务器、Oracle数据库、EMC存储】

集群软件规划

目标:了解项目的集群软件规划

实施

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第13张图片

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第14张图片

项目环境导入

目标:实现项目虚拟机的导入

实施

  step1:导入:找到OneMake虚拟机中以.vmx结尾的文件,使用VMware打开

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第15张图片

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第16张图片

 step2:启动:启动导入的虚拟机,选择我已移动该虚拟机

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第17张图片

 step3:登陆**:登陆到虚拟机内部,或者使用远程工具连接

    - **默认IP:192.168.88.100**
    - **主机名:node1**
    - **用户名:root**
    - **密码:123456**

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第18张图片

Hive+Spark离线数仓工业项目实战--项目介绍及环境构建(2)_第19张图片

 

 
 

你可能感兴趣的:(hive,大数据,Spark,hive,spark,docker,oracle,mysql)