Hadoop——day3

  • 数据仓库
    • 面向分析的集成化数据环境,为企业提供决策支持
    • 不生产数据,也不消费数据,只为了数据分析
    • 主要特征
      • 面向主题
      • 集成:格式统一
      • 非易失(不可更新)
      • 时变
    • 与数据库的区别
      • 联机事务处理OLTP
        • 数据库
        • 面向事务
        • 存储业务数据
        • 避免冗余
        • 捕获数据
      • 联机分析处理OLAP
        • 数据仓库
        • 面向主题
        • 存储历史数据
        • 引入冗余,方便分析(没有规范约束)
        • 分析数据
    • 分层架构
      • 源数据层(ODS):临时存储源数据
      • 数据仓库层(DW):清洗后的数据:格式统一、数据规整
      • 数据应用层(DA/APP):应用直接读取的数据——由分析需求生成的计算数据
      • ETL:抽取、转化、装载
      • 为什么要对数据仓库分层
        • 以空间换时间
        • 大量预处理换取用户体验
        • 将任务分步执行
    • 元数据管理
      • 元数据:记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的状态及ETL的任务运行状态
      • 管理元数据的目的:方便日后查看,包括维护排查
      • 在进行ETL之前需要提交相关操作的表格
      • 分类
        • 技术元数据
          • 开发和管理数据仓库的人员
          • 开发、维护、管理相关的数据
        • 业务元数据
          • 管理员和业务分析人员
          • 业务层面数据
  • Hive
    • 基于Hadoop的数据仓库工具,可将结构化的数据文件映射为一张数据库表,并提供SQL查询功能
    • 本质:将SQL转为MapReduce程序
    • 主要用途:做离线数据分析,比直接用MapReduce效率高
    • SQL转为MR
      • Hadoop——day3_第1张图片
    • 映射
      • Hadoop——day3_第2张图片
    • DDL
      • 创建表
        • Hadoop——day3_第3张图片
      • 分隔符
        • Hadoop——day3_第4张图片
        • 当数据格式特殊时可自定义SerDe
      • 分区表
        • 避免select全表扫描,分类并打上标识
        • Hadoop——day3_第5张图片
        • Hadoop——day3_第6张图片
        • 在这里插入图片描述
        • 在这里插入图片描述

你可能感兴趣的:(hadoop)