大数据生态

大数据基础

以史观今

  1. 数据量是怎么变大的?
  2. 单机是怎么扛不住的?
  3. 集群为何难于管理?
  4. 三大论文 MapReduce/GFS/BigTable 有何指导意义?
  5. Hadoop 生态是怎么演进的?
  6. 存储和计算的各类选手各自擅长的场景?

数据分层

APP <- DWS/DM <- DWB/ODS <-[ETL] OLTP(RDS/log/埋点)

名词解释:

  1. OLTP(On-Line Transaction Processing): 交易业务,实时,一致性,高并发,低延迟
  2. OLAP(Online Analytical Processing): 数据分析,数据多维,吞吐量大
  3. ETL(Extract-Transform-Load): 用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去
  4. DW(data warehouse): 翻译成数据仓库
  5. DW 数据分层,由下到上为 DWD/DWB/DWS
  6. DWD(Data Warehouse Detail): 细节数据层,有的也称为 ODS 层,是业务层与数据仓库的隔离层
  7. DWB(Data Warehouse Base): 基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。
  8. DWS(Data Warehouse Service): 服务数据层,基于 DWB 上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。

数据与处理

  1. 数据存储
    1. 文件大小
    2. 吞吐量
    3. 增量写?随机写?随机读?顺序读?
    4. HDFS/HBase/Druid
  2. 集群管理
    1. zookeeper/yarn
  3. 数据处理
    1. 分类:有限集合 与 无限集合(数据流)
    2. 对比维度:
      1. 状态管理
      2. 消息传输保障:at most once,at least once和exactly once
    3. 保证指标:
      1. 容错
      2. 性能:延迟时间(Latency),吞吐量(Throughput)和扩展性(Scalability)
      3. 部署
      4. 扩展
    4. Storm:数据流,任务量小但速度要求高,容错:ACK
    5. Spark生态:RDD(Resilient Distributed Datasets) 内存数据处理模型
    6. Flink: 流处理系统
    7. Samza: 用 kafka 消息
    8. Hive: 在 HDFS 之上的 SQL 查询

Spark RDD 详解

流数据计算对比

数据分层

你可能感兴趣的:(大数据生态)