数据湖概念

数据库, 数据仓库, 数据集市,数据湖,数据中台_迷路剑客的博客-CSDN博客_数据仓库数据集市

  • 数据湖是一个概念,基本的架构构成:分布式对象存储 多模态计算引擎 数据管理
  • 存储的数据视角:
    • 多元异构的原始数据;
    • 用于报告、可视化、探索分析、机器学习的转换数据。
  • 应该具备的能力:
    • 数据要转换,那就需要有支撑海量数据清洗转换的分布式计算能力;
    • 数据要产生价值,那就需要有技术门槛低的AI平台来做探索分析;
  • 数据治理的视角:
    • 不同的海量数据共存,那就需要精细化数据治理。
    • 数据要流出:就需要有统一的服务管理、权限管理
  • 大数据基础设置架构:
    • Hadoop离线计划
    • Lambda
    • Kappa
    • 数据湖:新一代大数据基础架构。除了大数据平台所拥有的各类基础能力之外,数据湖更强调对于数据的管理、治理和资产化能力
  • 适用人群:
    • 数据湖存有完整的原始数据,适合数据科学家和数据分析师
    • 其它人员更适合于数据视图和数据仓库
  • 数据湖与数据仓库
    • 数据仓库应该作为数据湖的上层应用存在,数据湖根据各类业务应用需求,将原始数据进行加工处理,形成可再次利用的中间结果;当中间结果的数据模式(Schema)相对固定后,可以将中间结果推送至数据仓库 (即 DataHouse)

所以:从这些特性上小结:理解为一套企业级的大数据平台岂可? 包含有大数据基础平台技术支撑,有数据集中管控,分层治理的特性。

你可能感兴趣的:(大数据,数据仓库)