大数据之路、阿里巴巴大数据实践读书笔记 --- 第十二章、元数据

一、元数据概念

  • 元数据定义

    • 按照传统的定义,元数据(Metadata)是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程;

    • 元数据主要记录数据仓库中的模型的定义、各层级间的映射关系、监控数据仓库的数据状态一级ETL的任务运行状态;

    • 在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便的找到他们所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率;

    • 类别:

      • 技术元数据(Technical Metadata)

        • 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库是使用的数据。阿里巴巴常见的技术元数据有:

          • 分布式计算系统存储元数据,如MaxCompute上所有作业运行等信息;类似Hive的Job日志,你包括作业类型、实例名称、输入输出、SQL、运行参数、执行时间、最细粒度的FuXi Instance(MaxCompute中的MR执行最小单元)执行信息等;

        • 数据开发平台中数据同步,计算任务、任务调度等信息,包括数据同步的输入输出表和字段,以及同步任务本身的节点信息;计算任务主要有输入输出、任务本身的节点信息;任务调度主要有任务的依赖类型、依赖关系等,以及不同类型调度的运行日志等;

        • 数据质量和运维相关元数据,如任务监控、运维报警、数据质量、故障灯信息,包括任务监控运行日志、告警配置及运行日志、故障信息等;

      • 业务元数据(Business Metadata)

你可能感兴趣的:(数据仓库,大数据挖掘与大数据应用案例)