元数据概述

元数据概述

  • 1.什么是元数据
  • 2.元数据的3种类型
  • 3.元数据的6个作用

1.什么是元数据

元数据是关于数据的组织、数据域及其关系的信息,也就是说元数据是描述数据的数据。

举个例子:户口本的元数据。户口本上除了有姓名、身份证号、出生日期、住址、民族等信息外,还有家庭关系,如夫妻关系、父子关系、兄弟关系等,这些信息就是描述一个人的元数据,通过户口本中的元数据,不仅可以了解一个人的基本信息,还可以了解其家庭关系。再举个例子:图书馆中的元数据。图书馆都会用一个叫“图书目录”的文件夹来管理图书,图书目录包含来图书名称、编号、作者、主题、摆放位置等信息,用来帮助图书管理员管理和快速查找图书。元数据就如同图书馆的图书目录一样,能够帮助数据管理员管理数据。

元数据与数据的不同之处在于:元数据描述的不是特定的实例或记录,IT部门或业务部门都需要高质量的元数据来理解现有数据;元数据是比一般意义上的数据范畴更加广泛的数据,不仅表示数据的类型、名称、数值等信息,还提供数据的上下文描述,比如数据的所属业务域、取值范围、数据间的关系、业务规则、数据来源等。
下表用5W1H模型理解元数据

知识类型 定义 技术示例 业务示例
Who 谁负责数据接口的开发 谁是某业务域的负责人
What 干什么或是什么 ERP和DW之间的数据血缘关系是什么 某业务域的指标体系是什么
When 什么时候 提取、转换和加载作业什么时候运行 该主题的上一次分析用的数据是什么情况
Where 在哪里 所有类型的销售订单分别存储在哪个系统的哪些数据表里 哪里可以找到按营销活动分析的数据报告
How 怎么做,怎么样 如何设置数据质量的管理规则 如何获得产品的竞争优势
Why 为什么 出现数据治理问题的根本原因是什么 为什么客户会不断流失

2.元数据的3种类型

业务元数据:描述数据的业务含义、业务规则等。
明确业务元数据可以让人更容易理解和使用业务元数据。元数据消除了数据二义性,让人们对数据有一致的认知,避免“自说自话”。常用的业务元数据有:

  • 业务定义、业务术语解释等;
  • 业务指标名称、计算口径、衍生指标等;
  • 业务引擎的规则、数据质量的监测规则、数据挖掘算法等;
  • 数据的安全或敏感级别等;

技术元数据:是结构化处理后的数据,方便计算机或数据库对数据进行识别、存储、传输和转换。 技术元数据可以服务于开发人员,让开发人员更加明确数据的存储、结构,从而为应用开发和系统集成奠定基础。技术元数据也可以服务于业务人员,通过元数据厘清数据关系,让业务人员更快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。常见的技术元数据有:

  • 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;
  • 数据存储类型、位置、数据存储文件格式或数据压缩类型等;
  • 字段级血缘关系、SQL脚本信息、ETL信息、数据接口等;
  • 调度依赖关系、进度和数据更新频率等。

操作元数据:描述的是数据的操作属性,包括管理部门、管理责任人等。 明确管理属性有利于将数据管理责任落实到部门和个人,是数据安全管理的基础。常见的操作元数据有:

  • 数据所有者、使用者等;
  • 数据的访问方式、访问时间、访问限制等;
  • 数据访问权限、组和角色等;
  • 数据处理作业的结果、系统执行日志等;
  • 数据备份、归档人和归档时间等。

3.元数据的6个作用

在信息世界里,元数据的主要作用是对数据进行描述、定位、检索、管理、评估和交互。

  • 描述:对数据对象的内容、属性的描述,这是元数据的基本功能,是各组织、各部门之间达成共识的基础。
  • 定位:有关数据资源位置方面的信息描述,如数据存储位置、URL等记录,可以帮助用户快速找到数据资源,有利于信息的发现和检索。
  • 检索:在描述数据的过程中,将信息对象中的重要信息抽出来标引并加以组织,建立它们之间的关系,为用户提供多层次、多途径的检索体系,帮助用户找到想要的信息。
  • 管理:对数据对象的版本、管理和使用权限的描述,方便信息对象管理和使用。
  • 评估:由于有元数据描述,用户在不浏览具体数据对象的情况下也能对数据对象有个直观的认识,方便用户的使用。
  • 交互:元数据对数据结构、数据关系的描述方便了数据对象在不同部门、不同系统之间进行流通和流转,并确保流转过程中数据标准的一致性。

你可能感兴趣的:(数仓学习专栏,大数据,数据治理,数据库架构)