【数据管理】什么是数据管理?

文章目录

  • 前言
  • 常见内容
  • 主题领域
  • 数据类型
    • 元数据
    • 引用数据
    • 主数据
    • 交易数据
  • 数据类型的特点
    • 数据类型之间的关系
    • GIGO
    • 数据质量评估
  • 数据质量管理
    • 数据治理
    • 数据安全

前言

数据管理,即对数据资源的管理。按照 DAMA (国际数据管理协会)的定义:「数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序。」这是一个高层而包含广泛的定义,而并不一定直接涉及数据管理的具体操作(如关系数据库的技术层次上的管理)。

常见内容

数据管理最常见的有以下内容:

  • 数据分析
  • 数据建模
  • 数据库管理
  • 数据仓库
  • 数据挖掘
  • 数据安全
  • 数据集成
  • 数据移动
  • 数据质量保证
  • 元数据管理(数据存储库及其管理)
  • 战略数据架构

主题领域

根据 DAMA DMBOK [DAMA International Guide to Data Management Body of Knowledge (DAMA DMBOK ®)] 的划分,数据管理的领域包含以下部分:

  • 数据治理:数据资产,数据管治
  • 数据架构、数据(模型)分析和设计:数据架构,数据分析,数据建模
  • 数据库管理:数据维护,数据库管理,数据库管理系统
  • 数据安全管理:数据访问管理,数据擦除管理,数据隐私,数据安全
  • 数据质量管理:数据清晰,数据完整性,数据浓缩,数据质量,数据质量保证
  • 参考和主数据管理:数据集成,主数据管理,参考数据
  • 数据仓库和商业智能化管理 :商业智能,数据集市,数据挖掘,数据移动(萃取、 转换和加载),数据仓库
  • 文档、记录和内容管理:文件管理系统(DMS),记录管理
  • 元数据管理:元数据管理,元数据发现,元数据发布,元数据注册
  • 联系人数据管理:业务连续性规划,市场运营,客户数据集成,身份管理,身份信息窃取,数据被盗,ERP 软件,客户关系管理软件,地址 (地理),邮编,Email 地址,电话号码

数据类型

我们可以综合数据的描述层次、业务流向、用途等,将数据分为以下几个类型:

  • 元数据 (Metadata)
  • 引用数据(Reference Data)
  • 主数据(Master Data)
  • 交易数据(Transactional Data)

元数据

元数据(Meta Data)是用来描述数据的数据(Data that describes other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。

元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。

常见的元数据如:

  • 图书编目信息
  • 照片的 EXIF 信息
  • 报名信息表
  • 豆瓣电影信息

引用数据

引用数据(Reference Data),又叫参考数据,它来做一些普遍的定义,描述数据范围、意义。它标示元数据的可能取值范围,我们设计表时所说的数据字典往往就是引用数据。比如,性别只能是男和女,男和女就是引用数据;国家的引用数据就是世界上这100多个国家和地区。

常见的引用数据如:

  • 性别男、女、其他
  • 订单状态
  • 商品尺码、颜色、操作系统
  • 视频的发布状态

主数据

主数据(Master Data)指的是业务实体,比如用户、商品、订单、购物车、文章、视频等。主数据用于跨部门、跨系统的信息交互。

主数据的目标,一是为业务实体建模,或者说业务实体包含哪些属性和行为,二是确保在不同系统中业务实体数据的一致性。

常见的主数据如:

  • 电商中的商品信息、用户信息
  • 新闻网站的新闻
  • 视频网站中的视频、播主
  • B2B 中的商家
  • 外卖平台中的店

交易数据

交易数据(Transactional Data)指主数据之间活动产生的数据。比如客户购买产品的交易记录就是交易活动数据,用户对一个播主进行了关注、打赏也是交易数据。

常见的交易数据如:

  • 电商下单产生的订单、支付
  • 直播平台中用户对主播点赞、刷礼物
  • 社交网站中用户关注行为
  • IM 工具用户发布的聊天信息、公众信息
  • 关系与特点

数据类型的特点

通过以下几个维度来评估:

  • 数据量、更新频率:引用数据 < 元数据 < 主数据 < 交易数据
  • 生命周期、数据质量:引用数据 > 元数据 > 主数据 > 交易数据

数据类型之间的关系

典型有情况下:

  • 元数据、主数据、交易数据都会用到引用数据
  • 主数据会包含元数据
  • 交易数据是主数据之间的行为

GIGO

垃圾进,垃圾出(英语:Garbage in, garbage out,缩写:GIGO),或译为废料进,废品出,wiki,是计算机科学与信息通信技术领域的一句习语,说明了如果将错误的、无意义的数据输入计算机系统,计算机自然也一定会输出错误、无意义的结果。同样的原则在计算机外的其他领域也有体现。

在统计学中,如果分析的原始数据是错误的、不准确的,那么统计的结论也就是不可信的。

数据质量评估

避免 GIGO 等问题,4个角度评估数据质量:

  • 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;
  • 准确性:一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异;
  • 合理性:主要包括格式、类型、值域和业务规则的合理有效;
  • 一致性:系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性;
  • 及时性:数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。

数据质量管理

数据质量功能模块设计的主要包括监控对象管理、检核指标管理、数据质量过程监控、问题跟踪管理、推荐优化管理、知识库管理及系统管理等。其中过程监控包括离线数据监控、实时数据监控;问题跟踪处理由问题发现(支持自动检核、人工录入)、问题提报、任务推送、故障定级、故障处理、知识库沉淀等形成闭环流程。

数据治理

DAMA将数据治理的定义为:数据治理是对数据资产管理行使权力和控制的活动集合(规划、监控和执行),数据治理职能指导其他数据管理职能如何执行。这个定义看上去有点虚。我理解的数据治理其实就是优先级管理+流程管理。优先级管理指的是我们需要对数据管理各个问题优先级排序。流程管理是人、角色和责任,也就是谁是什么角色,负责什么问题。比如说,当出现数据缺失的问题时,这个问题的优先级排序怎么样,谁来解决这个问题。

数据安全

我们经常可以在网上看到某某站点用户数据泄露的消息。更有甚者,将数据库的连接信息直接保存到了github上,导致数据库被人复制。这些都是数据安全工作没做到位造成的。我个人认为数据安全从技术和制度方面着手。在技术方面,要确保数据存储、传输、应用、备份过程中的数据安全,防止数据泄露。在制度方面,要建立完善的数据访问控制和权限管理机制。

你可能感兴趣的:(#,spark,spark,大数据,分布式)