【数据治理】数据治理领域最容易混淆的16组术语概念辨析

数据治理领域最容易混淆的16组术语概念辨析

原创 蔡春久 数据工匠俱乐部 2022-11-13 13:01 发表于湖北

前言

一、3T差异((信息化(IT) 、工业运营技术(OT)、数字化转型(DT)

二、2个I差异(商业智能(BI)、生产运营智能(OI))与工业互联网

三、多个数据平台差异(数据仓库、大数据平、数据湖、数据中台、数据底座、湖仓一体化大数据平台 )

四、数据、数据资源、数据资产和数据要素

八、标准、标准化、标准体系、数据标准、数据标准化

九、数据目录与数据资源目录、数据资产目录、数据服务目录、数据共享开放目录

十、数据源、元数据与数据元

十一、参考数据、主数据、交易数据、指标数据

十二、数据指标和数据标签

十三、数据架构与主题域、数据模型、数据分布、数据流向、实体、数据类型、数据项

十四、数据应用与数据分析、数据开发共享、数据服务

十五、数据生命周期与数据需求、数据设计和开发、数据运维、数据退役

十六、业务术语、业务规则、命名规范、技术规范

结束语


前  言

近期拜访了不少客户,发现不同的客户对数据治理的相关概念理解都不一样,甚至完全是错误的,有些厂商为了追求时髦和新颖,一味追求新的概念,甚至有些概念的完全是张冠李戴,给市场制造了居多混乱和困扰,给客户带来误导。这也是我写这篇文章缘由,希望该篇文章能正本清源,能给广大读者起到一定指导作用。

术语是对概念的特定描述,在不同的专业领域,人们对同一概念的理解各有侧重;在不同发展时期,人们对数据治理领域的同一概念的理解也会发生变化。术语的作用就是统一术语概念的语境,保证人们在给定语境能够使用专门的语言进行精确的交流。术语概念只使用一个最贴切的业务术语表述,避免使用多个近义词引起歧义。

3T差异((信息化(IT) 、工业运营技术(OT)、数字化转型(DT)

1.信息化(IT)Information Technology

包括了信息的数字化、数据化海量存储的条件、网络化可传递与共享等。企业通过ERP/CRM/MES等系统,将业务线上化,使得海量信息可以通过数字化手段进行互联互通快速处理。是以业务管理的规范化和优化为主要目标,主要侧重于以信息技术为支撑优 化提升其业务流程和企业管理。

2.工业运营技术(OT)Operation Technology

是为工厂自动化控制系统提供技术支持,确保生产正常进行的专业技术。

3.数字化转型(DT)Digital Transformation

指通过先进的云计算、人工智能、大数据、物联网、移动互联网手段,对信息系统的海量信息进行处理和挖掘,产生新的业务价值,并改变原 本的商业模式。以企业转型升级和创新发展为主要目标,主要侧重于以数字技术为引领打造数字新能力,推动传统业务创新变革,构建数字时代新商业模式,开辟数字经济新价值和发展新空间。

4.工业互联网

是新一代信息通信技术与工业经济深度融合的新型基础设施、应用模式和工业生态,通过对人、机、物、系统等的全面连接,构建起覆盖全产业链、全价值链的全新制造和服务体系,为工业乃至产业数字化、网络化、智能化发展提供了实现途径,是第四次工业革命的重要基石。

2个I差异(商业智能(BI)、生产运营智能(OI))与工业互联网

1.商业智能(BI)Business Intelligence

是一套完整的解决方案,可以将来自企业的不同业务系统(如ERP、OA、BPM等,包括自己开发的业务系统软件)的数据,提取出有用的数据进行整合清洗,在保证数据正确性的同时,进行数据分析和处理,并利用合适的查询和分析工具快速、准确地为企业提供报表展现与分析,提供决策支持。

2.生产运营智能(OI)Operation Intelligence

通过实时数据采集、工业互联网、智能计算与处理等多种技术,赋能研发、工程、工厂运营、营销与服务等企业关键经营活动。工厂及成员单位生产运营层面BI系统。

多个数据平台差异(数据仓库、大数据平、数据湖、数据中台、数据底座、湖仓一体化大数据平台 )

1.数据仓库(Data Warehouse)

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,需要容纳更加庞大的数据集。

2.数据湖(Data Lake)

数据湖是将来自不同数据源、不同数据类型(结构化、半结构化、非结构化)的数据,以原始格式存储进行存储的系统,并按原样存储数据,而无需事先对数据进行结构化处理。是各种原始数据的集合(不产生数据),原则上不对数据进行清洗、整合(不能对业务数据进行修改),入湖数据需要进行注册(经过治理并且满足要求)。

3.大数据平台1.0

个性化、多样化数据,以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,以 Hadoop、Spark、Hive 等作为大数据基础能力层,在大数据组件上搭建包括数据分析,机器学习程序等 ETL 流水线,以及包括数据治理系统、数据仓库系统、数据可视化系统等核心功能。

4.数据中台

数据中台是企业级数据能力共享平台,提供企业级数据服务,实现数据共享。数据通过分层与水平解耦,经过汇聚、存储、整合、分析、加工,沉淀公共的数据能力,再经过服务封装,形成通用的调用接口,为前端应用提供数据服务调用,支撑前端应用敏捷迭代和快速构建。数据直接用于业务链路和交易场景, 服务更多业务。数据中台不是一个标准化的产 品,是一整套策略和解决方案 的集合。

5.数据底座

数据底座是企业统一的数据平台,是数据的逻辑集合,由数据湖和数据主题联接两层构成,集成公司内部各个业务系统数据及外部数据,为业务可视、分析、决策等数据消费提供数据服务。数据底座由数据湖和数据主题联接构成。

6.湖仓一体化大数据平台Data Lakehouse

是新出现的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。就是把面向企业的数据仓库技术与数据湖存储技术相结合,为企业提供一个统一的、可共享的数据底座。大数据平台1.0+数据中台的功能+数据运营的功能=大数据平台2.0=湖仓一体化大数据平台(简称大数据平台)。

数据、数据资源、数据资产和数据要素

1、数据对客观事物(如事实、事件、事物、过程或思想)的数字化记录或描述,是无序的、未经加工处理的原始素材”。

根据《数据安全法》定义,“数据,是指任何以电子或者其他方式对信息的记录。”该定义在法律层面明确了数据的记录方式,并将“数据”和“信息”进行区分。按照这一界定,纸质的档案信息以及其他书面形式对信息所作的记录,也属于数据。

标准 ISO/IEC 11179-1:2015将“数据”定义为“以适合于交流、解释或处理的形式化方式对信息进行可重新解释的表 示”,该定义强调了“数据”的电子性质,其认为“数据”是对它代表的对象(信息)的解释;且该解释方式必须是权威、标准、通用的,只有这样才可以达到通信、解释和处理的目的。

国际数据管理协会认为,“数据是以文本、数字、图形、图像、声音和视频等格式对事实进行的表现”,对“数据”存在的不同形态进行了列举,指出“数据”是对事实的表现。

统计学将“数据”定义为“用于表示和解释而收集、分析和总结后的客观事实和数字符号”,并将“数据”分为定性数据和定量数据。

根据我国权威科学技术名词审定机构全国科学技术名词审定委员会审定,在计算机科学技术中,“数据”是客观事物的符号表示,指所有可输入到计算机中并可被计算机程序处理的符号的总称;在管理科学技术中,“数据”是描述事件或事物的属性、过程及其关系的符号序列,比如自然语言符号、科学符号、数字以及图形图像等。

“数据”的定义虽未实现完全的统一,但结合上述定义分析,我们认为“数据”的定义包含了两个核心内涵:

一是描述客观事实。数据是对感知到的客观事实进行描述或记录的结果,是对现实世界中的时间、地点、事件、其他对象或概念的描述。

二是须符号化表达。数据须被符号化表达,方能被有效识别。如数字、文字、字母、声音、图片、视频等。

综上,我们认为数据是对感知到的客观事实进行描述或记录的符号或符号集合,如数字、文字、字母、声音、图片和视频等,是未经处理的原始素材。

2、数据资源:广义上是指对一个企业而言所有可能产生价值的数据,包括自动化数据与非自动化数据。企业生产及管理过程中涉及到的一切文件、资料、图表等数据的总称。它是对数据进行加工处理,使数据间建立联系 ,并具有了某些意义,贯穿于企业管理的全过程。

3、数据资产:是指由组织(政府机构、企事业单位等)合法拥有或控制的数据资源,以电子或其他方式记录,例如文本、图像、语音、视频、网页、数据库、传感信号等结构化或非 结构化数据,可进行计量或交易,能直接或间接带来经济效益和社会效益。在组织中,并非所有的数据都构成数据资产,数据资产是能够为组织产生价值的数据资源, 数据资产的形成需要对数据资源进行主动管理并形成有效控制。

数据资产”三全”管理包含:全生命周期(时间)、全流程(空间)、全景式(场景)。

全生命周期(时间)是基于元数据的数据资产全过程管理,从注册、应用、运营,最终归档消亡的全过程记录与监控。权衡效率和需求之间的关系,合理分级存储和保留、销毁数据。

全流程(空间)是基于数据资产溯源管理(血缘与影响分析),数据来源、存储位置、处理方式、流转过程、安全稽查规则,能追本溯源的发现所有资产的“前世今生”。

全景式(场景)是基于数据资产全场景视图,从应用场景的维度,既有全局规划的管理者,也有关注细节定义的使用者,还有加工、运维的开发者,提供多层次的图形化展示,满足应用场景的图形查询和辅助分析。

数据要素:指生产和服务过程中作为生产性资源投入,创造经济价值的数据、数字化信息和知识的集合。数据要素包括对原始的数据、衍生数据、数据模型、数据产品和服务等。

数据要素和数据资产,是数据资源在不同的价值释放阶段的业务性定义,数据要素包括数据资产,数据资产是能够使用会计准则,能够被会计确认计量的数据要素。

企业架构(业务架构、应用架构、数据架构、技术架构)

企业架构包含了四部分,BA(Business Architecture,业务架构)、DA(Data Architecture,数据架构)、AA(Applications Architecture,应用架构)、TA(Technology Architecture,技术架构)。

1、业务架构:是企业治理结构、商业能力与价值流的正式蓝图。业务架构明确定义企业的治理结构、业务能力、业务流程、业务数据。其中,业务能力定义了企业做什么,业务流程定义企业怎么做。是企业架构的基础,描述企业战略、治理、组织、关键业务流程间结构和交互关系。

业务功能是由业务流程实现的。

业务流程由业务步骤、业务角色、业务数据、业务事件、业务规则组成。

业务架构 = 业务功能 + 组织结构 + 业务流程 +业务数据。

2、应用架构:是企业架构的缩影,描述应用开发蓝图、应用间结构和交互关系,及应用与核心业务流程间的关系。

3、数据架构:数据架构是用于定义数据需求、指导对数据资产的整合和控制、使数据投资与业务战略相匹配的一套整体构建和规范。是一套规则、政策、标准和模型,用于管理和定义收集的数据类型以及如何在组织及其数据库系统中使用、存储、管理和集成数据。它提供了创建和管理数据流以及如何处理整个组织IT系统和应用程序的方法。数据架构是实现数据规划的载体,是揭示业务本质、描述公司数据关系的全景视图,是统一数据语言、理顺数据关系、消除信息孤岛、建立数据互联的基础。

4、技术架构:是数据和应用的支撑,描述用于部署业务、数据、应用服务的软件和硬件能力。包含:基础设施、 技术平台、信息化标准和信息安全体系。简单说技术架构是规范共享的公共软硬件平台,由计算机和通信等硬件设备和系统软件(中间件)所实现的基础服务(如流程处理、数据存储、通信等)。

六、数据管理、数据资源管理、数据资产管理和数据要素管理

1、数据管理:是为了交付、控制、保护并提升数据和信息资产的价值,在其整个生命周期中制定计划、制度、规程和实践活动、并执行和监督的过程。数据管理指利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。包含:数据架构、主数据、元数据、时序数据、数据质量、数据安全、数据资源目录等内容。

2、数据资源管理:致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序。关注目的就是去寻找手段,以有效的控制数据资源,并提升数据资源的利用率

3、数据资产管理:是指对数据资产进行规划、控制和提供的一组活动职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序, 从而控制、保护、交付和提高数据资产的价值。数据资产管理须充分融合政策、管理、业务、技术和服务,确保数据资产保值增值。其核心思路是把数据对象作为一种全新的资产形态,并且以资产管理的标准和要求来加强相关体制和手段。从经济角度,满足对资产运营的各类管理要求。

4、数据要素管理:是生产和服务过程中作为生产性资源投入,创造经济价值的数据、数字化信息和知识的集合。内涵:是一种生产性资源,能够产生收益或价值。外延:包括数据、数据模型、数据产品、数据服务等。

数据治理、数据运营、数据流通

1、数据治理

ISO38505-2:2018对数据治理的定义是:数据治理是关于数据采集、存储、利用、分发、销毁过程的活动的集合。

GBT4960.5-2018对数据治理的定义是:数据治理就是数据资源及其在应用过程中相关管控活动、绩效和风险管理的集合。

国际数据管理协会(DAMA)对数据治理的定义是:数据治理是指对数据资产管理行使权力和控制的活动集合(规划、监督和执行)。

国际数据治理研究所(DGI)对数据治理的定义是:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。

1)狭义的数据治理

是对数据资产管理行使权力和控制的活动集合(规划、监控和执行),指导其他数据管理职能如何执行,在高层次上执行数据管理制度。

指数据管理的目标、原则、组织、制度、流程、绩效和标准等软性要求,取其“狭义”。

狭义的数据治理的驱动力最早源自两个方面:

内部风险管理的需要,包括:财务做假、敏感数据涉密、数据质量差影响关键决策等。

为了满足外部监管和合规的需要,比如萨班斯-奥克斯利法案、巴塞尔I/巴塞尔协议、健康保险流通与责任法案(HIPAA)等。

但随着全球越来越多的企业了解到信息资产的重要性和价值,在过去几年中,数据治理的目标也在发生些转变。除满足监管和风险管理外,如何通过数据治理来创建业务价值备受关注。

2)广义的数据治理

是围绕将数据作为企业资产而展开的一系列的具体化工作。组织为实现数据资产价值最大化所开展的一系列持续工作过程,明确数据相关方的责权、协调数据相关方达成数据利益一致、促进数据相关方采取联合数据行动。

包含数据战略、数据架构、主数据管理、元数据管理、指标数据管理、时序数据管理、数据质量管理、数据安全管理、数据交换与服务、数据交换与共享等一系列数据管理活动的集合。

2、数据运营

是数据治理从专项工作转变为企业日常经营管理体系的推进过程和实施策略,指数据的所有者通过对于数据的分析挖掘,把隐藏在海量数据中的信息作为商品,以合规化的形式发布出去,供数据的消费者使用。包含:数据需求、数据运维、数据共享、数据服务、数据分类分级、成熟度评估等

3、数据流通

即是实现数据社会化利用和实现数据资源价值的必然路径,正是有社会化数据流通和利用。数据流通的目的在于实现数据的分析价值(使用价值),但是数据流通环节体现的是数据的交换价值。数据交换价值的基础是数据关联性、准确性和可用性(数据质量)。数据流通实际上是通过共享平台、开放平台和交易平台进行流动。共享平台解决部门之间的数据流通,开放平台解决政府数据流向社会的疏导,交易平台解决整个全社会数据之间的流通和互通。整个数据流通的过程中,数据的治理是基础。数据流通的三个核心本质是治理、平台支撑、应用驱动。

标准、标准化、标准体系、数据标准、数据标准化

1、标准:被定义为对重复性事物和概念所做的统一规定。通过标准化活动,按照规定的程序经协商一致制定,为各种活动或其结果提供规则、指南或特性,供共同使用和重复使用的文件。

2、标准化:为了在既定范围内获得最佳秩序,促进共同效益,对现实问题或潜在问题确立共同使用和重复使用的条款以及编制、发布和应用文件的活动。

是一项活动,是制定、发布和实施标准的系统过程,标准制定是标准化活动过程的核心要素。标准化的目的是使标准在社会一定范围内得以推广,使不够标准的状态转变成标准状态。标准化对象不是孤立的一件事、一个事物,而是共同使用或可重复使用的事物。标准化是一个动态的的概念,是随着科技的进步和社会的发展而不断变化发展的。

3、标准体系:一定范围内的标准按其内在联系形成的科学的有机整体。标准体系表是一种标准体系模型,通常包括标准体系结构图、标准明细表,还可以包含标准统计表和编制说明。

4、数据标准(Data Standards)是业务流程中产生的数据的统一定义。就是对数据的命名、定义、结构和取值规范方面的规则和基准,此定义是业务对数据项在企业营运环境中的统一业务定义及技术要求,是保障数据内外部使用和交换的一致性和准确性的规范性约束,以达成对数据的业务理解、技术实现的一致。

5、数据标准化:企业或组织对数据的定义、组织、监督和保护、借助技术工具来促成数据标准得以在IT系统和业务领域实施的整体过程。通过数据标准化,企业的各种重要信息,包括产品、客户、机构、账户、单据、统计指标等在全企业内外的使用和交换都是一致的、准确的。数据标准化是一项带有系统性、复杂性、困难性、长期性特征的动态管理工作,是对标准的某种程度上的落地。

数据目录与数据资源目录、数据资产目录、数据服务目录、数据共享开放目录

1、数据目录:可以分为数据资源目录、数据共享和开放目录、数据资产目录和数据服务目录。是数字化转型、构建数字孪生的基础;是数据共享、服务的基础;是数据资产化、数据资产运营的基础;

2、数据资源目录:是依据规范的元数据描述数据资源,站在全局视角对所拥有的全部数据资源进行编目,以便对数据资源进行管理、识别、定位、发现、共享的一种分类组织方法,从而达到对数据的浏览、查询、获取等目的。

3、数据资产目录:是指对数据中有价值、可用于分析和应用的数据进行提炼形成的目录体系。数据资产目录构建的角度应该是管理的角度,根据不同数据资产管理范围的划分,由不同的角色进行管理。编制数据资产目录可以给出业务场景和数据资源的关联关系,降低理解系统数据的门槛。中国政府为推动跨部门数据共享开放而重点布置各级政府和代替政府履行一定公共服务职能的企业开展的重要数据管理工作,国务院和发改委先后多次发文,并已出台数据资产目录管理的系列国标;是整个数据资产体系中的首要工作,是构建企业数据架构体系的基础工作。是实现企业内部数据资产目录统一检索、快速定位和统计分析,实现数据资产地图展示、逐步形成知识图谱。

4、数据服务目录:是对数据服务依据规范的元数据描述,按照特定的业务场景进行排序和编码的一组信息,用以描述各个数据服务的特征,以便于对数据服务的使用和管理。数据服务目录的建设是基于组织内已梳理的数据资产目录,以业务场景、应用场景为切入,以业务需求、应用需求为导向进行编制。主要分为两类,一类是数据应用服务,包括指标报表、分析报告等可以直接使用的数据应用;另一类是数据接口服务,提供鉴权、加密、计量、标签化等。

5、数据共享开放目录:可以明确数据资源进行共享、开放的范围与条件,方便数据跨部门、跨单位、跨组织产生价值。

数据源、元数据与数据元

1、数据源:是指数据的来源,也是数据产生和生成的源头。数据源包括内部数据源和外部数据源两大部分。其中内部数据源根据产生来源的不同又可以分成两类,一类是业务操作中采集的原始数据,也称基础数据(是指企业运营活动中产生的原始数据,或者进行过简单的清洗处理,但不通过计算得到的数据。);另一类是基于业务规则对原始数据数据加工后生成的结果数据,也称衍生数据。外部数据源指由于企业业务发展的需要,从企业外部政府部门、企事业单位、商业机构等获得数据的来源,如气象数据、经济数据等。

2、元数据:为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。包括业务元数据、技术元数据和管理元数据。元数据管理是关于元数据的创建、存储、整合与控制等一整套流程的集合。元数据贯穿数据资产管理的全流程,是支撑数据资源化和数据资产化的核心。首先,元数据从业务视角和管理视角出发,通过定义业务元数据和管理元数据,增强了业务人员和管理人员对于数据的理解与认识。其次,技术元数据通过自动从数据仓库、大数据平台、ETL 中解析存储和流转过程,追踪和记录数据血缘关系,及时发现数据模型变更的影响,有效识别变更的潜在风险。最后,元数据可作为自动化维护数据资产目录、数据服务目录的有效工具。

3、数据元:也称为数据元素,组成实体数据的最小单元,或称原子数据,用一组属性描述定义、标识、表示和允许值的数据单元,数据元由三部分组成:对象、特性、表示。[GB/T 18391.1-2002,定义3.14在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。 数据元可以理解为数据的基本单元,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型。

数据元一般由对象类、特性、表示三部分组成:1)对象类:现实世界中的想法、抽象概念或事物的集合,有清楚的边界和含义,并且特性和其行为遵循同样的规则而能够加以标识;2)特性:对象类的所有个体所共有的某种性质;3)表示:值域、数据类型的组合,必要时也包括度量单位或字符集。

十一参考数据、主数据、交易数据、指标数据

1、主数据:指满足跨部门业务协同需要的核心业务实体数据。长期存在且应用于多个系统,描述整体业务数据的对象;例如:客户、商品、供应商主数据相对交易数据而言,属性相对稳定,准确度要求更高,唯一识别。主数据管理是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据。通过对主数据值进行控制,使得企业可以跨系统的使用一致的和共享的主数据,提供来自权威数据源的协调一致的高质量主数据,降低成本和复杂度,从而支撑跨部门、跨系统数据融合应用。

2、参考数据:是用于将其他数据进行分类或目录整编的数据,参考数据管理是对定义的数据域值进行控制,包括对标准化术语、代码值和其他唯一标识符,每个取值的业务定义,数据域值列表内部和跨不同列表之间的业务关系的控制,并对相关参考数据的一致、共享使用。

3、交易数据:也称为操作类数据指在日常业务开展过程中实时产生或交互的业务行为和结果型数据。操作类数据对实时性要求较高,主要作用是支撑业务的办理流程。相对于主数据,交易数据具有短期或瞬间的特点;例如:采购订单,销售订单。

4、指标数据:组织在战略发展、业务运营和管理支持各领域业务分析过程中衡量某一个目标或事物的数据。一般是由指标名称、时间、指标数值等组成。指标数据管理指组织对内部经营分析所需要的指标数据进行统一规范化定义、采集和应用,用于提升统计分析的数据质量。

企业一般将参考数据和主数据通称为主数据。其中,参考数据又叫配置型主数据,是描述业务或核心主数据属性分类的参考信息,会在整个组织内共享使用。一般依据国际标准、国家标准、行业标准或企业标准和相关规范等,在系统中一次性配置使用的基础数据,例如国家、民族、性别等规范性表述。配置型主数据相对稳定,不易变化。相对于参考数据的主数据又称为核心主数据,指用来描述企业核心业务实体的主数据,是企业核心业务对象、交易业务的执行主体,如产品、物资、设备、组织机构、员工、供应商、客户、会计科目等。核心主数据是企业信息系统的神经中枢,是业务运行和决策分析的基础。核心主数据是相对“固定”的,变化缓慢。

十二数据指标和数据标签

1、数据指标:是衡量目标的方法,预期中打算达到的指数、规格、标准,一般用数据表示。例如:销售收入、活期存款金额、委托贷款余额等。数据指标管理是指通过对企业若干个核心和关键业务环节相互联系的统计数据指标的全面化、结构化和层次化的系统化构建,满足企业对找指标、理指标、管指标、用指标的需要。

2、数据标签:是一种用来描述业务实体特征的数据形式。通过标签对业务实体进行刻画,从多角度反映业务实体的特征。比如对用户进行刻画时,包括性别、年龄、地区、兴趣爱好、产品偏好等角度。在日常工作中,经常碰到的业务实体包括用户、商品、商户等,相应的标签分别称之为用户标签、商品标签和商户标签。

十三数据架构与主题域、数据模型、数据分布、数据流向、实体、数据类型、数据项

1、数据架构:数据架构包括数据资产目录、数据标准、企业级数据模型和数据分布四个组件。

2、主题域:提供模型的高阶视图,是类的逻辑分组。根据业务要求将类组织成一些独立完整的领域,每个主题域对应某一领域所涉及的类对象,并在较高层次上对该领域内数据进行完整一致的描述。主题域扩展可以根据客观对象、业务关注点定义新的数据对象范围。

定义主题域原则包括以下三点:

同一主题下由相关性强的概念或内容聚合而成;

同一层级的主题域具有互斥性,其业务含义不可重叠, 上级和下一级是父子关系;

业务域之间需要建立关联关系。

3、数据模型:是使用结构化的语言将收集到的组织业务经营、管理和决策中使用的数据需求进行综合分析,按照模型设计规范将需求重新组织在一起。从模型覆盖的内容粒度看,数据模型一般分为主题域模型、概念模型、逻辑模型和物理模型。主题域模型是最高层级、以主题概念及其间关系为基本构成单元的模型,主题是对数据表达事物本质概念的高度抽象;概念模型是以数据实体(类)及其间关系为基本构成单元的模型,实体名称一般采用标准的业务术语命名;逻辑数据模型是在概念模型的基础上细化,以数据属性(元素)为基本构成单元。

4、数据分布:是针对组织级数据模型中数据的定义,明确数据在系统、组织和流程等方面的分布关系,定义数据类型,明确权威数据源,为数据相关工作的提供参考和规范。通过数据分布关系的梳理,可以定义数据相关工作的优先级,方便指定数据的认责管理人,并进一步优化数据的集成关系。

5、数据流向:是建立组织内各应用系统、各部门之间的集成机制,通过公司内部数据集成相关制度、标准、技术等方面的管理,促进公司内部数据互联互通。体现系统各环节输入和输出的信息项,数据通过系统交互以及存储的路径,从数据传递和加工的角度,体现控制流和数据流的方向。

6、实体:是指现实世界中客观存在的并可以相互区分的对象或事物。就数据库而言,实体往往指某类事物的集合。可以是具体的人事物,也可以是抽象的概念、联系。数据实体对象往往包含:指标数据、交易数据、主数据及参考数据等。

7、数据类型:数据类型是一种分类,它指定变量具有哪种类型的值以及哪种类型的数学、关系或逻辑运算数据类型是一种分类,它规定了变量或对象在计算机编程中可以包含什么。数据类型具体细分为原始类型及构造类型。原始类型包括整型、浮点型、布尔型、字符串型等。构造类型包括枚举、结构体、集合等。数据类型定义参照CIM标准执行。

8、数据项:数据项是数据的不可分割的最小单位。 数据项的名称有编号、别名、简述、数据项的长度、类型、数据项的取值范围。 数据项是数据记录中最基本的、不可分的有名数据单位,是具有独立含义的最小标识单位。

9、数据字典:是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述,其目的是对数据流程图中的各个元素做出详细的说明。数据字典是描述数据的信息集合,是对系统中使用的所有数据元素的定义的集合。

十四数据应用与数据分析、数据开发共享、数据服务

1、数据应用:是对数据的使用,使其发挥价值。其涉及到三个领域:数据分析、数据开放共享和数据服务。

2、数据分析:是对公司各项经营管理活动提供数据决策支持而进行的公司内外部 数据分析或挖掘建模,以及对应成果的交付运营、评价推广等活动。数据分析能力会影响到公司制定决策、创造价值、向用户提供价值的方式。

3、数据开放共享:是指按照统一的管理策略对组织内部的数据进行有选择的对外开放,同 时按照相关 的管理策略引入外部数据供组织内部应用。数据开放共享是实现数据跨组织、跨行业流转的重要前提,也是数据价值最大化的基础。

4、数据服务:是指通过对企业内外部数据的统一加工和分析,结合不同需求方的需要,以数据分析结果的形式对外提供跨领域、跨行业的数据服务。数据服务的提供可能有多种形式,包括数据分析结果、数据服务调用接口、 数据产品或数据服务平台等,具体服务的形式取决于企业数据的战略和发展方向。

十五数据生命周期与数据需求、数据设计和开发、数据运维、数据退役

1、数据生存周期:数据获取、存储、整合、分析、应用、呈现、归档和销毁等各种生存形态演变的过程。

2、数据需求:是公司对业务运营、经营分析和战略决策过程中产生和使用的数据的分类、含义、分布和流转的描述。数据需求管理过程识别所需的数据,确定数据需求优 先级并以文档的方式对数据需求进行记录和管理。

3、数据设计和开发:是设计、实施数据解决方案,提供数据应用,持续满足公司的数据 需求的过程。数据解决方案包括数据库结构、数据采集、数据整合、数据交换、数据访问及数据产品等方案。

4、数据运维:是数据平台及相关数据服务建设完成上线投入运营后,对数据采集、数据 处理、数据存储等过程的日常运行及其维护过程,保证数据平台及数据服务的正常 运行,为数据应用提供持续可用的数据内容。

5、数据退役:是对历史数据的管理,根据法律法规、业务、技术等各方面需求设计历史数据的保留和清除策略,执行历史数据的归档、迁移和清除工作,确保公司对历史数据的管理符合外部监管机构和内部业务用户的需求,而非仅满足信息技术需求。

十六业务术语、业务规则、命名规范、技术规范

1、业务术语:是组织中业务概念的描述,是组织内部理解数据、应用数据的基础,是业务部门和数据部门沟通的桥梁。良好定义的业务术语标准和业务术语字典可以实现业务术语、元数据的追踪,方便数据治理人员查询使用。业务术语管理指在组织内制定统一的管理制度和流程,并对业务术语的创建、维护和发布进行统一的管理,进而推动业务术语的共享和组织内部的应用。通过对业务术语的管理能保证组织内部对具体技术名词理解的一致性。

2、业务规则:是描述业务应该如何在内部运行,以便成功地与外部世界保持一致。通常在软件中实现,或者使用文档模板输入数据,如主数据,通常规定了主数据格式和允许的取值范围。

3、命名规范:是能够完整准确表述业务含义。名称符合、行业内的通用命名习惯。

4、技术规范:是对标准化的对象提出技术要求,也就是用于规定标准化对象的能力。当这些技术规范在法律上被确认后,就成为技术法规。技术规范是标准文件的一种形式,是规定产品,过程或服务应满足技术要求的文件。它可以是一项标准(即技术标准)、一项标准的一部分或一项标准的独立部分。其强制性弱于标准。

结束语

数据治理相关术语很多,数据治理术语管理包括术语的识别、创建、审定、发布、变更、应用、宣贯、考核等活动,应定义组织统一的管理流程,并以组织级管理文件正式发布。在一个组织里,术语定义应由业务部门、数据管理部门共同参与制定,并以业务术语标准作为业务术语的载体,通过对业务术语标准的定期复审和修订,保持业务术语的准确性、即时性。

(本文内容摘录自《数据标准化:企业数据治理基石》相关章节)

你可能感兴趣的:(数据治理,学习方法)