1.1、数据:
数据是对感知到的客观事实进行描述或记录的符号或符号集合,如数字、文字、字母、声音、图片和视频等。
1.2、数据资源:
广义上是指对家企业而言所有可能产生价值的数据,是企业生产及管理过程中涉及的一切文件、资料、图表等数据的总称。它是对数据进行加工处理后的结果,使数据之间建立联系,并具有了某些意义,贯穿于企业管理的全过程。
1.3、数据资产:
是指由组织(政府机构、企事业单位等)合法拥有或控制的数据资源,以电子或其他方式被记录下来,例如文本、图像、语音、视频、网页、数据库、传感信号灯结构化或非结构化的数据,可进行计量或交易,能直接或间接带来经济效益和社会效益。在组织中,并非所有的数据都可以构成数据资产。数据资产是能够为组织产生价值的数据资源。数据资产的形成需要对数据资源进行主动管理并形成有效的控制。
数据资产和数据资源的区别在于:数据没有产生价值也可以称为数据资源,数据只有产生了价值才可以称为数据资产。
1.3.1、数据资产的“三全”管理
1.3.1.1、全生命周期(时间)管理:
全生命周期(时间)管理是基于元数据的数据资产全过程管理,从注册、应用、运营到最终归档及消亡的全过程记录与监控。通过权衡效率和需求之间的关系,对数据资产进行合理分级存储和保留、销毁数据。
1.3.1.2、全流程(空间)管理:
全流程(空间)管理基于数据资产的溯源管理(数据血缘与影响分析),包括数据来源、存储位置、处理方式、流转过程、安全稽查规则,能追本溯源地发现数据的“前世今生”。
1.3.1.3、全景式(场景)管理:
全景式(场景)管理是基于数据资产全场景视图的管理,从应用场景的维度看,其中既有全局规划的管理者,也有关注细节定义的使用者,还有负责加工、运维的开发者。其可以提供多层次的图形化展示,满足应用场景的图形查询和辅助分析。
1.4、数据要素:
数据要素是指在生产和服务过程中作为生产性资源的投入,创造经济价值的数据、数字化信息和知识的集合。数据要素包括原始数据、衍生数据、数据模型、数据产品和服务等。
数据要素和数据资产是数据资源在不同的价值释放阶段的业务线定义。数据要素包括数据资产、数据资产是能够使用会计准则,且能够被会计确认计量的数据要素。
2.1、数据管理:指利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。数据管理的目的在于充分、有效地发挥数据的作用。
2.2、数据资源管理:致力于发展处理企业数据全生命周期的适当的构建、策略、实践和程序。数据资源管理的目的是通过某些手段,以有效地控制数据资源,并提升数据资源的利用率。
2.3、数据资产管理:是指对数据资产进行规划、控制和提供的一组活动智能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而实现对数据资产价值的控制、保护、交付和提高。
2.4、数据要素化:指数据资源通过与生产经营嵌入、融合,再叠加人的智慧、创意与劳动,转换为数据要素的过程。例如:将企业的发电量数据加工成企业用电状态标签,用于企业用电风险分析,从而产生价值。
3.1、数据目录:
可以分为数据资源目录、数据共享与开放目录、数据资产目录和数据服务目录。数据目录是企业数字化转型、构建数字孪生的基础;是实现数据共享、数据服务的基础,也是数据资产化、数据资产运营的基础。
3.2、数据资源目录:
是依据规范的元数据来描述数据资源,并站在全局视角对所拥有的全部数据资源进行编目,以便对数据资源进行管理、识别、定位、发现、共享的一种分类组织方法,通过数据资源目录可实现对数据的浏览、查询、获取等目的。
3.3、数据资产目录:
指对数据中有价值、可用于分析和应用的数据进行提炼而形成的目录体系、数据资产目录应该站在管理的角度构建,根据不同数据资产管理范围的划分,由不同的角色进行管理;
编制数据资产目录有以下几个作用:
3.3.1、可以给出业务场景和数据资源的关联关系,降低用户理解系统数据的门槛;
3.3.2、是整个数据资产体系中的首要工作,是构建企业数据架构体系的基础工作;
3.3.3、可以实现对企业内部数据资产目录的统一检索、快速定位和统计分析,逐步形成知识图谱和数据资产地图。
3.4、数据服务目录:
数据服务目录是依据规范的元数据来描述数据服务,且按照特定的业务场景进行排序和编码的一组信息,用于描述各个数据服务的特征,以便对数据服务的使用和管理。
数据服务目录是基于企业内已梳理的数据资产目录,以业务场景、应用场景为切入点,以业务需求、应用需求为导向进行编制的。数据服务目录主要分为2类:
一类是数据应用服务目录,提供包括指标报表、分析报告等可以直接使用的数据应用;
另一类是数据接口服务目录,提供鉴权、加密、计算、标签话等服务。
3.5、数据共享与开放目录:
可以明确数据资源进行共享与开放的范围与条件的一组信息,方便实现数据跨部门、跨单位、跨组织产生价值。
4.1、数据源:指数据的来源,也是数据产生和生成的源头。数据源包括内部数据源和外部数据源两大部分。
内部数据源根据来源的不同又可以分成两类:
一类是业务操作中采集的原始数据,也被称为基础数据(指企业运营活动中产生的原始数据,或者经过简单的数据清洗处理,但不通过计算得到的数据);
另一类是基于业务规则对原始数据加工后生成的结果数据,也被称为衍生数据。
外部数据源指因企业业务发展的需要,从外部的政府部门、企事业单位、商业机构等获得的数据,如气象数据、经济数据等。
4.2、元数据:
即描述数据的数据,主要指描述数据属性的信息,具有指示数据存储位置、资源查找、文件记录等功能。元数据包括业务元数据、技术元数据和操作元数据。
元数据的作用:
元数据贯穿数据资产管理的全过程,是支撑数据资源化和数据资产化的核心。其具体功能如下:
4.2.1、从业务视角和管理视角出发,通过定义业务元数据和管理元数据,可以增强业务人员和管理人员对于数据的理解和认识。
4.2.2、技术元数据通过自动从数据仓库、大数据平台、ETL中解析数据存储和流转过程,可以追踪和记录数据血缘关系,及时发现数据模型变更带来的影响,以及有效识别变更带来的潜在风险。
4.2.3、元数据可以作为自动化维护数据资产目录、数据服务目录的有效工具。
4.3、数据元
数据元也被称为数据要素,是用一组属性描述定义、标识、表示和允许值的数据元(在GB/T 18391.1-2002中的定义:在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元)。数据源可以被理解为数据的基本单元。将若干个具有相关性的数据元按一定的次序组成一个整体结构即为数据模型。
数据元一般由对象类、特性、表示3个部分组成:
对象类:是现实世界中的想法、抽象概念或事物的集合,有清楚的边界和含义,并且因其特性和行为遵循同样的规则而能够被加以标识。
特性:对象类的所有个体所共有的某种性质。
表示:值域、数据类型的组合,必要时也包括度量单位或字符集。
5.1、主数据:指满足企业跨部门业务协同需要的核心业务实体数据。其长期存在且应用于多个系统中,用于描述整体业务数据的对象,例如客户主数据、商品主数据、供应商主数据。相比于交易数据,主数据的属性相对稳定,对准确性的要求更高,可唯一识别。
主数据管理:主数据管理是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统中记录的数据。通过对 主数据值进行控制,使企业可以跨系统提供来自权威数据源的协调一致的高质量主数据,从而支撑跨部门、跨系统的数据融合与应用。
5.2、参考数据:
指用于将其他数据进行分类或目录整编的数据。参考数据管理是对定义的数据值域进行控制,包括对标准化术语、代码值和其他唯一标识符,每个取值的业务定义,数据域值列表内部和跨不同列表之间的业务关系的控制。
很多企业为了简化概念,一般将参考数据和主数据通称为主数据。
参考数据又叫配置型主数据,是描述业务或核心主数据属性分类的参考信息,会在整个组织内共享使用。配置型主数据一般是依据国际标准、国家标准、行业标准或企业标准和相关规范制定的,在系统中一次性配置使用的基础数据,例如:国家、民族、性别等的规范性表述。配置型主数据相对稳定,不易变化。
区别于参考数据的主数据又被称为核心主数据,指用来描述企业核心业务实体的主数据。核心主数据是企业信息系统的神经中枢,是业务运行和决策分析的基础。核心主数据是相对固定的,变化缓慢。
5.3、交易数据
也被称为操作类数据,指在日常业务开展过程中实时产生或交互的业务行为和结果型数据。操作类数据对实时性的要求较高,其主要作用是支撑业务的办理流程。相比主数据,交易数据具有短期或瞬间的特点,如采购订单数据、销售订单数据。
5,4、指标数据
指组织在战略发展、业务运营和管理中衡量某一个目标或事物的数据,一般是由指标名称、时间、指标数值等组成。指标数据管理指组织对内部经营分析所需要的指标数据进行统一规范化定义、采集和应用,用于提升统计分析的数据质量。
6、数据指标、数据标签
6.1、数据指标:数据指标是一种衡量目标的方法,一般用于表示预期中打算达到的指数、规格、标准。例如销售收入、活期存款余额、委托贷款余额等。数据指标管理是指通过对企业若干个核心和关键业务环节相互联系的统计数据指标的全面化、结构化和层次化的系统构建,满足企业关于“找指标、理指标、管指标、用指标”方面的需求。
6.2、数据标签:是一种用来描述业务实体特征的数据形式。数据标签是通过标签对业务实体进行刻画,从多个角度反映业务实体的特征。比如对用户进行画像时,包括性别、年龄、地区、兴趣爱好等角度。我们在日常工作中经常会碰到的业务实体包括用户、商品、商户等,相应的标签分别被称为用户标签、商品标签和商户标签。
7.1、数据架构:是一套规则、政策、标准和模型,用于管理和定义收集的数据模型,以及如何在组织及其数据库系统中使用、存储、管理和集成数据。数据架构提供了创建和管理数据流,以及处理整个组织的IT系统和应用程序的方法。
数据架构是实现数据规划的载体,是揭示业务本质、描述组织中数据关系的全景视图,是统一数据语言、理顺数据关系、消除信息孤岛、建立数据互联的基础。
7.2、主题域:用于提供数据模型的高阶视图,是类的逻辑分组。根据业务要求可以将类组织成一些独立完整的领域(主题域),每个主题域对应某一领域所涉及的类对象,并在较高层次上对该领域内的数据进行完整、一致的描述。主题域可以扩展,可以根据客观对象、业务关注点定义新的数据对象范围。
7.2.1、定义主题域的原则:
(1)同一主题下由相关性强的概念或内容聚合而成;
(2)同一层级的主题域具有互斥性,其业务含义不可重叠,上一级和下一级主题域是父子关系;
(3)业务域之间需要建立关联关系
7.3、数据模型:即使用结构化的语言,将收集到的组织在业务经营、管理和决策中使用的数据需求进行综合分析,并按照数据模型设计规范将需求重新组织在一起。从数据模型覆盖的内容颗粒度来看,数据模型一般分类主题域模型、概念模型、逻辑模型。
主题域模型是最高层级、以主题概念及其之间的关系对基本构成单元的模型。
概念模型是以数据实体(类)及其之间的关系为基本构成单元的模型。
逻辑模型是在概念模型的基础上进行细化,以数据属性(元素)为基本构成单元的模型。
7.4、数据分布:是针对企业级数据模型中数据的定义,用以明确数据在系统、组织和流程等方面的分布关系,定义数据类型,明确权威数据源,为数据相关工作提供参考和规范。通过对数据分布关系的梳理,可以定义数据相关工作的优先级,方便指定数据的责任管理人,并进一步优化数据的集成关系。
7.5、数据流向:是组织内各应用系统、各部门之间的数据集成机制,通过对组织内部数据集成相关制度、标准、技术等方面的管理,促进组织内部数据的互联互通。数据流向体现了系统各环节输入和输出的信息项,以及数据通过系统交互及存储的路径;从数据传递和加工的角度看,数据流向体现了控制流和数据流的方向。
7.6、实体:是指现实世界中客观存在的并且可以相互区分的对象或事物。就数据库而言,实体往往指某类事物的集合。实体可以是具体的人或事物,也可以是抽象的概念、联系。数据实体对象往往包含指标数据、交易数据、主数据及参考数据等。
7.7、数据类型:一组性质相同的值的集合,以及定义在此集合上的一些操作的总称。数据类型包括原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考数据类型及函数类型。数据类型的出现是为了跟进所需内存的不同,把数据分成大小不同的数据,在编程时,需要用大数据时才需要申请大内存,从而可以充分利用内存。
7.8、数据项:是数据不可被分割的最小单位。数据项的名称有编号、别名、简述、数据项的长度、类型、数据项的取值范围。
7.9、数据字典:数据字典是描述数据的信息集合,是对系统中使用的所有数据元素的定义和集合。数据字典用于对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述,其目的是对数据流程图中的各个元素做出详细的说明。
8.1、数据应用:指对数据的使用,使数据发挥价值。数据应用涉及3个领域:数据分析、数据开放与共享和数据服务;
8.2、数据分析:指为组织的各项经营管理活动提供数据决策支持而进行的组织内、外部数据分析或挖掘建模,以及对应成果的交付运营、评价推广等活动。数据分析能力会影响组织制定决策、创造价值、向用户提供价值的方式。
8.3、数据开放与共享:指按照统一的管理策略将组织内部的数据有选择地对外开放,同时按照相关的管理策略引入外部数据供组织内部应用。数据开放与共享是实现数据跨组织、跨行业流转的重要前提,也是实现数据价值最大化的基础。
8.4、数据服务:指通过对企业内、外部数据的统一加工和分析,以及结合不同需求方的需要,以数据分析结果的形式对外提供跨领域、跨行业的数据服务。提供的数据服务可能有多种形式,包括数据分析结果、数据服务调用接口、数据产品或数据服务平台等,具体的形式取决于企业数据战略和发展方向。
9.1、数据生命周期
指数据的获取、存储、整合、分析、应用、呈现、归档和销毁等各种生存形态演变的过程。
9.2、数据需求
指组织内对业务运营、经营分析和战略决策过程中产生和使用的数据的分类、含义、分布和流转的描述。数据需求管理用于识别所需的数据,确定数据需求的优先级并以文档的方式对数据需求进行记录和管理。
9.3、数据设计和开发
指通过设计、实施数据解决方案,提供数据应用,以持续满足组织的数据需求的过程。数据解决方案包括数据库结构、数据采集、数据整合、数据交换、数据访问及数据产品等方案。
9.4、数据运维
指数据平台及相关数据服务在建设完成并上线投入运营后,对数据采集、数据处理、数据存储等过程的日常运行及维护的过程。数据运维为数据应用提供了持续、可用的数据内容。
9.5、数据退役
指对历史数据的管理,根据法律法规、业务、技术等各方面的需求,设计历史数据的保留和清楚策略,执行历史数据的归档、迁移和清除工作,确保组织对历史数据的管理符合外部监管机构和内部业务用户的需求,而非仅满足信息技术部门的需求。
10.1、业务术语:是对组织中业务概念的描述,是组织内部理解数据、应用数据的基础,也是业务部门和数据部门沟通的桥梁。定义良好的业务术语标准和业务属于字典可以实现对业务术语、元数据的追踪,方便数据治理人员查询和使用。
业务术语管理指在组织内制定统一的管理制度和流程,并对业务术语的创建、维护和发布进行统一的管理,进而推动业务术语的共享及其在组织内部的应用。通过对业务术语的管理能保证组织内部对具体技术名词理解的一致性。
10.2、业务规则:描述额业务应该如何在组织内部运行,以便与外部组织保持一致。通常业务规则规定了主数据格式和允许的取值范围。
10.3、命名规范:用于完整、准确地表述业务的含义。业务名称要符合行业内的同样命名习惯。
10.4、技术规范:即对标准化的对象提出技术要求。当这些技术规范在法律上被确认后,就成了技术法规。