从业务角度讲,实体是为了满足分析的需要,抽象出来的概念,从业务中拆分出一个个实体,可以是现实存在的业务对象,如用户,商家,商品,也可以是现实没有的,如虚拟的业务对象,活动,会员等等
维度是度量的基础,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为一个实体对象。
在划分数据域、构建总线矩阵时,需要结合对业务过程的分析定义维度。
业务过程是指企业的业务活动事件,如下单、支付、退款都是业务过程。通常业务过程是企业活动中的事件,因此业务过程是一个不可拆分的行为事件。
原子指标是对指标统计口径、具体算法的抽象,等于业务过程(原子的业务动作)+ 统计方式,统计方式通常是做聚合计算。例如,支付(事件)金额(度量),曝光(事件)次数(度量)
基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词。
原子指标=业务过程(动作)+度量,如支付(事件)金额(度量)。
如交易笔数、交易金额、交易用户数等
业务限定为统计的业务范围的圈定。为保障所有统计指标统一、标准、规范地构建,业务限定在业务板块内唯一,并唯一归属于一个来源逻辑表,计算逻辑也以该来源逻辑表模型的字段为基础进行定义。
基于原子指标、时间周期和维度,圈定业务统计范围并分析获取业务统计指标的数值。
派生指标=原子指标+业务限定【做筛选】+统计周期+维度的组合(统计粒度)。派生指标即为对原子指标进行业务统计范围的圈定。如交易金额的完成值、计划值,累计值、同比、环比、占比等。
细分为以下2种类型的指标:
不同的派生指标可能具有相同的原子指标,这样派生指标就定义了一种等价关系,而属于相同的原子指标就构成了一个对指标体系的划分。在每一个划分中,存在一个可以派生出其他指标的最小派生指标,即最细粒度即原子指标。
派生指标也称为衍生指标,是在事务型指标和存量型指标的基础上,通过一定运算规则(逻辑运算)形成的计算指标集合,如平均用户交易额、资产负债率等。
用于描述业务过程的详细信息。事实表体现实际数据或详细数值,一般由维度编码和事实数据组成。如订单表
维度表存放具有独立属性和层次结构的数据,一般由维度编码和对应的维度说明(标签)组成
定义数据汇总的程度。例如,如果维度为时间,则统计粒度为年、季、月、周或日等。
标签是人为设定的、根据业务场景需求,对目标对象运用一定的算法得到的高度精炼的特征标识
标签计算要考虑不同行为(业务过程)的权重不同、数据覆盖范围、衰减时间周期、衰减时间曲线【如平滑、线性、曲线】。
指标是BI时代的通用语言。指标注重对事物及事件的过程进行全面的、体系化的描述,指标的描述范围更广泛,既包括过程也涵盖结果;指标更注重与业务的结合,逻辑上更严谨,表现风格也比较严肃刻板。指标更侧重业务化、严格化和数量化。
标签是大数据与人工智能时代的通用语言。标签比指标更有深度、更凝练,是对指标深度加工的结果;标签注重人物和实体对象的描述,标签一般侧重对局部特征和结果的描述,注重与具体业务场景的结合,描述的范围相对较窄;标签更侧重生活化、口语化和符号化。
总之,标签源于指标,却高于指标。指标更理性,标签更感性。标签比指标更有趣、更形象化、人格化,更有画面感,但指标比标签更讲求精确性、合理性、全面性和体系化
对指标与标签的价值评估方式、评估内容与它们的应用场景相关,也与使用者的感受有关系。
对指标的价值通常用“好不好用”、“全不全面”来评价,对标签的价值通常用“准不准”、“像不像”来评价。
指标的评价较易量化,通常有一定的标准和尺度;标签的评价一般与使用者的感受、应用的结果有强关联关系,不同的人、不同的应用场景,标签能发挥的效果可能大相径庭。
还有一点,由于标签是指标进一步产品化的结果,指标是半成品,标签是成品。所以,标签有时候具有一定的商品属性。在大数据价值链上,标签是可定价、可售卖、可交易的一种数据产品。比如:在个人征信服务领域,用户的三要素、四要素在合规使用的前提下都是可以按条收费的。而指标通常是不具备售卖价值的,指标的价值可在具体应用场景里或者被融合到产品中才能体现出来。
对价值的认知上,指标可以按照重要性分为关键指标、一般指标等,或者说高价值指标、低价值指标之类的,而标签较少提及这种说法,比如有关键指标一说,而没有关键标签一说。
指标有很多种分类方式。如
标签的分类方法通常比指标要少一些。之所以这么说,是因为指标能描述的对象范围更广,对事物的描述能做维度更全面、颗粒度更细,而标签对事物(用于对人的描述比较多)的描述则是更深入、更形象的。
指标的表现形态相对简单,通常以格式化的报表、直方图、趋势图、看板等图形来表示。
标签的表现形态相对复杂。我们通常说的标签是数据化的标签,数据化标签的表现形态以可视化的图表或大屏为主,比如,我们在客户画像时通常以词云图的形式来表现其特征。
事实上,在现实世界中标签还有三种表现形态:
指标是生产性思维、拆解式思维,讲究的是化整为零,将事物分解开来进行多角度的描述,得到很多的指标;
标签则是合成性思维、聚合式思维,讲究的是化零为整,将多个分散的指标按照一定的原理进行综合加工,得出概括性的结果。
一般情况下,先有指标,后有标签。指标是业务管理导向的,需要提前规划;标签是应用导向的,跟随业务需求的而变化,面向业务可随时增加;
指标的生产通常先要扫平数据质量问题,统一数据口径;
标签生产涉及数据质量的问题较少,因为数据质量的问题已经在指标生产阶段被解决了。
指标通常存在多个口径、口径不一致的问题,而标签在这方面的问题则相对较少。
原则上来说,指标与标签都需要建立体系化的管理机制。
就指标的管理机制而言,指标管理通常涉及三个方面:
指标的日常管理涉及指标的定义、指标的分类、指标的权限管理等。对指标的监控与维护通常涉及缺失值、异常值、勾稽关系等方面的检查。
对标签的管理与维护通常按照标签的生命周期来开展的,涉及标签开发与发布、标签应用、标签价值评估和标签优化及下线四个阶段。对标签的管理动作主要就是:打标签、贴标签、用标签和改标签等。
为做好标签管理与维护,有必要设立专门的标签管理团队,建立标签分类、命名、描述、和实施等方面的规范,完善配套的数据采集流程、标签加工流程、标签问题处理与反馈流程等,建立标签全生命周期管理体系,与数据资产管理制度相统一,为标签在各层面的落地及管理提供建设依据。
名称 | 分类 | 解析 | 作用/示例 |
---|---|---|---|
指标 | 结果型指标 | 时机:动作发生后 | 监控数据异常 |
指标 | 过程型指标 | 时机:动作发生中 | 可以通过运营策略影响过程指标 |
体系(维度) | 定性维度 | 文字类描述 | 城市,性别,职业 |
体系(维度) | 定量维度 | 数值类描述 | 收入,年龄 |
缓慢变化维: 简称SCD(Slowly Changing Dimensions),指一些维度随着时间而缓慢地变化(缓慢是相对事实表而言,事实表数据变化的速度比维度表快)。随着时间发生变化的维度称之为缓慢变化维
把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题
如根据用户维度,统计不同出生年份的消费金额占比。(80后、90后、00后)。
在统计后,用户可能去修改用户数据,例如:将出生日期改成了 1992年。此时,用户维度表就发生了变化,涉及到这个维度的统计需要重新统计。
以下为解决缓慢变化维问题的几种办法:
智能数据构建与管理 Dataphin
解决缓慢变化维—拉链表
详细解读指标与标签的区别