OneData介绍
OneData即是阿里巴巴内部进行数据整合及管理的方法体系和工具。
数据从业者能在这一体系下,构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性。
建设统一的、规范化的数据接入层(ODS)和数据中间层(DWD和DWS),通过数据服务和数据产品,完成服务于公司的大数据系统建设,即数据公共层建设。
指标种类:
名词术语 | 解释 |
---|---|
维度 | 用来反映业务的一类属性,这类属性构成一个维度,如地理维度、时间维度 |
公共修饰词 | 指除了统计维度以外的公共限定词 |
其他修饰词 | 不便于约定的修饰词,比如“曝光人数超过100的“商品销量 |
动作 | 指企业的业务活动事件,如下单、支付、退款都是动作,也叫业务过程 |
维度属性 | 维度属性隶属于一个维度,如地理维度里面的国家名称、国家D、省份名称等 |
度量 | 用于衡量某个过程的单位,如人数、次数、件数、金额等 |
时间周期 | 用来明确数据统计的时间范围或时间点 |
原子指标 | 基于某一业务过程下的不可再拆分的指标,一般来说,原子指标=动作+度量 |
派生指标 | 公共修饰词+(维度属性)+原子指标+时间周期+(其他修饰词) |
指标体系
1.组成体系之间的关系
原子指标、修饰类型及修饰词,直接归属在业务过程下,其中饰词继承修饰类型的数据域。
派生指标可以选择多个修饰词,修饰词之间的关系为“或“或者“且”,由具体的派生指标语义决定。
派生指标唯一归属一个原子指标,继承原子指标的数据域,与修饰词的数据域无关。
原子指标有确定的英文字段名、数据类型和算法说明;派生指标要继承原子指标的英文名、数据类型和算法要求。
2.命名约定
业务过程:具体业务过程中文即可。
原子指标:动作+度量,原子指标必须挂靠在某个业务过程下。
修饰词:时间周期修饰词参考常用表命名,其他修饰词按照实际规定来。
派生指标:时间周期修饰词+【其他修饰词】+原子指标。
操作细则:
1.派生指标的种类
事务型指标:是指对业务活动进行衡量的指标。例如新发商品数、重发商品数、新增注册会员数、订单支付金额,这类指标需维护原子指标及修饰词,在此基础上创建派生指标。
存量型指标:是指对实体对象(如商品、会员)某些状态的统计。例如商品总数、注册会员总数,这类指标需维护原子指标及修饰词,在此基础上创建派生指标,对应的时间周期一般为“历史截至当前某个时间"。
复合型指标:是在事务型指标和存量型指标的基础上复合而成的。例如浏览UV-下单买家数转化率,有些需要创建新原子指标,有些则可以在事务型和存量型原子指标的基础上增加修饰词得到派生指标。
2.复合型指标的规则
比率型:创建原子指标,如CTR、浏览UV-下单买家数转化率、满意率等。例如,“最近1天店铺首页CTR",原子指标为 “CTR",时间周期为“最近1天”,修饰类型为“页面类型,修饰词为“店铺首页”。
比例型:创建原子指标,如百分比、占比。例如“最近1天无线支付金额占比",原子指标为“支付金额占比",修饰类型为终端类型”,修饰词为“无线”。
变化量型:不创建原子指标,增加修饰词,在此基础上创建派生指标。例如,“最近1天订单支付金额上1天变化量”,原子指标为“订单支付金额”,时间周期为“最近1天”,修饰类型为“统计方法",修饰词为“上1天变化量”。
变化率型:创建原子指标。例如,“最近7天海外买家支付金额上7天变化率”,原子指标为“支付金额变化率”,时间周期为“最近7天”,修饰类型为“买家地域”,修饰词为“海外买家”。
统计型(均值、分位数等):不创建原子指标,增加修饰词,在此基础上创建派生指标;在修饰类型“统计方法“下增加修饰词,如人均、日均、行业平均、商品平均、90分位数、70分位数等。例如,“自然月日均UV",原子指标为“UV",修饰类型为“统计方法”,修饰词为“日均"。
排名型:创建原子指标,一般为top_xxx_xxx,有时会同时选择rank和top_xxx_xxx组合使用。创建派生指标时选择对应的修饰词如下:
统计方法:比如降序、升序
排名名次:比如top100排名范围:比如行业、省份、一级来源
根据什么排序:比如搜索次数、PV
对象集合型:主要是指数据产品和应用需要展现数据时,将一些对象以k-v对的方式存储在一个字段中,方便前端展现统计方法:比如降序、升序
上下层级派生指标同时存在时:如最近1天支付金额和最近1天PC端支付金额,建议使用前者,把PC端作为维度属性存放在物理表中体现。
父子关系原子指标存在时:当父子关系原子指标存在时,派生指标使用子原子指标创建派生指标。如PV、IPV(商品详情页PV),当统计商品详情页PV时,优先选择子原子指标。