数据中台(-让数据用起来)-读书笔记10

(2020.11.17)

数据体系规则

1、中台数据体系特征

  • 覆盖全域数据:数据集中建设,覆盖所有业务过程数据;
  • 结构层次清晰:纵向数据分层,横向主题域,业务过程划分,让整个层析结构清晰易理解;
  • 数据准确一致:定义一致性指标,统一命名,统一业务含义,统一计算口径,并有专业数据团队进行建模,保证数据的一致性;
  • 性能提升:统一的规划设计,选用合适的数据模型,清晰的定义并统一规范,考虑应用场景,整体性能更好;
  • 降低成本:数据被业务共享,避免大量烟囱式的重复建设,节约计算、存储、人力成本
  • 方便易用:易用的总体原则越往后越能方便地直接使用数据,把一些复杂的处理尽可能前置,必要时做适当的冗余操作;

2、四个数据分层

  • 贴源数据层ODS(Operational Data Store ,操作数据层):对各业务数据进行采集、汇聚,与业务系统基本保持一致,仅做简单整合、非结构化数据处理为结构化或增加标识数据日期描述信息,不做深度清洗加工;
  • 统一数仓层DW(Data Warehouse):分为明细数据层(dwd)和汇总数据层(dws),业务系统是按照业务流程方便操作的方式来组织数据,而统一数仓从业务易理解的视角来重新组织,定义一定的指标、维度,各业务板块、业务域按照统一规范独立建设,从而形成统一规范的标准业务数据体系;
  • 标签数据层TDM(Tag Data Model):面向对象建模,对跨业务板块、跨数据域的特定对象数据进行整合,通过ID-Mapping把各个业务板块、各个业务过程中的同一对象的数据打通、形成对象的全域标签体系,方便深度分析、挖掘、应用;
  • 应用数据层ADS(Application Data Stroe):按照业务需求从统一数仓层、标签数据层抽取数据,并面向业务的特殊需要加工业务特定数据,以满足业务及性能需求,向特定应用组装应用数据;

3、数据读取规则:数据读取有严格的规范要求

  • 贴源层数据直接从业务系统或者日志系统获取数据;
  • 贴源层数据只能被统一仓库层使用;
  • 统一仓库层只能被标签层和应用层使用;
  • 所有业务使用的数据均来源于标签层和应用层;

贴源数据层建设-全域数据统一存储

1、贴源层概念:是全企业数据的集中存储处,除了对非结构化数据进行结构化处理以及对相同数据进行整合外,并不对业务数据进行过多清洗加工,尽可能保留数据的原始状态。

2、贴源层建设目标:把企业的全域原始数据汇聚到数据中台,为后面的统一数仓层、标签数据层、应用数据层建设做准备;

3、贴源层数据获取方式:建议使用ELT(Extract-Load-Transform)方式,即将所有原数据抽取到数据中台的贴源数据层,再利用大数据底层平台的计算能力进行转化操作;

4、贴源层数据分类

  • 结构化数据:关系型数据库数据,直接从业务系统DB抽取到贴源层;
  • 半结构化数据:一般为纯文本,以各种日志数据为主,保留贴源层数据的同时也做结构化处理,为后续使用做准备;
  • 非结构化数据:主要为图片、音频、视频,一般保留在文件系统中,由于这类数据量一般比较庞大,而且没有太多挖掘价值,所以贴源层不保留原始文件,只保留对原始数据文件的描述;

5、贴源层表设计

  • 命名:ods_系统简称_业务系统表名;
  • 字段:与业务系统保持一致,在ods层不做字段命名归一;
  • 数据量较大的业务表,如采用增量同步,则要建立增量表和全量表,增量表利用后缀标识,eg:ods_系统简称_业务系统表名_delta,汇聚到增量表的数据通过数据加工任务合并生成全量表;
  • 对日志、文件等半结构化数据,不仅要存储原始数据,还要做结构化处理;原始数据按行存储在文本类型的大字段中,然后在通过解析任务把数据解析到结构化数据表中。

6、贴源数据表实现

  • 确定业务系统源表与贴源数据层目标表;
  • 配置字段映射关系,目标表可能会增加采集日期、分区、原系统标识等必要信息,业务相关内容不做转换;
  • 如是增量同步或 有条件的同步部分数据,则配置数据同步条件;
  • 清理目标表对应数据;
  • 启动同步任务,导入数据;
  • 验证任务是否正确;
  • 发布采集任务,加入生产调度,并配置相关限速、容错、质量监控、告警机制;

你可能感兴趣的:(数据中台,大数据)