用户画像系列第三篇:数据架构

用户画像系列第三篇:数据架构_第1张图片
本文摘自赵宏田老师的:“用户画像:方法论与工程化解决方案”。

在用户画像的整个工程化解决方案中,整个系统依赖的基础设施包括Spark、Hive、HBase、Airflow、MySQL、Redis、Elasticsearch等基础设施。除去这些基础设施外,系统主体还包括SparkStreaming、ETL、产品端这三个重要的组成部分。下图是一个用户画像数仓的架构图。
用户画像系列第三篇:数据架构_第2张图片

用户画像数仓架构

图中最下方的虚线框中的内容,是常见的数据仓库ETL加工流程,也就是将每日的业务数据、日志数据、埋点数据等经过ETL处理,加工到数据仓库对应的ODS层、DW层、DM层中。

中间的虚线框即为用户画像建模的重要环节,即对基于数据仓库ODS层、DW层、DM层中与用户相关的数据的二次建模加工,而用户画像系统并不是产生数据的源头,之后将二次加工后的用户标签结果写入到Hive中。由于不同的数据库有不同的应用场景,后续需要进一步将数据同步到MySQL、HBase、Elasticsearch等数据库中,下面介绍一下各个数据库的主要承担的功能:

Hive: 储存用户标签计算结果、用户人群计算结果、用户特征计算结果。

MySQL: 储存标签元数据,监控相关数据,导出到业务系统的数据。

Hbase: 储存线上接口实时调用类数据。

Elasticsearch: 支持海量数据的实时查询分析,用于存储用户人群计算、用户群透视分析所需的用户标签数据。(由于用户人群计算、用户群透视分析的条件,转化而成的SQL语句包含多添件嵌套,较为复杂,因此使用Impala执行也需要话费大量时间)

用户标签数据在Hive中加工完成之后,部分标签通过Sqoop同步到MySQL数据库中,提供用于BI报表展示的数据、多为透视分析的数据、圈人服务的数据;另一部分标签同步到HBase数据库中,用户产品线上个性化推荐。

你可能感兴趣的:(用户画像)