【读书笔记】用户画像方法论与工程化解决方案

书名 用户画像
副标题 方法论与工程化解决方案
作者 赵宏田
出版社 机械工业出版社

本书从技术维度系统讲解了用户画像的方法论和一些常见的工程化解决方案。
一套好的解决方案需要包括以下几个层面。

  • 1)架构层:在画像系统的架构层,本书首先介绍了画像数据仓库的架构,进一步介绍了数据存储的技术选型,在什么场景下使用Hive、MySQL、HBase、Elasticsearch等工具存储数据,用户标签开发、人群计算开发等相应数据开发层面的内容,以及整个项目的开发流程和各阶段的关键产出。
  • 2)流量层:介绍整个方案是如何运作起来的。本书主要涉及画像系统的作业流程调度、数据仓库和各业务系统的打通。
  • 3)业务层:包括系统的前后端交互以及如何把这套系统应用在业务服务层面。本书通过用户画像产品化介绍了产品端和画像系统的“代码”层面是如何进行交互操作的。
  • 4)方案价值:包括系统上线后如何服务于各业务场景产生业务价值以及有待进一步完善的地方。

1、用户画像基础

1.1 用户画像是什么

随着大数据技术的深入研究与应用,企业的关注点日益聚焦在如何利用大数据来为精细化运营和精准营销服务,而要做精细化运营,首先要建立本企业的用户画像。

  • 用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。

用户画像建模其实就是对用户“打标签”,从对用户打标签的方式来看,一般分为3种类型:

  • ①统计类标签;
  • ②规则类标签;
  • ③机器学习挖掘类标签。

1.2 数据架构

在整个工程化方案中,系统依赖的基础设施包括Spark、Hive、HBase、Airflow、MySQL、Redis、Elasticsearch。除去基础设施外,系统主体还包括Spark Streaming、ETL、产品端3个重要组成部分。
【读书笔记】用户画像方法论与工程化解决方案_第1张图片
用户画像不是产生数据的源头,而是对基于数据仓库ODS层、DW层、DM层中与用户相关数据的二次建模加工。在ETL过程中将用户标签计算结果写入Hive,由于不同数据库有不同的应用场景,后续需要进一步将数据同步到MySQL、HBase、Elasticsearch等数据库中。

1.3 主要覆盖模块

搭建一套用户画像方案整体来说需要考虑8个模块的建设
【读书笔记】用户画像方法论与工程化解决方案_第2张图片

1.4 开发阶段流程

用户画像建设项目上线流程分为七个阶段

  • 目标解读
  • 任务分解与需求调研
  • 需求场景讨论与明确
  • 应用场景与数据口径确认
  • 特征选取与模型数据落表
  • 线下模型数据验收与测试
  • 线上模型发布与效果追踪
    【读书笔记】用户画像方法论与工程化解决方案_第3张图片

画像体系的开发分为几个主要阶段

  • 前期指标体系梳理
  • 用户标签开发
  • ETL调度开发
  • 打通数据服务层
  • 画像产品端开发
  • 面向业务方推广应用
  • 为业务方提供营销策略的解决方案

1.5 画像应用的落地

用户画像最终的价值还是要落地运行,为业务带来实际价值。这里需要开发标签的数据工程师和需求方相互协作,将标签应用到业务中。
只有业务人员在日常工作中真正应用画像数据、画像产品,才能更好地推动画像标签的迭代优化,带来流量提升和营收增长,产出业绩价值。

1.6 定性类画像

用户的刻画,除了定量维度外,定性刻画也是常见的手段。

  • 通过电话调研
  • 网络调研问卷
  • 当面深入访谈
  • 网上第三方权威数据

2、数据指标体系

数据指标体系是建立用户画像的关键环节,也是在标签开发前要进行的工作,具体来说就是需要结合企业的业务情况设定相关的指标。(注:从这一章节的描述,可以看出作者是将标签和指标两个概念混用的,即指标等同于标签)

  • 用户属性维度指标

    • 年龄
    • 性别
    • 安装时间
    • 城市
    • 历史购买状态等
  • 用户行为维度指标

    • 用户订单相关行为
    • 下单/访问行为
    • 用户近30天行为类型指标
    • 用户高频活跃时间段
    • 用户购买品类
    • 点击偏好
    • 营销敏感度等
  • 用户消费维度标签

    • 【读书笔记】用户画像方法论与工程化解决方案_第4张图片
  • 风险控制维度标签

    • 【读书笔记】用户画像方法论与工程化解决方案_第5张图片
  • 社交属性维度标签

    • 【读书笔记】用户画像方法论与工程化解决方案_第6张图片
  • 其他常见标签划分

    • 偏好细分:用户对于商品品类、商品价格段、各营销渠道、购买的偏好类型、不同营销方式等方面的偏好特征;
    • ·用户分层:对用户按生命周期、RFM、消费水平类型、活跃度类型等进行分层划分。
  • 标签命名方式

    • 对于一个标签,可以从标签主题、刻画维度、标签类型、一级归类等多角度入手来确定每个标签的唯一名称,例如,对性别为“男”的用户打上标签“ATTRITUBE_U_ol_001”
    • 【读书笔记】用户画像方法论与工程化解决方案_第7张图片

3、标签数据存储

在画像系统搭建的过程中,数据存储的技术选型是非常重要的一项内容,不同的存储方式适用于不同的应用场景。

3.1 Hive存储

3.1.1 数仓建模

在数据仓库建模的过程中,主要涉及事实表和维度表的建模开发。

  • 事实表
    • 事务事实表
      • 单事务事实表
      • 多事务事实表
    • 周期快照事实表
    • 累积快照事实表
  • 维度表
    • 缓慢变化维

3.1.2 分表分区

根据标签指标体系的人口属性、行为属性、用户消费、风险控制、社交属性等维度分别建立对应的标签表进行分表存储对应的标签数据。
为了提高数据的插入和查询效率,在Hive中可以使用分区表的方式,将数据存储在不同的目录中。

3.1.3 标签汇聚

对一个用户来说,打在他身上的全部标签存储在不同的分区下面。为了方便分析和查询,需要将用户身上的标签做聚合处理。
开发udf函数“cast_to_json”将用户身上的标签汇聚成json字符串,执行命令将按分区存储的标签进行汇聚。
【读书笔记】用户画像方法论与工程化解决方案_第8张图片

3.1.4 ID-MAP

用户的属性、行为相关数据分散在不同的数据来源中,通过ID-Mapping能够把用户在不同场景下的行为串联起来,消除数据孤岛。

3.2 Mysql存储

  • 平台标签视图中的标签元数据可以维护在MySQL关系数据库中,便于标签的编辑、查询和管理。
  • MySQL还可用于存储每天对ETL结果的监控信息。
  • 在打通画像数据与线上业务系统时,需要考虑将存储在Hive中的用户标签相关数据同步到各业务系统,此时MySQL可用于存储结果集。

3.3 Hbase存储

画像系统中每天在Hive里跑出的结果集数据可同步到HBase数据库,用于线上实时应用的场景。

3.4 Elasticsearch存储

对于用户标签查询、用户人群计算、用户群多维透视分析这类对响应时间要求较高的场景,也可以考虑选用Elasticsearch进行存储。

4、标签数据开发

标签数据开发是用户画像体系搭建中最主要的环节,主要包括离线标签开发、实时类标签开发、用户特征库开发、人群计算、打通数据服务层等开发内容。

  • 4.1 统计类标签开发
    统计类标签是指统计用户相关数值、客观描述用户状态的标签,如用户的年龄、体重、累计购买金额、累计购买次数、近30日登录次数等。
  • 4.2 规则类标签开发
    规则类标签一般是指根据业务运营上的需要,在业务层面制定规则的标签。这类标签会带有一些人为主观判断的因素,所以在开发前需要先进行数据调研,摸清本平台上业务数据的情况,然后再根据运营业务规则开发相关标签。
  • 4.3 挖掘类标签开发
    挖掘类标签需要应用算法挖掘用户相关特征,一般用户相关的挖掘类标签可以包括预测用户男女性别、预测用户点击下单、判断用户已经流失或将要流失、判断用户购买品类偏好等。
  • 4.4 流式计算标签开发
    在做实时订单分析,或者给首次登录App的新人用户弹窗推送、发放红包,实时分析用户所处场景并进行推送中有广泛的应用,这里使用Spark Streaming开发相关的实时数据。
  • 4.5 用户特征库开发
    为进一步从多个维度丰富用户特征,挖掘用户的相关行为,除了开发用户标签体系外,一般还会开发用户的特征库。一方面为个性化推荐、精准营销、商业分析等应用提供中间层数据,另一方面也可以削减不同算法在特征构建时的冗余加工。
  • 4.6 标签权重计算
    用户在平台上的不同行为具体到用户标签层面有着不同的行为权重。具体到某个产品层面,需要用户画像建模人员与运营人员密切沟通,结合业务场景给不同的行为类型定权重,同时需要考虑标签本身在全体标签类型中的权重属性。
  • 4.7 标签相似度计算
    将标签之间的相关关系进行聚类。比如用户在某医疗产品上的轨迹给其带来诸多标签,按标签的类型可以划分为医生、医院、科室、疾病等不同种类。可以将疾病标签聚类到其对应的科室下面。
  • 4.8 组合标签计算
    当业务方根据业务规则应用标签时,是需要组合多个标签来创建对应的用户群体的,此时需要应用到组合标签计算。
    • 组合标签计算的实现逻辑,总结来说分为3个过程:
      • 读取不同组合标签的计算规则;
      • 将人群规则拼接成接口传入参数的查询命令,通过接口方式进行查询;
      • 接口查询计算时,通过Elasticsearch查询符合这些条件的用户id,返回用户id作为rowkey去HBase中查询这些用户身上的标签信息。
    • 数据计算
      • 首先从关系库表中(如MySQL)读取业务人员圈定人群的规则,将人群规则拼接成接口的传入参数
      • 然后通过接口请求Elasticsearch的方式查询对应的用户id。
  • 4.9 数据服务层开发
    一般在开发完画像后,还需要打通标签数据和各业务系统之间的通路,通过产品化的方式将标签数据应用到业务中去。
    • 离线服务层将ETL后的用户群数据推送到对应业务系统。
    • 在线服务层以RESTful API方式提供接口服务,可支持个性化推荐、营销推送、在线特征库等场景。
  • 4.10 Graphx图计算用户
    在工程实践中,存在需要计算二度关系用户的场景,即用户与用户之间通过其共同的好友找到他们的二度关系熟人,这种对图的挖掘计算可借助Spark GraphX完成。

5、用户画像产品化

在上一章数据标签开发完成后,其后章节还涉及到工程性能调优、任务调度部署和数据监控预警等日常开发工作。
开发完画像的标签数据后,还必须将画像数据产品化才能更便于业务使用,更好的发挥数据价值。

  • 面向数据分析师的标签表即时查询功能

  • 面向业务人员的标签视图和标签查询功能【读书笔记】用户画像方法论与工程化解决方案_第9张图片

  • 面向数据开发人员的标签元数据管理功能【读书笔记】用户画像方法论与工程化解决方案_第10张图片

  • 面向业务人员的用户分群功能【读书笔记】用户画像方法论与工程化解决方案_第11张图片

  • 面向业务人员、数据分析师和产品经理的人群分区功能【读书笔记】用户画像方法论与工程化解决方案_第12张图片

6、用户画像应用

  • 经营分析
    • 商品分析
      借助用户画像,可以对商品的销量进行分析,比如说可以快速定位到爆款品类,进一步分析购买爆款品类的用户在各个维度上的特征。
    • 用户分析
      借助画像产品可以了解平台用户的性别、年龄、职业等各维度特征的用户量分布特征
    • 渠道分析
      在画像应用中,借助AARRR模型可以分析目标人群的渠道来源,使得渠道投放的策略更有针对性。
    • 漏斗分析
      漏斗分析用于分析产品流程或关键节点的转化效果,常借助漏斗图展现转化效果。
    • 客服话术
      客服人员可以根据来电用户的画像针对性地提出解决办法,以及对于高价值用户提供VIP客服通道等专项服务。
    • 人群特征分析
      用户人群特征分析可以通过组合标签来自定义人群,然后对自定义人群从各个维度进行透视分析或建立对照组人群做人群对比分析。
  • 精准营销
    • 短信/邮件营销
      当画像系统做成产品形态后,业务人员可以根据业务规则组合标签圈定相应人群,将该批人群推送到对应的业务系统中进行运营。
    • 效果分析
      精准营销是数据价值的一个重要出口,但如何评估效果好坏,不同业务线的人员有不同的关注重点。总体来看,可分为流量提升导向和GMV提升导向两种情况。
  • 个性化推荐服务
    • 用户行为特征库、商品特征库、商家特征库等相关数据为推荐算法开发提供底层数据支持。
    • 基于画像标签系统可以为用户的个性化服务提供支持。

你可能感兴趣的:(读书笔记,大数据,用户画像)