【产品】构建用户画像

项目目标

  1. 梳理用户画像理论,了解用户画像指标制作流程。
  2. 针对公司业务情况,创建用户画像系统指标大类。
  3. 制定用户画像指标规范。

技术理论介绍

应用领域

  • 市场营销
  • 业务产品设计、功能界面设计
  • 智能化推荐
  • 监控运营环境
  • 用户统计数据

画像分类

  • 按照信息变动频率分为静态标签和动态标签。
  • 按照标签准确度分为确定性标签和非确定性标签。

画像构建

  1. 数据源
  • 用户基本信息。获取途径:用户注册信息表;收件人信息;通过活动收集;模型预测。
  • 用户行为数据。如访问深度、访问频次、平均访问时长。
  • 用户订单数据。如高利润用户、忠诚度用户、价格敏感用户、产品偏好。
  • 用户投诉信息。
  1. 用户画像构建粒度
  • 唯一标识:cookie、UID、email、微信QQ微博、手机号、身份证。
  1. 用户画像构建抽象方法
  • 将数据聚集到适当的粒度。如地址、出生日期。
  • 将数据旋转到相应时间序列。在规定时间范围内,数据量比较均匀,数据种类比较多,如在规定时间范围内的最大值、最近时间点上的数值;在规定时间范围内,数据不规则或稀疏,如在规定时间范围内的第一个值、中位数;整体汇总数据,如整个生命周期内每个渠道数值、平均值。
  • 对已有数值进行适当变换。如年龄。
  • 各种方式创造派生变量。如转化率(订单量除以UV)。
  1. 用户画像标签创建流程
    1)业务方提出需求,确定标签使用的业务场景,指定标签含义。
    2)根据标签含义收集或寻找相应的基础数据。
    3)通过统计方法对明细数据进行适当汇总。
    4)汇总好后的指标数据有两种类型:离散型和连续型。对于连续型指标需要进行离散化处理。
    5)某些情况下,现有的数据难以表述一些复杂的含义,如潜在购买力、行为偏好等。需要根据已有数据标签进行建模分析,从而得到一些自定义的标签。
    6)创建衍生变量,形成新的标签。
    需要注意在创建用户画像标签时必须注明应用场景和使用方法,同一个定义在不同场景下,指标数据往往是不一样的,可以附上指标说明书。
  2. 用户画像标签构建难点
  • 不同数据源之间的数据打通。
  • 用户画像数据的时效性。
  • 将连续型指标合理地离散化。

标签的数值处理方法

  • 数值归一化
    1)min-max标准化
    2)log函数标准化
    3)atan函数标准化
    4)Z-Score函数标准化:(x-μ)/σ

  • 连续型数值的离散化
    1)等距划分
    2)等频划分
    3)聚类分析。K-means聚类,随机指定k个类别中心点,然后通过每个点与类别中心点的距离,将每个点划到与它距离最近的那个中心所属的类,接着重新计算类别中心点、重新计算上述步骤,直到划分稳定为止。在K-means聚类过程中,k值的设定需要用户事先指定,这里采用划分后组与组之间的组间距离与组内距离和组内距离之和的比值(称作伪F值)来判断。

项目实践

  1. 指标数据的描述性统计
    导入测试数据,年龄为连续型指标;输出QQ图。直方图和密度估计图,初步看下指标分布和正态分布的偏离程度;最后对该指标进行描述性统计,计算均值、标准差、最大值、最小值、上下四分位数、偏度和峰度。
  2. 离散化过程
    计算伪F值。将年龄聚类化。以上K-means离散化的方法是在没有任何业务指导及响应变量时使用的,也就是说在无监督的情况下是可行的。在具体分析某个具体场景并且有响应变量时,可以用卡方、信息增益、Gini系数等方法进行分类。

你可能感兴趣的:(产品,数据分析,用户画像,大数据)