用户画像

曾有报道称,美团饿了么在通过手机麦克风窃听我们的日常,从而进行精准推荐。而对于淘宝、京东这类电商网站来说,不需要通过获取麦克风权限,通过分析用户个人位置信息、购买记录等大数据,构建用户画像,进行更好地商品推荐。

  • 用户画像含义
    用户画像即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的信息全貌,可看作是企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件。下图展示了两大电商京东和淘宝较为典型的用户画像。



  • 用户画像应用
    用户画像在推荐系统、风控中都有非常广泛的应用,它具体表现在:
    (1) 精准营销:根据用户不同的年龄、性别、兴趣爱好等,展示不同的内容给用户;
    (2) 内容push
    (3) 活动推广:广告投放、活动推荐、用户指引等。

  • 怎么实现用户画像
    用户画像的一般流程为(1)收集用户的个人信息存入数据仓库;(2)分析数据仓库的数据,并为用户建立用户标签;(3)通过用户标签建立模型。(4)通过实际适用场景进行AB实验,并迭代;(5)在产品中落地,经过学习训练 不断强化。


信息收集阶段需要对活动、网站页面进行埋点,然后需要数仓同学将日志数据解析成结构化数据,写入表中,ETL的工作可通过airflow实现任务调度、管理和监控。
建立用户标签将通过结合我在工作中的实际情况介绍如何实现。下图展示了头条的一个用户标签案例。


一般用户画像分为基本用户画像(用户基本信息:年龄、性别、职业等),用户行为画像(用户与商品的交互:点击、加购、加心愿单、购买等),用户群画像(通过聚类,将同类型用户划分为一类)

  • 数据分析
    在进行数据分析时需要筛选出在建立某个标签的相关表,以及表中有效字段,并在时间维度上进行采样。之后可以对统计数据进行分析,例如均值、中位数、方差等层面。
    在联立表时,数据量会非常大,但是不是所有数据都有价值,可以先考虑对某个表进行筛选。例如过滤用户和商品交互非常少的数据。
  • 标签权重:
    建立用户标签时,标签权重如何定义也是非常重要的,一般来说,标签权重
    可以通过如下公式进行计算:
    标签权重=时间衰减因子 * 行为权重 * 用户行为次数 *(根据不同需求确立)
    (1)时间衰减因子:指的是行为时间(越久远的时间对用户当前的影响越小,如5年前你会搜索一本高考的书,而现在你会搜索一本考研的书)。时间衰减是指用户的行为会随着时间的过去,历史行为和当前的相关性不断减弱,在建立与时间衰减相关的函数时,我们可套用牛顿冷却定律数学模型。牛顿冷却定律描述的场景是:一个较热的物体在一个温度比这个物体低的环境下,这个较热的物体的温度是要降低的,周围的物体温度要上升,最后物体的温度和周围的温度达到平衡,在这个平衡的过程中,较热物体的温度F(t)是随着时间t的增长而呈现指数型衰减,其温度衰减公式为:
    F(t)=初始温度×exp(-冷却系数×间隔的时间)
    时间衰减的函数是根据发生时间的先后为用户行为数据分配权重。如我们在分析近一个月用户对商品的行为时,时间衰减因子可计算为:发生行为时间和现在时间的天数差除以30,以e为底的负指数,即,
    exp(-datediff(day,date(log_date),current_date-1)/30.0)
    (2)行为权重:是用户不同行为类型的重要性不同,所以对用户的不同行为赋予不同的权重。如给用户购买、加购、加心愿单和点击分别给予1、0.5、0.5、0.1的权重。
    (3)用户行为次数:是统计用户某个行为发生的次数,如用户对某个商品点击了10次,则会对他点击行为的权重累加次数。
    (4)不同需求的权重:如某个页面的权重,TF-IDF标签权重——每个标签的对用户的重要性及该标签在全体标签中重要性的乘积得出每个标签的客观权重值等。
  • 排序
    对每个用户偏好每个标签求总权重值,对权重值倒排并取Top N。
  • 建立模型
    建立好特征工程后,通过机器学习算法,建立LR、XGBoost等模型对用户行为进行预测,生成标签。
    用户画像验证
    这部分内容现阶段还没接触到,在之后的工作会进行补充。
    (1) 实验中验证:通过auc等指标、交叉验证等方法进行验证;
    (2) 线上验证:通过A/B Test进行验证。

你可能感兴趣的:(用户画像)