从PC到移动互联网,一批搭乘流量红利快车的互联网产品,曾极速崛起。而如今,流量红利消失,一个疯狂的、传奇般的流量时代,已然结束。增量乏力,存量市场竞争更加激烈的环境下催生了精细化运营,结合大数据,对用户进行分群,针对不同群体的用户采用不同的营销策略。
文章从数据产品层面出发,对如何从0到1建设用户画像体系进行了梳理分析。
青岛艺形艺意文化传媒有限公司创始人,青岛首席商学院新媒体运营创始人,资深新媒体运营人,《新媒体推广运营实战大全》 作者、知名品牌营销顾问黎想将为大家分享:主要4个步骤:业务需求分析、建设标签体系、建设画像系统和画像应用,供大家一同参考和学习。
四种用户画像的方法
整个画像体系包含标签建模、画像系统、画像应用,那从数据产品层面来看,如何0-1建立用户画像体系呢?接下来我们按照如下结构进行展开:
业务需求分析
建设标签体系
建设画像系统
画像应用
用户画像体系的建设不能凭空捏造,需要以经济建设为中心,根据实际的业务需求,考量画像系统能为业务带来的价值,所以我们第一步要做的是分析业务需求。
明确用户画像服务于企业的对象,如产品、用户运营、活动运营、市场、风控等部门;再根据业务方需求,明确未来产品建设目标和用户画像分析之后的预期效果。
在需求分析阶段,我们需要分析业务过程,各部门核心关注点、部门KPI、组织结构、用户行为路径、功能流程图。此处分析过程跟埋点业务需求分析类似,详情可查看埋点业务需求分析,此处不做展开。
从数据产品建设标签体系来看,可以根据标签的统计方式,将标签分为3类:统计类标签、规则类标签、预测类标签;
1. 统计类标签
用户画像最为基础常见的标签,统计类标签值统计用户相关数值、客观描述用户状态的标签,这类数据通常可以从用户注册数据、用户访问、消费统计中可以得出。
2. 规则类标签
基于用户行为及确定的规则产生,在实际开发画像的过程中,根据业务的需要,由运营人员和数据人员共同协商制定,包含活跃度标签、RFM标签等。
例如,对平台上“交易活跃”这一口径的定义为“近90天交易次数>3”。
(1)用户活跃度标签
实际业务场景中会涉及根据用户的活跃情况,给用户打上高活跃、中活跃、低活跃、流失等标签。
首先划分用户的流失周期,通常有2种方法:标签的建设讲究定义有依据,建设有方法。
第一是,拐点理论:X轴上数值的增加会带来Y轴数值大幅增益(减益),直到超过某个点之后,当X增加时Y的数据增益(减益)大幅下降,即经济学里面的边际收益的大幅减少,那个点就是图表中的“拐点”。
第二是,统计用户最后一次访问与倒数第二次访问之间的时间间隔,可认为大于这个时间间隔的用户基本不会再访问,即用户已流失。查看历史数据可以了解到用户最后一次访问与倒数第二次访问间隔30日以上的用户不足10%,可以认为大于这个时间间隔的用户为“流失用户”。
划分完流失周期之后,根据用户的活跃情况进一步将其划分高中低活跃。对历史数据,按照二八原则进行划分。
(2)RFM标签
RFM模型主要由3个基础指标组成:最近一次消费时间、消费频率、消费金额。根据历史数据,查看用户量的占比,可按照二八原则进行划分,得到细分标签。
R:如历史数据中80%的用户最近访问<60日为“近”,用户最近访问>=60日为“远”。
F:如历史交易订单量80%的用户订单量<5单为“低频”,订单量>=5单为“高频”。
M:如历史交易订单金额80%的用户交易金额<500元为“低额”,交易金额>=500元的为“高额”。
3. 预测类标签
基于用户的属性、行为、位置和特征,运用决策树算法、回归算法等挖掘用户的相关特征,挖掘其潜在需求,针对这些潜在需求,给用户打标签,配合不同的营销策略,进行推送。
根据一个用户的消费习惯判断,他对商品的偏好程度;根据用户的退差评等行为,预测其风险程度。
一般统计类和规则类标签即可满足应用需求,在开发过程中占有较大比例。机器学习挖掘类标签多用于预测场景,如判断用户风险、用户购买商品偏好、用户流失意向等,其开发周期长、开发成本高。
第一是,根据已经划定的文章类型,将为做过分类的文章自动划分到相应类型下
第二是,支持文章的集约化管理,根据文章内容自动为每篇文章打赏与其主题相关的标签
(1)特征选取及开发流程
数据分类:人工对一批文档进行准确标注,作为训练集样本,未进行标注的一批文档作为测试集
数据预处理:对测试集和训练集文本进行分词处理,建立词料库,去掉停用词、语气词等
朴素贝叶斯分类:从精度、召回率、F-测度值3方面来划分文章分类
(2)计算标签权重
在标签制定过程中用户画像建模人员与业务人员需要密切沟通,结合业务场景制定不同行为类型和权重。常用的确定权重的方法有TF-IDF词空间向量、时间衰减系数。
(2.1)TF-IDF词空间向量
TF-IDF是一种统计方法,用以评估一个字或词相对于一个文件集或一个语料库中其他词的重要程度。字词的重要性与它在文件集中出现的次数,成正比;与它在语料库中出现的次数成反比。
(2.2)时间衰减系数
当用户数据达到足够密集的程度后,用户身上打的标签对应的属性会表现出较高的稳定性,这种稳定性与用户长期行为形成的个人特征相匹配。
用户标签权重=行为类型权重时间衰减用户行为次数*TF-IDF计算标签权重。、
主要目标用户是市场、运营、产品、数据分析师等人员,满足其用户分析、标签查询、营销活动对接的需求。所以画像系统的设计需要考虑功能上的用户分析需求,以及非功能上的接口开发需求。
1. 功能需求
功能上可划分为:首页画像数据、标签管理、用户查询、用户分群等。
首页画像数据,展示用户数据的整体情况,包含用户的基本特征,如性别、年龄、地域、职业分布等基础信息;用户价值特征,如用户活跃度、会员等级、流失预警、用户价值RFM分布等信息。
标签管理,供数据人员提供标签的增、删、改、查等操作,包含标签分类、新建标签、标签审核、标签下线、异常标签等。
用户查询,主要能力包含通过输入用户ID,来查看用户画像等详情数据,如用户的基本信息、用户属性信息、用户行为等数据。
用户分群,应用场景主要为业务使用标签时,往往不会只使用一个标签进行推送,更多的情况下需要组合多个标签来满足业务上对人群的定义,用户分群相当于制作一个人群模版,在不同场景下做人群的推送。
定性研究—确定细分项目假说—定量研究—聚类分析—建立画像
1. 定性研究
定性研究方法
一对一访谈
现场调查——观察法,在用户最自然状态下的日常工作/生活中观察用户行为并与他们交谈
可用性测试——用的不多,主要用于观察用户如何进行日常操作
访谈与观察对象
尽可能扩大范围,选择不同人口学变量进行配比,注重广度而非深度
要获取的信息
认知:对产品的认识与了解
情感:对产品的情感喜好
态度:对产品的态度
行为:对产品操作的一般性行为
动机:使用产品的动机与目的
机会:对产品的意见与建议
2. 细分假说部分
对定性材料的最终输出
研究方法:卡片分类、头脑风暴
产出内容:通过质性分析的方式整理出一切可以进行用户分类的可能项
最终要得出所有可能进行用户分类的细分选项字段表
3. 定量数据部分
定量数据获取方式
因此我们需要针对所有这些变量进行针对性的问卷提问一些小建议:
先行为后认知,因为人们对行为做回答是容易的,对态度认知等回答是困难的
谈过去不谈将来,追溯用户过去发生的事实而不是询问用户未来发生某行为或态度的可能性
确定一个明确的时间段,过去范畴太大,需要明确近几年或近几个月,把用户带入当时场景
题目过多进行分页,给用户一个答题节奏感,避免看到茫茫多的题就放弃了
题目设置不歧义,不要出现“您现在或之前XXXX”句式,一题有且只有一个含义
答案相互独立且穷尽,不要出现两个答案差不多的情况
不要把人口学变量前置,问卷设置肯定是先易后难的,这可以通过问题本身的难度来控制,不是一上来就问人家私人信息
网站浏览数据
问卷不会穷尽你所有需要知道的信息,这里会需要一些实实在在的数据,如用户登录数、浏览历史、点击率、转出率等等埋点数据
4. 聚类分析部分
第一点:
关于收集到了上述数据需要如何操作,《用户画像很重要,那你知道是怎么画出来的吗?》这里我已经写了我当时项目的过程。很多朋友说像是来推销SPSS的,可能是因为我当时的困惑点就在于收集完了上面的数据之后我到底怎么定量出来,没有人告诉我是什么步骤,我省略了上面的一些工作,直接说了我当时最困惑的地方。对给大家带来的困扰,表示抱歉。
第二点:
我之前也说了,对于用户画像这个东西,我也是一个在探索和实践的学习者,我非常希望能有更多经验丰富的老师给我更多的指导,毕竟我上一篇文章就说过了,我觉得那一次的画像做的比较粗糙,需要学习和批评的地方还很多。
第三点:
我希望能帮助大家更清晰整个流程,如有异议,我真的随时欢迎沟通交流。
5. 最后的用户画像
定量完成后将会得到稳定的几类用户,这时需要为每一位用户建立档案卡。
借助定量后的分类数据、定性材料,为用户添加基本信息、生活习惯、上网习惯、场景!场景!场景!及需求。(一切没有场景的需求都是伪需求)
找个合适的图,起个合适的名字。
本文主要从数据产品层面来看,如何0-1建设用户画像体系。看过草帽小子之前写的埋点、指标体系文章的朋友可能已发现,画像体系搭建跟埋点、指标建设一样,正所谓万变不离其宗,就像路飞的技能看起来千变万化,其核心点都是在用橡胶能力做各种变化。数据产品的各种变化形式,其核心在于业务。