一、什么是用户画像
关于用户画像的定义,不得不提的就是 Alan Cooper 提出的 persona 概念:
建立在一系列真实数据之上的目标用户模型。通过用户调研去了解用户,根据他们的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,就形成了一个人物原型。
其实用户画像就是为了方便我们具体地、标签化地、有针对性地描述用户特征,并以此作为市场分析、商业决策、精准营销的依据。
通常,我们对用户进行标签化之后会得到一些精准的描述,比如:
25岁左右的男性,本科学历,互联网工程师,长期定居一、二线城市,经常关注数码产品,喜欢玩游戏。
这就是一个超级简单的用户画像,当然这个可以表示一个用户,也可以用来描述一个群体。像这样的标签我们可以有很多类型:
性别
年龄
学历
职业
收入
居住地
兴趣爱好
浏览习惯
交际圈子
……
当然这里面的大部分标签都是静态的,也就是在一定的时间范围内,几乎是不会变化的,比如性别、年龄、学历、职业、收入、居住地、兴趣爱好等等,而像浏览习惯、用户行为等等信息则会在不同时间都产生不同的分布。
静态的标签很多时候是通过用户的注册信息直接获得的,比如我们一般在注册用户信息、填写个人资料的时候都会填写性别、出生年月、学历、职业之类的信息。
而动态标签是一般是基于用户真实的产品使用行为,对于一款产品,一个用户(一类用户)使用的频率是怎么样的,他在使用哪些功能,时间是多少……从这些行为记录信息中,我们可以得到一些非标签化,但非常具体且很有用的数据。
二、用户画像有什么作用
在互联网的早期,用户画像就是记录一些用户的基本信息,多数都是通过用户自己输入的静态数据。因为数据量和技术的限制,也没有那么多高大上的用法。
数据分析
数据量大了之后,对于平台来说,如何去有效地定义用户,高效地对用户进行描述就成了一个问题。然后大家发现,打标签是最有效的方式,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如,可以做分类统计:来自一、二、三线城市的用户分别有多少?喜欢篮球的有多少?单身有多少?有了这些标签,就可以做一些基本的数据分析了。
产品定位
再设计商业项目或者新产品之前,我们都会对用户和市场做一个系统的分析。我们的产品/服务面向的用户是哪一个群体,年龄范围是什么?有无性别区分?收入水平是什么样的?对我们产品涉及的领域的消费观念是怎么样?前期不论是粗犷的定位还是精细化地调研,其实都是在手动做这些打标签、建立用户画像的动作。
精准推广/用户拉新
通过打标签的这种形式,能够让平台对用户有基本的了解,知道哪部分人是自己的主流用户。比如技能学习平台,主流用户是大学高年级学生以及初入职场的年轻人;比如运动内容平台的主流用户可能是16-30岁之间,一、二线城市的男性……有了这些用户画像之后,平台可以精准地去寻找渠道,使广告效益最大化。
个性化服务
用户产生的数据越来越多,平台提供的内容、服务也越来越多,如何针对不同用户提供不同的内容,降低用户筛选内容、服务的成本?这就是做数据挖掘工作:喜欢运动的男性通常会购买哪些商品?经常关注数码产品的人可以推荐哪些内容?A用户和B用户的标签非常相似,A购买的哪些商品是可以推荐给B的?这就有点我们经常说的精细化运营和推荐系统的味道了。
大数据处理,离不开计算机的运算,标签(用户画像)提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够“理解” 人。当计算机具备这样的能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。
三、如何建立用户画像
1.数据源的准备与分析
对于现在的互联网产品来说,基本上都是有现成的用户数据,那其实需要做的事情就是将这些数据进行结构化和清洗,去除噪音和不规整的数据,为后续的建模做好准备。
那如果是产品为成型或者用户量特别少怎么办呢?这个没有特别好的办法,数据仍然是一个重要的武器。当然有一些公开的数据,或者可以付费获取的行业用户数据也是可以利用的资源。也可以进行一些实际的用户调研(可以外包),获取用户调研的数据。
如上所述,数据源可以划分为静态数据和动态数据,这里需要提一点的是,为了用户画像更好地建立,在建立用户信息的时候就要规划好,也可以尝试利用一些激励机制来刺激用户完善信息。当然动态数据的埋点也要做好,页面访问、浏览行为、消费行为、点击行为等数据尽量完善,这样在需要的时候可以获得足够的数据。
2.用户分类
通过对用户静态数据的分析,可以进行基本的用户分类,比如男、女用户,城市分布、年龄段划分、用户来源划分、收入水平划分、职业化分等。
静态数据获取后,需要对人群进行因子和聚类分析,不同的目的分类依据不同:如对于产品设计来说,按照使用动机或使用行为划分是最为常见的方式,而对于营销类媒体来说,依据消费形态来区分人群是最为直接的分类方式。
3.用户标签的定义与权重
有了静态和动态的数据之后,我们就要为每个用户打上标签,以及该标签的权重。
标签,表征了内容,用户对该产品或者服务有兴趣、偏好、需求等等。
权重,表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度。
最后我们得到的最终标签可能是:
小明:游戏 0.8;运动 0.6;音乐 0.5;读书 0.3……
小王:游戏 0.3;运动 0.3;音乐 0.8;读书 0.5……
聚聚:游戏 0.1;运动 0.5;音乐 0.6;读书0.8……
权重如何来定义呢?其实这个需要一定的经验,如果你对用户或者行业大致情况比较了解,那么可以通过经验来进行定义。当然也可以请领域的专家来帮忙进行。
当然这个权重可能就不是一成不变的,每个用户的阶段性变化以及整个用户市场的变化都是有可能对权重的定义产生影响,这个可以在后期不断优化。
根据特征值对群体进行定义,有助于一目了然掌握该群体的特性,如“时尚潮人”,“运动达人”可以快速的联想到针对这类人,同时有利于具象化地去寻找这类潜在用户。
4.数据建模
完成前面3个步骤,其实已经可以做很多落地的事情了,笔记用户行为分析,广告的精准投放,产品服务的更新迭代,简单的内容推荐等等。
但是这个离精准推荐、精细化运营还有一些距离。如何根据用户行为,来自动为用户添加标签、设置权重,如何通过用户行为对不同用户进行相似性衡量,如何通过相似性度量进行针对性的推荐,这些可能是用户数据量达到一定规模之后需要考虑的事情。
目前比较常用的协同过滤的推荐思想,就是在对用户的行为数据进行定量化分析和相似性度量之后,自出的自动化决策。
当然并不是只有推荐系统,精准化的分析和决策、个性化的管理、甚至自动化的运营都是建立在这个基础之上。
当然,用户画像的事情,如何做,还是要根据自己的产品,和行业的经验进行针对性地搭建,并在此基础上根据运营情况迭代和优化,并没有一个可以适用于任何产品的通用框架。当然别人的经验是可以借鉴的,这也可以少走很多弯路,之前在DC学院看到过一个比较系统讲解用户画像(包括如何筛选数据源,定义、寻找特征,通过聚类和分类的算法进行预测和具体如何去实施)的小课,强烈推荐: 基于用户画像的精准营销。