比你更了解你,浅谈用户画像

本文一共3245字,专业人士建议阅读10-20分钟,非专业认识建议阅读20-35分钟

其它相关文章整理:https://zhuanlan.zhihu.com/p/51015148

0.序言:

紧接上一讲《什么是推荐系统(个性化内容分发)》,这一讲我们来聊聊用户画像这个话题,它也是个性化中非常重要的一环。本文与上一篇文章类似,前半部分基本以非技术论述为主,后半部分会夹杂一些技术相关的论述。

1.什么是用户画像:

1.1维基百科的定义 1.1.1 A user profile is a visual display of personal data associated with a specific user, or a customized desktop environment 1.1.2 用户画像就是与该用户相关联的数据的可视化的展现;一句话来总结就是:用户信息标签化。

1.2偏技术的定义 1.2.1 用户画像可以简单理解成是海量数据的标签,根据用户的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,形成了一个人物原型 (personas)。

1.3常见用户画像维度

1.4金融产品常见评级画像的应用

1.5群体维度常见的画像–今日头条

2.为什么要做用户画像:

2.1宏观 – 构建具象认知,构建战略、战术方向:为了在核心用户上达成统一且具象的认知,方便在后续投入上有的放矢;根据用户画像的信息做产品设计,必须要清楚知道用户长什么样子,有什么行为特征和属性,这样才能为公司提出战略和战术层面的指导。

2.2宏观 – 探索用户足迹,用户(市场 )导向:详细了解我们的真实用户是如何和产品及其相关内容进行互动等;必须从业务场景出发,解决实际的业务问题,之所以进行用户画像要么是获取新用户,或者是提升用户体验,或者是挽回流失用户等,并最终为用户设计产品。

2.3微观 – 构建底层数据基础,服务上层应用:正如上篇文章所述,用户画像可以作为推荐系统(广告、搜索系统)的重要一环而存在(标签相似/特征工程等),并会对推荐效果产生较大的提升;而正如用户画像在金融中的应用,用户画像也可以作为风控的一些规则/特征存在,来量化信用等级

2.4微观 – 方便信息的处理:有了标签后计算机可以方便地处理各个量化需求:

– 2.4.1 分类统计:某视频网站上喜欢看《欢乐颂2》的用户有多少 ?男女比例各是多少?

– 2.4.2 数据挖掘: 喜欢买榴莲的用户通常喜欢什么服装品牌,经常买榴莲又买辣椒的用户年龄段分布如何 分享一张常见公司的广告、商品投放后台中画像的应用

总之用户画像(UserProfile),完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。需要做到的终极形态是不同用户视角,打开同一个网站或者APP,体验完全不同

3.如何构建用户画像:

3.1目标: 构建用户静态/动态数据

– 3.1.1 静态数据-评估价值:用户相对稳定的信息,如图所示,主要包括人口属性、商业属性等方面数据;这类信息,自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据清洗工作,如果某些静态信息不准或缺失则需要建模预测。

– 3.1.2 动态数据-循迹: 用户不断变化的行为信息,如果存在上帝,每一个人的行为都在时刻被上帝那双无形的眼睛监控着,广义上讲,一个用户打开网页,买了一个杯子;与该用户傍晚溜了趟狗,白天取了一次钱,打了一个哈欠等等一样都是上帝眼中的用户行为。当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促”的微博消息。等等均可看作互联网用户行为。

3.2形态: 标签与权重: 用户画像的最终形态是通过分析用户行为,最终为每个用户打上标签,以及该标签的权重。如:NIKE 0.8、iphone 0.6;

– 3.2.1 标签:表征了内容,用户对该内容有兴趣、偏好、需求等等。

– 3.2.2 权重:表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度,概率。

3.3数据建模方法: 标签=用户标识 + 时间 + 行为类型 + 接触点(网址+内容)的聚合,某用户因为在什么时间、地点、做了什么事,所以会打上**标签

– 3.3.1 事件模型: 主要通过收集用户行为,并结合上下文构建事件模型,主要为5w(who、when、where、what、which);who:通过唯一的用户标识来锁定某个人(用户名、手机号、qq、微信、cookie等);when:主要收集时间因素;where:主要收集地理位置因素;what:主要收集交互的商品/内容的标识,最终标签基本出自于对what的具象或者抽象;which:标识用户什么行为,比如点击、浏览、购买、观看。

– 3.3.2 整体思考建模: 用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:标签权重=衰减因子×行为权重

– 3.3.3 举个栗子: 如:用户A,昨天在天猫nike官网浏览了一双价值699元的nike运动鞋,前天在天猫超市购买了一个价值为50元的杯子。    标签:nike,运动鞋,口红    时间:因为是昨天的行为,假设衰减因子为:r=0.9(不妨这里衰减简单地选取为每天下降为前一天的0.9,具体衰减可以通过数据分析得到,一般为指数级衰减)    行为类型:浏览行为记为权重0.5,购买行为记为权重1    地点:nike官网权重为0.8,天猫超市权重为0.4(因为天猫超市品类更泛,所以权重相对于nike专业运动品牌商要小)

则用户偏好标签是:杯子,权重是0.9 * 1*0.4=0.36;nike、运动鞋,权重是0.9*0.9*0.5*0.8 =0.324 即,用户A:杯子 0.36、nike 0.324,运动鞋:0.324。 上述模型权重值的选取只是举例参考,具体的权重值需要根据业务需求二次建模,具体的建模流程也需要进一步梳理,这里强调的是如何从整体思考,去构建用户画像模型,进而能够逐步细化模型。

以上未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。核心在于对用户接触点的理解,接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商,但其实,可以根据产品的不同,重新定义接触点。 最后,接触点本身并不一定有内容,也可以泛化理解为某种阈值,某个行为超过多少次,达到多长时间等。

4.算法路线及常用算法模型:

5.算法处理到评估流程图:

6.算法架构图:

7.标签层级:

8.下一讲我们将介绍机器学习和数据挖掘相关的内容,上个图

想对推荐算法、用户画像有进一步的了解的可以移步我的知乎live

《 推荐算法那点事》:知乎 Live - 全新的实时问答

《 推荐算法那点事(二):细节 》:知乎 Live - 全新的实时问答

你可能感兴趣的:(比你更了解你,浅谈用户画像)