比你更了解你，浅谈用户画像

本文一共3245字，专业人士建议阅读10-20分钟，非专业认识建议阅读20-35分钟

其它相关文章整理:https://zhuanlan.zhihu.com/p/51015148

0.序言:

紧接上一讲《什么是推荐系统(个性化内容分发)》，这一讲我们来聊聊用户画像这个话题，它也是个性化中非常重要的一环。本文与上一篇文章类似，前半部分基本以非技术论述为主，后半部分会夹杂一些技术相关的论述。

1.什么是用户画像:

1.1维基百科的定义 1.1.1 A user profile is a visual display of personal data associated with a specific user, or a customized desktop environment 1.1.2 用户画像就是与该用户相关联的数据的可视化的展现；一句话来总结就是：用户信息标签化。

1.2偏技术的定义 1.2.1 用户画像可以简单理解成是海量数据的标签，根据用户的目标、行为和观点的差异，将他们区分为不同的类型，然后每种类型中抽取出典型特征，赋予名字、照片、一些人口统计学要素、场景等描述，形成了一个人物原型 (personas)。

1.3常见用户画像维度

1.4金融产品常见评级画像的应用

1.5群体维度常见的画像–今日头条

2.为什么要做用户画像:

2.1宏观 – 构建具象认知，构建战略、战术方向:为了在核心用户上达成统一且具象的认知，方便在后续投入上有的放矢；根据用户画像的信息做产品设计，必须要清楚知道用户长什么样子，有什么行为特征和属性，这样才能为公司提出战略和战术层面的指导。

2.2宏观 – 探索用户足迹，用户(市场 )导向:详细了解我们的真实用户是如何和产品及其相关内容进行互动等；必须从业务场景出发，解决实际的业务问题，之所以进行用户画像要么是获取新用户，或者是提升用户体验，或者是挽回流失用户等，并最终为用户设计产品。

2.3微观 – 构建底层数据基础，服务上层应用:正如上篇文章所述，用户画像可以作为推荐系统(广告、搜索系统)的重要一环而存在(标签相似/特征工程等)，并会对推荐效果产生较大的提升；而正如用户画像在金融中的应用，用户画像也可以作为风控的一些规则/特征存在，来量化信用等级

2.4微观 – 方便信息的处理:有了标签后计算机可以方便地处理各个量化需求:

– 2.4.1 分类统计:某视频网站上喜欢看《欢乐颂2》的用户有多少？男女比例各是多少?

– 2.4.2 数据挖掘: 喜欢买榴莲的用户通常喜欢什么服装品牌，经常买榴莲又买辣椒的用户年龄段分布如何分享一张常见公司的广告、商品投放后台中画像的应用

总之用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。需要做到的终极形态是不同用户视角，打开同一个网站或者APP，体验完全不同

3.如何构建用户画像:

3.1目标: 构建用户静态/动态数据

– 3.1.1 静态数据-评估价值:用户相对稳定的信息，如图所示，主要包括人口属性、商业属性等方面数据；这类信息，自成标签，如果企业有真实信息则无需过多建模预测，更多的是数据清洗工作，如果某些静态信息不准或缺失则需要建模预测。

– 3.1.2 动态数据-循迹: 用户不断变化的行为信息，如果存在上帝，每一个人的行为都在时刻被上帝那双无形的眼睛监控着，广义上讲，一个用户打开网页，买了一个杯子；与该用户傍晚溜了趟狗，白天取了一次钱，打了一个哈欠等等一样都是上帝眼中的用户行为。当行为集中到互联网，乃至电商，用户行为就会聚焦很多，如上图所示：浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促”的微博消息。等等均可看作互联网用户行为。

3.2形态: 标签与权重: 用户画像的最终形态是通过分析用户行为，最终为每个用户打上标签，以及该标签的权重。如:NIKE 0.8、iphone 0.6；

– 3.2.1 标签：表征了内容，用户对该内容有兴趣、偏好、需求等等。

– 3.2.2 权重：表征了指数，用户的兴趣、偏好指数，也可能表征用户的需求度，可以简单的理解为可信度，概率。

3.3数据建模方法: 标签=用户标识 + 时间 + 行为类型 + 接触点（网址+内容）的聚合，某用户因为在什么时间、地点、做了什么事，所以会打上**标签

– 3.3.1 事件模型: 主要通过收集用户行为，并结合上下文构建事件模型，主要为5w(who、when、where、what、which);who:通过唯一的用户标识来锁定某个人(用户名、手机号、qq、微信、cookie等)；when:主要收集时间因素；where:主要收集地理位置因素；what:主要收集交互的商品/内容的标识，最终标签基本出自于对what的具象或者抽象；which:标识用户什么行为，比如点击、浏览、购买、观看。

– 3.3.2 整体思考建模: 用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型、网址决定了权重，内容决定了标签，进一步转换为公式：标签权重=衰减因子×行为权重

– 3.3.3 举个栗子: 如：用户A，昨天在天猫nike官网浏览了一双价值699元的nike运动鞋，前天在天猫超市购买了一个价值为50元的杯子。标签：nike，运动鞋，口红时间：因为是昨天的行为，假设衰减因子为：r=0.9(不妨这里衰减简单地选取为每天下降为前一天的0.9，具体衰减可以通过数据分析得到，一般为指数级衰减) 行为类型：浏览行为记为权重0.5，购买行为记为权重1 地点：nike官网权重为0.8，天猫超市权重为0.4(因为天猫超市品类更泛，所以权重相对于nike专业运动品牌商要小)

则用户偏好标签是：杯子，权重是0.9 * 1*0.4=0.36；nike、运动鞋，权重是0.9*0.9*0.5*0.8 =0.324 即，用户Ａ：杯子 0.36、nike 0.324，运动鞋：0.324。上述模型权重值的选取只是举例参考，具体的权重值需要根据业务需求二次建模，具体的建模流程也需要进一步梳理，这里强调的是如何从整体思考，去构建用户画像模型，进而能够逐步细化模型。

以上未涉及具体算法，更多的是阐述了一种分析思想，在计划构建用户画像时，能够给您提供一个系统性、框架性的思维指导。核心在于对用户接触点的理解，接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减，决定了权重模型是关键，权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商，但其实，可以根据产品的不同，重新定义接触点。最后，接触点本身并不一定有内容，也可以泛化理解为某种阈值，某个行为超过多少次，达到多长时间等。

4.算法路线及常用算法模型:

5.算法处理到评估流程图:

6.算法架构图:

7.标签层级:

8.下一讲我们将介绍机器学习和数据挖掘相关的内容，上个图

想对推荐算法、用户画像有进一步的了解的可以移步我的知乎live

《推荐算法那点事》:知乎 Live - 全新的实时问答

《推荐算法那点事（二）：细节》:知乎 Live - 全新的实时问答

比你更了解你，浅谈用户画像

你可能感兴趣的:(比你更了解你，浅谈用户画像)