在做用户画像时,首先要认识用户画像,用户画像是根据网络中海量的用户信息抽象出的一个标签化的用户模型。 从互联网各大平台中,通过主动(爬虫)或者被动(公司留下的客户历史足迹)地收集用户信息,再经过分析和加工,就能形成一系列的用户个性化标签。就是下图这个样子的:
关于用户画像的构建csdn上有很多,但大多是在结构上和业务上做了介绍,有一些有价值的博客做了用户画像模型构建方法的深度讲解。不同的是,各种竞赛kaggle、达观题目里做了业务分析和需要的标签,需要竞赛者实现算法。
所以本文找来干货博客和竞赛者博客结合构成总的用户画像的构建。
希望大家能看完再判断自己需要哪些东西来填充自己用户画像使其越来越丰满。
用户画像的构建分为几个部分:
除了爬虫是自己主动获取的,竞争者的题目和公司业务都是已经存在的数据。我做的电影用户画像是从豆瓣爬取的,其他含有用户信息的平台也可以,比如豆瓣的特点就是用户之间有交互,可以写个人日记等等,猫眼的特点就是用户有购票记录,当然购票平台不止一个,用户也有可能去别的平台购票。注意分析平台的数据特征,想象一下自己需要构建用户什么样的标签,从而知道自己需要获取什么样的信息,还有,选择了一个平台就不要选其他的,平台之间用户具有差异性,用户特性跨平台不具有稳定性,就是说一个用户可能在这个平台喜欢买这个时间段的,因为座位比较好选,但是另一个平台可能就喜欢他的放映方式是3D或者荧幕类型比较喜欢等等。
具体得知自己需要什么样的标签可以参照二
文章一:http://www.sohu.com/a/207783340_477902 ——你在看电影,做数据的人却在“画”你——一文阅尽电影用户画像之谜
介绍了在分析数据时,为把数据做的贴合我们的需要,可以从哪些方面来考虑,比如:维度交叉分析、本底数据对比、补充口碑数据、加入时间轴。
实用性 ☆☆☆
文章二:https://blog.csdn.net/SecondLieutenant/article/details/81153565——用户画像原理、技术选型及架构实现
介绍了用户画像的体系构建和应用场景,具体包括体系分类,体系分层,大数据系统架构等
实用性 ☆☆☆☆
大体分为文本数据的处理和非文本数据的分类
竞赛一:以网上电商购物评论为例,原始的主题模型主要针对篇幅较大的文档或者评论句子的集合,学习到的主题主要针对整个产品品牌;而现实情形是,用户评论大多针围绕产品的某些特征或内容主题展开(如口味、服务、环境、性价比、交通、快递、内存、电池续航能力、原料、保质期等等,这说明相比于对产品的整体评分, 用户往往更关心产品特征),而且评论文本往往较短。
本次大赛提供脱敏后的电商评论数据。参赛队伍需要通过数据挖掘的技术和机器学习的算法,根据语句中的主题特征和情感信息来分析用户对这些主题的偏好,并以<主题,情感词>序对作为输出。
GitHub https://github.com/digfound/CCFCompetition
竞赛二:客户异常用电,线上第4名的代码。同时,他们还是搜狗比赛的二等奖。
https://github.com/AbnerYang/2016CCF-StateGrid
竞赛三:文本数据处理,可以参考搜狗用户画像竞赛,找排名靠前大神博客和github去了解算法
http://coderskychen.cn/2016/12/28/%E3%80%90%E5%B9%B2%E8%B4%A7%E5%88%86%E4%BA%AB%E3%80%912016CCF%E5%A4%A7%E6%95%B0%E6%8D%AE%E4%B8%8E%E8%AE%A1%E7%AE%97%E6%99%BA%E8%83%BD%E5%A4%A7%E8%B5%9B-%E6%90%9C%E7%8B%97%E7%94%A8%E6%88%B7%E7%94%BB%E5%83%8F%E6%8C%96%E6%8E%98/#more
——搜狗用户画像第五名,文本数据的处理和算法改进
线上第3名的TNT_000,同时也是客户用电异常行为分析比赛的二等奖。
https://github.com/AbnerYang/2016CCF-SouGou
线上第5名的The Right队伍的代码和决赛答辩PPT,而且他们还给出了数据下载地址,大赞。同一个团队的几个人分别开源了,链接如下:
https://github.com/dhdsjy/2016_CCFsougou2
https://github.com/dhdsjy/2016_CCFsougou
https://github.com/prozhuchen/2016CCF-sougou
https://github.com/coderSkyChen/2016CCF_BDCI_Sougou
复赛第14名的团队:
https://github.com/admu/CCF_sougou
在进行文本类数据挖掘时,由于在影评集中长文本往往忽略了用户的很多观点,所以我采用了句法分析的方法。
对影评长文本做单句的句法分析,先经过主语的提取,句子当中没有主语则称为隐式语句,否则是显示语句,然后再计算由否定词、程度副词、形容词构成的情感短语的得分。将提取到的主语归类到前面所分的十大类型的值域中,最终再结合统计学知识得到用户对于某一类型的观影偏好。
我参考的论文:https://www.sciencedirect.com/science/article/pii/S1567422315000629?via%3Dihub ——Discovering Chinese sentence patterns for feature-based opinion summarization
https://www.aclweb.org/anthology/C10-2090.pdf——Opinion Target Extraction in Chinese News Comments
就是语法分析,不知道有没有更好的方式,这些方式需要手动的地方太多,对于海量文本处理实在是额,望而生畏,压力山大。。。
欢迎交流
文章一:https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&mid=2247487211&idx=1&sn=848069327f8c778e42427158f20f9b36&chksm=e990eb3fdee7622915479093a8f43f61dc8772cc681498f95dbde6960f11c5ed8f75bde29a8e&scene=21#wechat_redirect
——用户画像之标签权重算法——一个用户的标签权重:tfidf、时间衰减,多个用户相关性:相关系数矩阵
文章二:http://blog.sina.com.cn/s/blog_710e9b550101aqnv.html 熵权法:指标之间的权重分析,是所有指标的哦,不针对单个用户,然后将这种权重加在每个用户的标签上,可以作为用户标签全部计算好以后给用户分类的一个方法。