【用户画像学习笔记】——社交网络平台的用户画像介绍

社交网络平台的用户画像介绍

    • 用户画像介绍
    • 研究进展
    • 主要的研究内容
    • 总结

整理了用户画像的基本工作,内容比较浅,未来还待补充。

用户画像介绍

用户画像,即根据产品使用者的属性、偏好、行为等用户信息提取出用户标签的模型。

用户画像应用

在互联网、电商领域,用户画像通常作为精准营销、推荐系统的基础工作,应用类别包括1

  1. 精准营销:根据历史用户特征,分析产品的潜在用户和用户的潜在需求。
  2. 用户统计:根据用户的不同特征,统计不同用户的分布情况。
  3. 数据挖掘:根据用户在产品上做出的行为选择,构建推荐系统、广告投放系统。
  4. 产品优化:从用户历史信息分析用户使用产品的特性,从而优化产品。
  5. 行业报告:了解行业动态,预测行业未来发展方向。

基于社交网络的用户画像

社交网络平台,如国内的新浪微博,国外的Twitter、Facebook等,分别有着上亿的活跃用户,对社交网络上用户进行用户画像分析可以挖掘用户的潜在特征,不同用户群体语言使用上的区别,以及提取用户偏好标签等等。【用户画像学习笔记】——社交网络平台的用户画像介绍_第1张图片用户数据

在社交网络中,用户产生的数据主要分类以下几类:

  1. 人口属性信息:包括用户在注册账号时填写的如“性别”、“年龄”、“地域”等基本人口属性;
  2. 生成文本:包括用户撰写的个人简介、发表的博文、博客、推文,以及评论等文本信息;
  3. 行为数据:用户在浏览网页、收藏、转发、点赞过程中产生的行为记录;
  4. 社交数据:包括用户在社交网络所关注的用户、自己的粉丝等信息。

用户画像任务

用户画像的任务就是对用户生产的各类数据进行分类预测,生成用户属性标签。整体任务可以理解为一个分类任务。如性别的二分类、年龄阶段的多分类等等。
【用户画像学习笔记】——社交网络平台的用户画像介绍_第2张图片

研究进展

分享几篇用户画像方面的代表性文章:

  1. 《Classifying Latent User Attributes in Twitter》(Rao et al., 2010),正式在twitter上进行性别、年龄、地域、政治倾向性的标签预测,此后的用户画像任务也集中在这四个属性上;
  2. 《Homophily and Latent Attribute Inference-- Inferring Latent Attributes of Twitter Users from Neighbors》(Zamal et al., 2012),通过互相关注的用户信息来预测中心节点用户的属性;
  3. 《An analysis of the user occupational class through Twitter content》,(Preoțiuc et al., 2015),里面提出的W2V-C文本表示方法在以后经常使用,另,Preoțiuc是社交媒体用户研究的大牛,每年都有多篇论文被顶会收录;
  4. 《Joint learning on relevant user attributes in micro-blog》(Wang et al., 2017),用户的属性间往往有相互联系,本文使用用户其它属性的预测输出,拼接到另一属性预测任务的中间层作为辅助预测;
  5. 《User-Level Race and Ethnicity Predictors from Twitter Text》(Preoțiuc et al., 2018),预测了用户的人种属性,这个属性分类比较新;
  6. 《Cross-media User Profilingwith Joint Textual and Social User Embedding》(Wang et al., 2018),通过用户跨平台的信息,为用户同时发表在多平台上的词做向量化表示;
  7. 《Predicting Human Activities from User-Generated Content》(Wilson et al., 2019),使用用户生成文本来预测用户的未来行为,为用户行为划分了类别。对于用户行为的分类这个点比较新颖,还是比较有研究价值的;
  8. 《Twitter Homophily Network Based Prediction of User’s Occupation》(Pan et al., 2019),考虑了社交网络的特性,相同属性的人会相互关注,用network embedding表达网络特征,使用图神经网络进行了用户职业的分类预测,用到的技术算是用户画像里比较新的了。

主要的研究内容

用户画像任务里主要关心的是3个点:

  1. 数据集获取:一般通过问卷调查,或是使用各个社交媒体提供的API来获取用户数据;
  2. 特征表示:包括文本特征表示,以及网络特征表示
    文本特征表示包括:one-hot, NPMI, W2V, D2V, BOW等等;
    网络特征表示包括:Deep Walk, node2vec, LINE等等。
  3. 分类模型:一般使用的是传统的机器学习分类器,如SVM、RL。随着人们越来越多的考虑网络特征对社交网络用户的分类影响,基于图的分类模型也开始被使用,如GCN。在一些用户画像比赛中,有经验的队伍为了使预测结果准确率更高会也使用集成模型。

总结

用户画像任务是一个通过用户生成数据来预测用户属性标签的分类任务,比起其他研究方向,用户画像更多的是在做一个从收集数据、处理数据、预测数据的一个完整的工程,需要从整体考虑,在每个环节采用合适的处理方法。


  1. https://blog.csdn.net/zzhhoubin/article/details/79727130用户画像总结 ↩︎

你可能感兴趣的:(用户画像)