文献阅读(32)ACM TIST2017-PRIS:Profession Identification in Social Media

本文是对《PRIS:Profession Identification in Social Media》一文的浅显翻译与理解,如有侵权即刻删除。

朋友们,我们在github创建了一个图学习笔记库,总结了相关文章的论文、代码和我个人的中文笔记,能够帮助大家更加便捷地找到对应论文,欢迎star~

Chinese-Reading-Notes-of-Graph-Learning

更多相关文章,请移步:文献阅读总结:网络表示学习/图学习

文章目录

  • Title
  • 总结
  • 1 定义
  • 2 基于个人信息的职业预测
  • 3 基于社区结构的结果优化
      • 3.1 网络结构质量
      • 3.2 内容质量
  • 4 复杂度分析
  • 5 实验

Title

《PRIS:Profession Identification in Social Media》

——ACM TIST2017

Author: 涂存超

总结

文章指出,在用户画像领域,社交网络中用户的职业属性往往被忽略。在对用户的职业属性进行学习时,往往还会面临如下问题:用户的信息通常为异构型,且社交网络中的无标注数据过多。为解决上述问题,文章提出了PRISM算法,通过训练一个两层分类器,对用户的职业属性进行预测。

1 定义

给出节点特征向量x_(u,r),其中u表示节点u,r表示R个信息源之一,即针对第r个信息源,节点u的特征向量。给出网络G=(U,E)及K个节点类别,对其中的任意节点,在K个类别上都有k个对应的置信度,其中置信度最高的类别就视为节点类别。

根据上述定义,文章设计了一个两步的职业预测过程:

(1)将每个用户表示成多个从不同信息源得到的特征向量,根据这些向量构建双层分类器,并使用多轮训练来结合未标注的数据,从而提高分类效果。

(2)此外,还利用职业社区的结构信息,即社交网络中的子图网络结构,来提高预测结果。

2 基于个人信息的职业预测

根据用户的个人信息,文章构建双层分类器如下:

对第一层构建基础分类器,给出一个用户u及其不同信息源的特征向量集合X_u,能够得到一个识别矩阵P_u={p_(k,r)},其中p_(k,r)表示第r个信息源对应的分类器认为用户u属于职业k的置信度。

对第二层融合基础分类器,将上述的识别矩阵P_u作为新的特征,赋予不同分类器不同权重,从而计算出最终的针对不同职业的置信度。

在实际操作中,文章爬取了新浪微博名人堂中的数据,选取了八种不同的个人信息源进行分类。对于大量未标注职业的用户,文章先对他们进行分类,对其中每个用户,其对应的分类器结果有一半以上一致(即分类为同一职业的),就可以将类别视为用户的标签,从而转化为有标注用户加入到训练数据中,重新训练分类器。如此迭代重复上述过程,直到分类器效果不再发生变化。

3 基于社区结构的结果优化

文章除考虑了用户个人信息外,还考虑了社交网络中的结构信息,假设社交网络中相同职业的用户会形成一个跟职业相关的社区。

基于社区结构的职业预测,在进行结果优化时,先得到每个职业对应的子图,再给定一个未标注职业的用户集合,优化过程的目的即将这些用户分配到正确的职业社区中。在分配的过程中,分配正确的用户会影响社区质量的变化,文章即以此为优化的参考标准。

3.1 网络结构质量

文章认为,社区质量应当分为两部分,一是网络结构质量,也就是该社区内部的节点之间连接是否紧密,与外部节点连接是否稀疏;二是内容质量,也就是该社区中的根据个人信息预测得到的用户职业是否一致。
文献阅读(32)ACM TIST2017-PRIS:Profession Identification in Social Media_第1张图片
以上内容源自文章作者涂存超的博士毕业论文,对该文章有中文描述。

3.2 内容质量

文章定义一个社区的内容质量为所有属于该职业社区的用户在该职业上的置信度的平均。
文献阅读(32)ACM TIST2017-PRIS:Profession Identification in Social Media_第2张图片
对上述公式,每个用户u针对不同职业k会得到不同值,选取值最大的职业,将用户u加入到该职业子图终,重复该过程直到所有的未标注用户被划分。

4 复杂度分析

文献阅读(32)ACM TIST2017-PRIS:Profession Identification in Social Media_第3张图片

5 实验

文章在实验部分不仅以ablation study的形式对比了单个信息源的预测结果,还对预测的职业属性进行了如性别比、职业吸引力、职业语言风格等内容的分析,值得参考。

你可能感兴趣的:(文献阅读,机器学习,深度学习)