Weakly supervised profile extraction from twitter

从twitter 中提取用户信息的论文

第一遍阅读

1.1 论文类型

  这篇论文的应用性很强

1.2 论文领域

  1. weakly supervised learning利用ground truth information作为监督学习的标签。这种做法能够避免对大量标注数据的需求。

  2. relation extraction从文本中提取三元关系。例如employ(person a,person b)等等。

1.3 假设正确性讨论

  1.社交网络属性:拥有相似兴趣爱好或者背景的人容易成为朋友。

  2.文本特征:twitter 的文本中包含这关于人物属性的一些内容。

1.4 主要贡献

  1.将人物属性提取从一元属性(unary property)扩展到多元属性,并且将问题顺势从分类问题转化成了关系提取的问题。

  2.结合社交网络和文本特征两大特征进行预测。

  3.对于任意一个待确定的人物属性(spouse,education,job)都至少有一条twitter 能够体现出来。(黑人问号脸????)


第二遍阅读

第二遍阅读关注论文模型

  这是一篇写于2014年的论文,很明显采用的是机器学习的方法,用的是基于概率的学习思路。一言以蔽之,就是求联合概率分布,用极大似然估计进行参数估计。文章利用了两部分的数据:twitter的文本特征和社交网络的网络特征。从这两个数据中提取出相应的特征,然后根据做出的假设(这里没啥假设,就是线性求和)计算能量函数,最后利用能量函数构造概率表达式。

Weakly supervised profile extraction from twitter_第1张图片
极大似然估计

  值得一提的是,由于现实中社交网络数据并不一定容易获取,所以在模型训练好之后进行预测的阶段需要分情况讨论,如果是有社交网络的数据那自不必说,直接预测即可;如果没有,就只根据文本特征先预测,然后利用残存的社交网络信息进行迭代微调,直到收敛为止。

第三遍阅读

3.1 数据准备

3.2 评价标准

3.3 Baseline

3.4 实验结果


总结和收获

你可能感兴趣的:(Weakly supervised profile extraction from twitter)