用户标签中候选标签的构建
摘要:本文介绍了在用户标签构建过程中,如何提取候选标签。从TFIDF模型原理出发,引申到基于该模型在用户标签提取场景中的应用。并以覆盖率为基准,分别对基于TFIDF模型、贪心法和贪婪法三种模型的候选标签提取方法进行对比评估。
1 研究意义
近年来,社交网络作为新型的互联网应用,受到了越来越多人的关注。以新浪微博为例,关注一个用户,无论这个用户是你认识的人、还是明星大腕、 或者领域牛人,一旦该用户发布了微博,你都可以立刻在你的微博 Timeline 中浏览到这条微博。随着关注好友的增加,使得每天获得的信息流的大大增加,浏览微博的负担也随之增大。因此,“信息过载”问题随之出现。
面对“信息过载”问题,我们希望从微博信息流中挑选出用户真正感兴趣的微博,也就是微博个性化推荐。
个性化关键问题往往就是根据用户兴趣、身份准确的建立模型,而用户标签由于来自用户自身,往往能够准确的描述用户的兴趣和身份属性,是构建用户兴趣模型、兴趣图谱的重要资源,因此,本课题有助于微博个性化推荐、建立用户兴趣模型等研究。
通过用户标签,微博平台可以更好地理解用户的行为和用户的兴趣,为用户量身定做或推荐用户感兴趣的潜在信息,进行精确广告推荐, 提升产品的用户体验。
因此,本课题是具有研究和应用前景的,我们尝试识别用户身份属性、 兴趣属性,并自动生成用户标签。
2 标签来源
用户的自标签是一个很好描述用户本身兴趣属性和身份属性的概括性词语,而用户的兴趣属性和身份属性恰恰是导致他人关注的原因,因此从关注好友自标签中挑选标签来描述用户的兴趣和身份是一个很好的选择。
本文涉及的候选标签提取是建立在自标签的前提下进行的。即,对用户P,我们要得到他的标签,需要从他所关注的用户的自标签列表中获取P用户的标签。
3 关键词自动标注
主要有两种方式:
- 关键词抽取,即从文档内容提取关键词;
关键词抽取主要分为两步,候选关键词选取和候选集合中关键词的选取。- 候选关键词选取:从文档中提取关键词的难点在于如何确定候选关键词的词边界,目前多通过度量内部紧密程度[4]来判断N元词串是否为一个具有独立语义的短语,一般 方法有 t-测试5,卡方测试[6]等。也有研究者使用符合某种词模式[7]的词组进行关键词候选挖掘,如形容词加名词。
- 候选集合中关键词的选取一般有两种途径解决:
- 一种是无监督方法,根据候选关键词的统计性质进行排序,如TFIDF[8]等,挑选最高的 K 个作为关键词;
- 另外一种是有监督方法[2,9],将提取关键词问题看作是二元分类问题, 即判断一个后续关键词是否可以作为关键词,解决这个问题需要大量已标注关键词的文档训练分类模型。无监督方法不需要大量人工标注文档,较有监督模型更快捷,但由于无法利用多种信息对候选关键词排序,所以效果较有监督效果差。面对海量的迅速增长的网络文本,大量进行人工标注显然是不现实的,所以关键词近期的研究主要集中在无监督方法上,其中基于图的关键词提取方法TextRank[10]取得了较之前有监督方法更好的效果。
- 关键词分配,利用预先构建的受控词表,从中选取若干作为文档的关键词
关键词分配的方法主要包括两方面:
一是构建受控词表
二是设计关键词分配算法。目前通常通过网络信息进行词典构建[11-13],借助若干领域相关词汇作为种子,准确快速的获取相关领域新词。关键词分配算法一般采取半监督学习方法,优点可以综合利用少量标注数据和大量无标注数据
4 基于 TFIDF 模型提取候选标签
基于TFIDF模型来提取候选标签能解决的问题是:如果我们要为用户p设计用户标签,我们可以通过用户p关注的人的自标签中获得灵感。因此它是从已有的自标签中,选择符合用户p的标签。
4.1 TFIDF 原理
term frequency–inverse document frequency
TFIDF是信息检索领域中经典的用于计算词权重的公式,用以衡量一个词对于一篇文档的重要性,常用于词袋模型。
TF:词频率,即一个词在文档中出现的次数
IDF:词逆文档频率,通常我们认为一个词在越少的文档中出现,那么该词的区分文档能力越强
\begin{equation}
tfidf(t,d)=tf(t,d)*idf(t)
\end{equation}
其中tf(t,d)表示词频率
\begin{equation}
tf(t,d)=log(f_{t,d} + 1)
\end{equation}
其中,\(f_{t,d}\)表示词t在文档d中出现次数
\begin{equation}
idf(t,D)=\log \frac{|D|}{|\{d \in D:t \in d\}|}
\end{equation}
其中,idf(t)表示逆文档频率,D表示文档集合,|{d∈D:t∈d}|用以计算文档集|D|包含词t的不同文档数
4.2 将TFIDF模型用于标签候选
在进行标签候选选取的过程中,如果一个标签在你关注的用户自标签集合中出现的频率TF高,并且在其他用户的自标签中很少出现,我们就认为这个标签具有较高的重要度,很有可能与你有关。例如对于一个计算专业研究领域为信息检索方向的研究生来讲,在他关注的用户里面,可能有很多信息检索领域的牛人和同学,这些同学和牛人的自标签集合中信息检索、自然语言处理、机器学习等标签出现的频率可能较高,但是信息检索、自然语言 处理、机器学习作为比较专业的领域,微博用户中只有很少一部分用户可能 和这些用户相关,通过TFIDF模型我们很有可能为该同学筛选出信息检索、自然语言处理、机器学习这样的标签。而对于电影、音乐这样的大众爱好来讲,虽然描述它们的标签出现在该同学的关注用户里面的频率也可能很高, 但是由于几乎人人喜欢看电影、听音乐,我们认为这样标签的重要程度不如那些出现在小部分群体中的标签。
对于一个用户来讲一个标签的重要程度tagtfidf可以表示为
\begin{equation}
tagtfidf_{p,t}=tagtf_{p,t}*tagidf_t
\end{equation}
其中
\begin{equation}
tagtf_{p,t}=\log{f_{p,t}}
\end{equation}
\begin{equation}
tagidf_t=\log \frac{N}{N_t}
\end{equation}
其中
\(f_{p,t}\): 用户p关注好友自标签集合中标签t出现的次数
\(N\): 全局用户人数
\(N_t\): 全局用户自标签集合中标签t出现的次数
5 基于集合覆盖近似算法提取标签候选
类似于基于TFIDF模型提取候选标签,该小结解决的问题也是从自标签集合中自动生成用户的标签,但是从集合覆盖问题的角度下进行建模。
由于标签候选取问题可以转化为集合求解覆盖最优化问题,因此标签候选选取问题是NP问题,对于这类问题的解决一般尝试使用近似算法去解决,论文中分别运用了贪心法和贪婪法解决这个问题。
5.1 贪心法:
每次从候选标签集选择覆盖用户关注好友最多的标签, 然后从候选标签集合中移除该标签,直到获得K个标签。
5.2 贪婪法:
给定用户p,用户p 关注好友集合\(S = \{1,... ,m\}\), 每个关注好友的自标签集合\(tagSet_i\), \(i\in S\),全部好友自标签集合\(selectTagSet = U_{i\in S}tagSet_i\),需要挑选K个标签作为用户p标签候选集,算法如图下:
对于任何C ⊆ selectTagSet, 给出定义
f(C) = |{i: i ∈ S and tagSeti ∩ C != φ}|
Greedy Set-cover Algorithm for SelectTag
- Input: p, S, {tagSeti ∶ i ∈ S}, selectTagSet, K
- C←φ
- While f(C)<|U| and |C|
- Choose t ∈ selectTagSet to maximize f(C ∪ {t})
- and Set C ← C ∪ {t};
- Output C
6 评估标准
覆盖率(cover precision),表示至少有一个自标签属于推荐标签集合的关注好友占关注好友群体的比例,那么覆盖率可以通过公式计算:
\(cover\ precision=\frac{|{i:\ i∈S\ and\ tagSet_i\ ∩\ C \ !=\ \phi}|}{|S|}\)
其中S表示关注好友集合,\(tagSet_i\), \(i ∈ S\)表示关注好友的自标签,C推荐标签集合。
7 总结
三种方法的评估结果:
- TFIDF 方法直接用于标签推荐时在标签与用户相关性方面优于贪心法和贪婪法
- 从覆盖率来看,贪婪法要优于贪心法和TFIDF方法,倾向于更加全面的覆盖用户的兴趣
但是考虑到用户自标签数据的不完整性,使得覆盖率在挑选标签候选方法时仅可以提供参考价值,我们认为当候选覆盖集达到一定界限时,就可以较全面的覆盖用户的兴趣和身份属性,因此,在选择标签候选选取方法时,我们倾向TFIDF方法和贪心方法。
实验参数设置经验:候选标签集的大小设定于 40-50之间,cover precision(k)(当候选标签集合大小为k时, 覆盖关注好友的比例。)超过70%。
8 参考文献
[1] 唐风.Twitter 注册用户量超 5 亿:仅次于 Facebook[EB/OL]. [2012-07-31]. http://tech.sina.com.cn/i/m/2012-07-31/00387445367.shtml.
[2] Turney P D. Learning Algorithms for Keyphrase Extraction. Information Retrieval, 2000,2(4):303–336.
[3] 刘知远. 基于文档主题结构的关键词抽取方法研究[D]. 清华大学.2011:6-7.
[4] Manning C D, Schjtze H. Foundations of statistical natural language
processing. Cambridge,MA, USA: MIT Press, 1999.
[5] Church K W, Hanks P. Word association norms, mutual information, and
lexicography. ComputationalLinguistics, 1990, 16(1):22–29. 89095
[6] Church K, Gale W, Hanks P, et al. Using Statistics in Lexical Analysis. Lexical
acquisition:exploiting on-line resources to build a lexicon, 1991. 115–164.
[7] Hulth A. Improved Automatic Keyword Extraction Given More Linguistic
Knowledge. ProceedingsofEMNLP, 2003. 216–223.
[8] Manning C, Raghavan P, Schtze H. Introduction to information retrieval. New
York, NY, USA:Cambridge University Press, 2008.
[9] Frank E, Paynter G W, Witten I H, et al. Domain-specific Keyphrase
Extraction. Proceedingsof IJCAI, 1999. 668–673.
[10] Mihalcea R, Tarau P. TextRank: Bringing Order into Texts. Proceedings of
EMNLP, 2004.404–411.
[11] Eisenstein J, O’Connor B, Smith N A, et al. A latent variable model for
geographic lexicalvariation. Proceedings of EMNLP, 2010. 1277–1287.
[12] Wang R C, Cohen W W. Language-Independent Set Expansion of Named
Entities Using theWeb. Proceedings of ICDM, 2007. 342–350.
[13] Wang R C, CohenWW. Iterative Set Expansion of Named Entities Using
theWeb. Proceedingsof ICDM, 2008. 1091–1096.
[14] Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering
recommendationalgorithms. Proceedings of WWW, 2001. 285–295.
[15] Page L, Brin S, Motwani R, et al. The pagerank citation ranking: Bringing order to the web. Technical report of Stanford Digital Library Technologies
Project, 1998..
[16] 陆子龙. 社交网络中的用户标签推荐[D].哈尔滨工业大学,2013.