口味提取研究

首先定义广义的“标签”:用户输入、选择单个词组,以及他们在交互过程中提供的全部具有单词性质的词组信息。

 

以QQ为例子来阐述广义标签的概念。在QQ好友印象 中,每个好友都有一组描述标签,这可以构成QQ用户的广义标签的一部分。我们还可以对用户的全部签名档 进行分词,提取出各种关键词,那么这些关键词也构成了QQ用户的广义标签的一部分。我们还可以获得QQ用户的拍拍 信息,他拍过的商品名称、浏览过的商品名称,同样可以成为该QQ用户广义标签的一部分。依次类推,QQ用户的QQ音乐信息、QQ农场信息、QQ群信息等等,只要能够提取出关键词,都可以作为该QQ用户广义标签的一部分。各个部分的标签集合起来,就成为了该QQ用户的广义标签集合。

 

标签在SNS网站的建设中可以发挥重大作用。目前重点研究的领域是利用标签对用户进行聚类, 或者说是开发基于用户口味的推荐功能 。通过分析用户标签之间的相似度,可以帮助用户找到和他口味相似的人。例如,在对新浪微博的标签研究中 ,利用简单的机械匹配,我们找到了若干组口味相似的人。这个研究是不完整的,它只为部分人找到了口味很相似的朋友。对于一个完整的系统,我们需要为每个用户都找到口味相似的人。导致不完整的原因,可能有两个:(1)样本不够大 (2)采用的匹配方式过于机械。 对于(1),可以通过扩大样本数量来尝试解决。 对于(2),目前正在研究,计划的方向是引入同义词、近义词模式,例如这篇文章中提出的问题 。下面详述近义词匹配的思路。

 

1. 我们已经有的工具:《同义词词林》 ,里面给出了数万个同义词,为我们的研究打下了基础。但是词林是80年代中期编纂的,很多网络词汇尚未收录,可能对最终效果有一定影响。不过该问题暂时可以忽略,如果效果不佳,再考虑扩展词林等优化。

 

2. 收集TAG。在研究阶段,主要以新浪微博的Tag为主。这里提供了我已经收集的几百个用户的Tag 。

 

3. 根据Tag分析用户间相关度。

     i. 机械匹配法

    ii. 先转化成近义词,然后再匹配。例如,在机械匹配法中“唱歌”和“K歌”是两个不相关的词,但是在本方法中,可以转化成同一类词汇。

 

 

最终的效果:

   对全部用户进行聚类,将相关人员按群输出。 同一个用户可以出现在多个群中。

 

如果实现了上述效果,在SNS中就可以实现基于口味的好友推荐了 :-)

 

 

你可能感兴趣的:(优化,新浪微博,qq,扩展,音乐,SNS)