The University of Amsterdam (ILPS) at TREC 2013 Microblog Track

思路:输入查询item,官方根据狄利克雷模型输出查询结果,从这些查询结果中选取部分(1000个)重新排序,然后返回给用户。

生成查询(两个阶段)
第一个阶段:确定item,方法:标签(判断是否为短语查询) 维基title(查看是否有item在维基有词条) leftover(不在维基title里边的item)
第二个阶段:根据上边得到的items搜索得到twitters,然后选择几条扩展item(选择item)
涉及到的公式:
For each tweet we:

  1. Count the number of unique query concepts present in the unstemmed tweet and divide by total number of query concepts (C).
  2. Count the number of Wikipedia titles present in the tweet and divide by total number of Wikipedia title (T).
  3. Count the number of original query terms present in the tweet and divide by total number of query terms (Q).
  4. Calculate a new tweet score: 0.6C + 0.3T + 0.1Q

相关度:
which selects the difference whichvalue is larger than the average difference plus 1.5 times the standard deviation of the differences: *D *µ + 1.5σ.

对查询结果排序(三种方法)
第一种方法:考虑特征,以下为特征,然后根据特征排序

The University of Amsterdam (ILPS) at TREC 2013 Microblog Track_第1张图片
Paste_Image.png

第二种方法:数据融合,以下为公式:

The University of Amsterdam (ILPS) at TREC 2013 Microblog Track_第2张图片
Paste_Image.png

第三种方法:URL 助推,扩展url,获取里边的信息

实验结果:
第三种方法最好

你可能感兴趣的:(The University of Amsterdam (ILPS) at TREC 2013 Microblog Track)