《Clustering search engine query log containing noisy clickthroughs》

Query聚类(或者叫计算相似关键词)的基本方法:

 (1)       如果query中有相同的词,那么这些query是相关的。

(2)       寻找query和通过query点击的文档的集合。点击的文档可以替换成其他形式。目的是构成“通过不同的query点击相同的事物”这样的关系。

(3)       一和二方法的融合

之前的实现:

使用二分图。一边是query的集合,一边是document的集合。通过点击把两个结合之间相关的点连接起来。

计算方法:交集除以并集。

本文提出的方法:

         类似的二分图的方法。可以除去噪声?

你可能感兴趣的:(cluster)