query 改写的意义及主要方法

同义词:增加召回,支持query 改写,并影响排序。(主要是增加对长尾query的召回,优化非点击数据计算的相关性计算)

query改写:改写为有点击的热门query,从而利用上点击特征,获得更好的排序结果。(优化中频query的排序)

同义词的 数据构造(构造的是对齐语料,也是相似度高的一对文本。为两个query,或者两个doc title,或者query_doc。因此可以基于先验知识,或基于点击、语义等计算相似度得到,计算相似度也是query改写的一部分。):

1)现成的结构化数据或其他搜索结果数据;

2)自身积累的session数据,点击数据。点击数据包括(query_doc、query_hint、query改写、anchor数据、共点击query)

同义词的 挖掘方法:

1)规则

2)统计

3)词向量

query改写:如果作用在于改写为有更多点击数据的query 。则不是生成模型,而是需要以历史query 为召回集,然后计算相似度,来进行排序。query改写的方法也是计算几种相似度的方法。 而计算相似度,无非是要建立两段文本的特征向量,显然基于词是不够的,需要添加其他维度的特征来扩充表达query。而特征向量的几个维度有:

1) 词特征、词性(属性)特征、主题特征

2)点击特征、session数据

3)词向量特征、点击带来的词向量特征(点击doc_title作为一个doc,向量化)

你可能感兴趣的:(query 改写的意义及主要方法)