相关性

主要维度
•     文本相关性
文本角度的相关度匹配
•     权威性
相关前提下选出更优质/权威的结果
•     需求满足
同样的关键词有不同的含义,分析用户需求并给出适合的结果


特征提取层
1.     页面级别特征
     a.     主题分析
          i.     真实标题,子标题
          ii.     面包屑,key-value对
     b.     入链anchor分析
     c.     页面类型
          i.     例如,图片页面上tf起到的作用不大
     d.     页面质量
          i.     例如,对空短页面的赋权
     e.     站点/频道的属性
          i.     如,汽车网站上,隐含“汽车”的term
     f.     正文提取/边框去噪

2.     term级别特征
      a.     结构特征
           i.     粗体,在主题中,在引号中,表格字段
           ii.     分布密度
      b.     语义
           i.     Idf
           ii.     定义次
           iii.     上下文关系

权值计算层
1.     单term计算
2.     多term合并计算/排序

地图搜索相关性:

1.query搜索本身的因素考虑
    计算query的意图和指向
    query和目标区域的匹配程度
2.地域相关性
   地域特色的考虑
   距离远近
   地域邻近域的特征描述
3.个人用户的行为特征
4.相似性用户的特征推荐


购物搜索相关性
1.产品标题和自身描述等因素(基于内容的)
2.价格因素的考虑


图片搜索相关性
text-based image retrival
content-based image retrival

image feature:sift method
bag of words model

网页搜索相关性
url, anchor, title , body
滑动窗口打分,针对single term 和 pair term 打分
主要考察指标:
pr,sitepr,dist,offset,term attr, tight weight, token weight,indomain和outdomain
core title命中,title命中紧密性,完全命中及个数
query intent 和doc type的匹配性提权等
考察ranking optional 和 retrieval optional相关信息
其中的方法:term 重要性和关键字匹配

anchor:anchor信任度提权,完全命中anchor的数目,以及所占anchor的比例,anchor所在位置,anchor的商业意图等
           判断indomain和outdomain的个数比例
url:是否命中domain或者host,以及缩写的命中等,site rank,是否官方网,以及url级别和站点级别等
body:滑动窗口打分, windowscore = ∑singlescore + ∑pairscore
        singlescore:token weight, positionDecay, weight_sum , demote_factor.
        pairscore:mean_weight ,dist_factor  ,order_factor ,sectionPositionDecay, demote_factor



你可能感兴趣的:(相关性)