主要维度
• 文本相关性
文本角度的相关度匹配
• 权威性
相关前提下选出更优质/权威的结果
• 需求满足
同样的关键词有不同的含义,分析用户需求并给出适合的结果
特征提取层
1. 页面级别特征
a. 主题分析
i. 真实标题,子标题
ii. 面包屑,key-value对
b. 入链anchor分析
c. 页面类型
i. 例如,图片页面上tf起到的作用不大
d. 页面质量
i. 例如,对空短页面的赋权
e. 站点/频道的属性
i. 如,汽车网站上,隐含“汽车”的term
f. 正文提取/边框去噪
2. term级别特征
a. 结构特征
i. 粗体,在主题中,在引号中,表格字段
ii. 分布密度
b. 语义
i. Idf
ii. 定义次
iii. 上下文关系
权值计算层
1. 单term计算
2. 多term合并计算/排序
地图搜索相关性:
1.query搜索本身的因素考虑
计算query的意图和指向
query和目标区域的匹配程度
地域特色的考虑
距离远近
地域邻近域的特征描述
3.个人用户的行为特征
4.相似性用户的特征推荐
购物搜索相关性
1.产品标题和自身描述等因素(基于内容的)
2.价格因素的考虑
图片搜索相关性
text-based image retrival
content-based image retrival
image feature:sift method
bag of words model
网页搜索相关性
url,
anchor,
title ,
body
滑动窗口打分,针对single term 和 pair term 打分
主要考察指标:
pr,sitepr,dist,offset,term attr, tight weight, token weight,indomain和outdomain
core title命中,title命中紧密性,完全命中及个数
query intent 和doc type的匹配性提权等
考察ranking optional 和 retrieval optional相关信息
其中的方法:term 重要性和关键字匹配
anchor:anchor信任度提权,完全命中anchor的数目,以及所占anchor的比例,anchor所在位置,anchor的商业意图等
判断indomain和outdomain的个数比例
url:是否命中domain或者host,以及缩写的命中等,site rank,是否官方网,以及url级别和站点级别等
body:滑动窗口打分,
windowscore = ∑singlescore + ∑pairscore
singlescore:token weight, positionDecay, weight_sum , demote_factor.
pairscore:mean_weight ,dist_factor ,order_factor ,sectionPositionDecay, demote_factor