搜索相关性浅谈

相关性是我们工作中常用的概念，有必要确定它的定义、类别和内容，以达成一致的认识。我说说自己的理解，欢迎大家指点批判。

从一个假设出发：用户为获取信息而来

假设是：用户使用搜索引擎，是为了获取信息，是想找到信息、解答疑问，是希望了解某事某物，是互联网时代最平常的信息检索活动。这个信息，或是某个网址，如【4399小游戏】、【诺基亚官方网站】，或是影音视听内容，如【新红楼梦】、【盗梦空间】，或是问题的解决答案，如【囧怎么读】、【电脑开机慢】，或是某物某事，如【台风】、【麻疹疫苗】，等等。一句话，搜索是信息检索的事，用户为了获取信息而来。

这个假设是我们工作的起点，我们做的所有事情都是为了让用户更快更便捷地找到所需信息，获得满足。它是如此的重要，我们不能在这假设上有任何的争议。

但实际上，并不是所有的Query（用户在搜索框输入的查询词）都有着信息检索的需求。如果无法判断Query背后的信息需求，那么抛弃之。

搜索引擎的好坏：多大程度上满足用户需求

如果承认前面的假设——用户的需求是获取信息，那么衡量搜索引擎好坏的标准很明白，就是看其能不能满足，以及多大程度上满足用户的信息检索需求。一个搜索引擎，如果能让用户花费更少的时间、更低的成本找到所需，达到目的，那它就是更好的搜索引擎。

我们说的“相关性”，即是衡量多大程度满足用户需求的指标。相关性好（高），指能很好地满足用户的信息需求；相关性差（低），是说用户不能得到什么有价值的东西，无功而返。

搜索引擎提供的内容越来越多，最开始只有一条条的结果，后来逐渐出现SE（拼音和错别字提示）、RS（相关搜索）、Suggestion（搜索框提示）。但毫无疑问，结果仍然是最重要的，绝大多数查询，要靠结果来满足。平常说的相关性，多指结果的相关性。人们说的结果好坏、结果质量，即是结果的相关性。严谨些说，相关性反映的是结果对所有用户的价值高低，能让用户达到何种程度上的满足。这决定了判断相关性要考察多方面因素——用户的需求分布、行为模式、结果的状况等。

展现的巨大作用

用户搜索的一般过程是带着获取信息的目的而来，输入Query，查看搜索引擎返回的结果，根据结果的展现（Snippet,包括标题和摘要）来点击。整个过程中，展现起着极大的作用，绝大多数用户都会根据展现，大致推断这个结果是否相关，然后决定是否点击。这意味着，结果的相关性中，其展现占有重要的地位。一条结果，无论内容多么棒，只要它的展现差，没获得几次点击，那么它的相关性还是差，因为没给用户带来什么帮助。只有展现和内容都不错，相关性才能说高。

可以说，结果的相关性等于其展现的吸引力×页面内容的价值。极端情况，展现能完全满足用户需求，如【现在几点】、【000002】、【翀读音】、【乱石穿空惊涛拍岸的下一句】。

单条结果的相关性

相关性反映结果对所有用户的价值，是考虑多方面因素后的判断。根据评估实践，我把相关性分成下面七个维度。

基础相关：相关性判定中的基石

基础相关，也称狭义相关，指结果跟用户需求是契合的，两者说的是一回事。基础相关是相关性判定体系的基石，后面所有维度都建立在其之上。如果基础不相关，说明这个结果不能给用户任何帮助。

常见不相关的类别有：

丢掉了重要部分

搜【阈怎么发音】，“阈”消失。搜【查看 net Framework 版本】，“查看”没出现。

拆散了Query

查【林字有多少笔画】，出来“林字怎么写……笔画只有一划的汉字有多少个”。搜【十号线首车几点】，结果是“5月10日起10号线最小间隔缩至3分，8号线首车提前半小时”。

转义

搜【介词】，出来“介词看过的电影”。搜【七剑下天山】，结果是“曼联七剑下天山欧文复出破荒灵异吊射”。

需求比例：把握主要需求

某些Query，不同人搜索抱着不同的需求。明显，越多人找的越重要，能满足更多人的结果更好。搜电视剧名称，用户需求有在线观看、下载、剧情、歌曲、演员介绍等。一般情况下，主要需求是在线观看。那么，来自奇艺、土豆、优酷、百度视频的结果更好。

丰富全面：多就是好

丰富度指内容的多少，强调以多取胜。搜【入党申请书】，一篇有点少，多篇更有参考价值。搜【范冰冰个人资料】，结果中范冰冰的资料越详细，对用户越有帮助。搜【一起又看流星雨】，全集当然比单集好。

有些查询，用户寻找的内容或不止一个含义、或者各地情况不同、或者有多个原因等，全面性指结果说了多少含义、情况和原因。覆盖的范围越全，自然越能满足越多用户的需要。搜【iexplore.exe】，即介绍正常进程，又说病毒的结果更全面。搜【养老保险缴费比例】，给出各地比例的更好。搜【电脑无法开机】，给出各种原因及答案，这样更有助于用户解决问题。

有效性：跟随用户走到最后一步

用户需求的满足，是个完整的过程。评估时，一定要注意用户最终需求是什么，跟随用户走到最后一步。搜【pps网络电视下载】，不能看到页面上出现这几个字就到此为止。用户需求是下载安装使用该软件，我们要尝试下载，看其是否真实有效可用。搜【ems快递查询】，如果查不了，那就没啥用，我们要验证它到底能不能查询。

便捷性：找到你，要花费多少时间和成本

便捷性，指从打开页面开始，到寻找到所需信息、达到最终目的，所要花费的时间和成本多少。如果页面有十来屏，所需信息不在第一屏，很多人立马放弃。Ctrl+F（查找）是很高级的功能，绝大多数用户不会用。广告繁多突出、无关信息充斥、页面结构零乱、背景颜色刺眼等，这些影响了用户获取所需信息，损伤了结果的相关性。除了页面因素外，还有其它的限制：找某文档，要注册、或花钱才能下载；想看电影，要装插件。除非是稀缺资源，多数用户是不会注册、花钱、安装什么插件的。

时效性：快，再快些！

有些查询，对时间有着较高的要求，期望得到最新的信息。常见的是突发新闻的搜索。哪怕没有明确指定什么新闻，给出最新的内容也是很好的。【邓亚萍人民搜索】，是找邓亚萍将出任人民搜索网总裁的新闻，哪怕只搜【邓亚萍】，也有部分需求是找这个新闻的。现在查【金鹰节】，多数是找正在举办的“第八届中国金鹰电视艺术节”。搜【高考】，多是想找本年或来年的信息。

招聘、交易等查询，时间因素极其重要。如果过期了，是陈旧的信息，那对用户几乎没有任何价值。

权威度：你来自何方

权威性是内容贡献者、内容发布在不同网站给用户的感觉。同样一篇新闻，出现在新浪新闻、新华网上，跟bbs、个人博客上的转载相比，前者当然更权威。医治健康、法律相关问题，医生、律师的回答，肯定更让人们信服。官方网站发布的信息，比其它网站更可信。

多条结果的相关性

判断多条结果时，主要取决于两方面，一是每条结果的相关性，二是位置因素。第一条位置最好，天然易获得用户的点击。位置越靠后，越不易得到用户的注意。另外，某些情况，要考虑整体结果的多样性，主要需求满足的同时，也要照顾到次要需求。

所以，多条结果的相关性=（第一条结果的相关性×第一条位置的权重+第二条结果的相关性×第二条位置的权重+……）×整体结果的多样化参数。

如果判断每条结果的相关性时，已经考虑了跟前面结果的重复情况，那么不需要多样化指标。例行的前三打分测试，就是这样。

几点看法

孙云丰

1，不同的搜索需求，满足方式迥异

文章里的需求表述还是过于简略。如果做一下分类会更易于表述清楚。比如“决策”就是一类很特别的需求。用户要找的不是一个特定的信息，而是要通过一系列信息的组合，来解决一个问题。如“十万块钱买什么车比较好”。

不同的需求，经常可以有跳空式的满足模式，而不局限于经典的搜索算法。

2，就传统的相关性而言，我的概括：

a，语义相关

用户的需求表述，和搜索结果内容在语义层面上是一致的。比如“北京房价”，出“上海北京路房价”，就是语义上的不一致。文中提到的省略、拆散等表象背后，都属于此类基础问题。

b，需求强度

如果完全个性化，那就不存在需求梯度的问题，而只有0和1的区别了。在非个性化状态下，结果的需求强度是一种概率分布。比如“刘德华”，想看刘德华介绍的，和想听刘德华歌曲的，永远是冲突的，只是概率更高的，会在排序上占优。

时间因子、地域因子等，虽然有独立的处理策略；但在分类上，我倾向于纳入需求强度这个维度。

个性化、用户行为反馈机制等，都有助于解决需求强度问题。当然，框计算整个就建立在需求识别这个基础之上的。

c，有效性

有效性反映特定结果的物理质量。考量的因子很多，比如打开速度，内容完整性，浏览体验等。典型的低质量类型，如死链，spamming，无效下载页，有问无答页，需查看权限页等。

在衡量有效性方面，并不一定全要靠页面本身的属性，很多第三方数据，比如停留时间，二次点击等，都是衡量手段。

d，权威性

语义相关，需求一致，还有一个谁更好的问题，影响比较大的，就是“可信”、“专业”方面的考虑，简称为“权威性”。日本放人了，这个消息来自新华网，和来自一个魔兽吧，是完全不同的效果。

3，对用户搜索需求满足影响巨大，但不属于相关性范畴的事情

搜索相关性浅谈_云丰

你可能感兴趣的:(搜索相关性浅谈_云丰)