相关性是我们工作中常用的概念,有必要确定它的定义、类别和内容,以达成一致的认识。我说说自己的理解,欢迎大家指点批判。
从一个假设出发:用户为获取信息而来
假设是:用户使用搜索引擎,是为了获取信息,是想找到信息、解答疑问,是希望了解某事某物,是互联网时代最平常的信息检索活动。这个信息,或是某个网址,如【4399小游戏】、【诺基亚官方网站】,或是影音视听内容,如【新红楼梦】、【盗梦空间】,或是问题的解决答案,如【囧怎么读】、【电脑开机慢】,或是某物某事,如【台风】、【麻疹疫苗】,等等。一句话,搜索是信息检索的事,用户为了获取信息而来。
这个假设是我们工作的起点,我们做的所有事情都是为了让用户更快更便捷地找到所需信息,获得满足。它是如此的重要,我们不能在这假设上有任何的争议。
但实际上,并不是所有的Query(用户在搜索框输入的查询词)都有着信息检索的需求。如果无法判断Query背后的信息需求,那么抛弃之。
搜索引擎的好坏:多大程度上满足用户需求
如果承认前面的假设——用户的需求是获取信息,那么衡量搜索引擎好坏的标准很明白,就是看其能不能满足,以及多大程度上满足用户的信息检索需求。一个搜索引擎,如果能让用户花费更少的时间、更低的成本找到所需,达到目的,那它就是更好的搜索引擎。
我们说的“相关性”,即是衡量多大程度满足用户需求的指标。相关性好(高),指能很好地满足用户的信息需求;相关性差(低),是说用户不能得到什么有价值的东西,无功而返。
搜索引擎提供的内容越来越多,最开始只有一条条的结果,后来逐渐出现SE(拼音和错别字提示)、RS(相关搜索)、Suggestion(搜 索框提示)。但毫无疑问,结果仍然是最重要的,绝大多数查询,要靠结果来满足。平常说的相关性,多指结果的相关性。人们说的结果好坏、结果质量,即是结果 的相关性。严谨些说,相关性反映的是结果对所有用户的价值高低,能让用户达到何种程度上的满足。这决定了判断相关性要考察多方面因素——用户的需求分布、 行为模式、结果的状况等。
展现的巨大作用
用户搜索的一般过程是带着获取信息的目的而来,输入Query,查看搜索引擎返回的结果,根据结果的展现(Snippet,包 括标题和摘要)来点击。整个过程中,展现起着极大的作用,绝大多数用户都会根据展现,大致推断这个结果是否相关,然后决定是否点击。这意味着,结果的相关 性中,其展现占有重要的地位。一条结果,无论内容多么棒,只要它的展现差,没获得几次点击,那么它的相关性还是差,因为没给用户带来什么帮助。只有展现和 内容都不错,相关性才能说高。
可以说,结果的相关性等于其展现的吸引力×页面内容的价值。极端情况,展现能完全满足用户需求,如【现在几点】、【000002】、【翀读音】、【乱石穿空惊涛拍岸的下一句】。
单条结果的相关性
相关性反映结果对所有用户的价值,是考虑多方面因素后的判断。根据评估实践,我把相关性分成下面七个维度。
基础相关:相关性判定中的基石
基础相关,也称狭义相关,指结果跟用户需求是契合的,两者说的是一回事。基础相关是相关性判定体系的基石,后面所有维度都建立在其之上。如果基础不相关,说明这个结果不能给用户任何帮助。
常见不相关的类别有:
丢掉了重要部分
搜【阈怎么发音】,“阈”消失。搜【查看 net Framework 版本】,“查看”没出现。
拆散了Query
查【林字有多少笔画】,出来“林字怎么写……笔画只有一划的汉字有多少个”。搜【十号线首车几点】,结果是“5月10日起10号线最小间隔缩至3分,8号线首车提前半小时”。
转义
搜【介词】,出来“介词看过的电影”。搜【七剑下天山】,结果是“曼联七剑下天山欧文复出破荒灵异吊射”。
需求比例:把握主要需求
某些Query,不同人搜索抱着不同的需求。明显,越多人找的越重要,能满足更多人的结果更好。搜电视剧名称,用户需求有在线观看、下载、剧情、歌曲、演员介绍等。一般情况下,主要需求是在线观看。那么,来自奇艺、土豆、优酷、百度视频的结果更好。
丰富全面:多就是好
丰富度指内容的多少,强调以多取胜。搜【入党申请书】,一篇有点少,多篇更有参考价值。搜【范冰冰个人资料】,结果中范冰冰的资料越详细,对用户越有帮助。搜【一起又看流星雨】,全集当然比单集好。
有些查询,用户寻找的内容或不止一个含义、或者各地情况不同、或者有多个原因等,全面性指结果说了多少含义、情况和原因。覆盖的范围越全,自然越能满足越多用户的需要。搜【iexplore.exe】,即介绍正常进程,又说病毒的结果更全面。搜【养老保险缴费比例】,给出各地比例的更好。搜【电脑无法开机】,给出各种原因及答案,这样更有助于用户解决问题。
有效性:跟随用户走到最后一步
用户需求的满足,是个完整的过程。评估时,一定要注意用户最终需求是什么,跟随用户走到最后一步。搜【pps网络电视下载】,不能看到页面上出现这几个字就到此为止。用户需求是下载安装使用该软件,我们要尝试下载,看其是否真实有效可用。搜【ems快递查询】,如果查不了,那就没啥用,我们要验证它到底能不能查询。
便捷性:找到你,要花费多少时间和成本
便捷性,指从打开页面开始,到寻找到所需信息、达到最终目的,所要花费的时间和成本多少。如果页面有十来屏,所需信息不在第一屏,很多人立马放弃。Ctrl+F(查 找)是很高级的功能,绝大多数用户不会用。广告繁多突出、无关信息充斥、页面结构零乱、背景颜色刺眼等,这些影响了用户获取所需信息,损伤了结果的相关 性。除了页面因素外,还有其它的限制:找某文档,要注册、或花钱才能下载;想看电影,要装插件。除非是稀缺资源,多数用户是不会注册、花钱、安装什么插件 的。
时效性:快,再快些!
有些查询,对时间有着较高的要求,期望得到最新的信息。常见的是突发新闻的搜索。哪怕没有明确指定什么新闻,给出最新的内容也是很好的。【邓亚萍人民搜索】,是找邓亚萍将出任人民搜索网总裁的新闻,哪怕只搜【邓亚萍】,也有部分需求是找这个新闻的。现在查【金鹰节】,多数是找正在举办的“第八届中国金鹰电视艺术节”。搜【高考】,多是想找本年或来年的信息。
招聘、交易等查询,时间因素极其重要。如果过期了,是陈旧的信息,那对用户几乎没有任何价值。
权威度:你来自何方
权威性是内容贡献者、内容发布在不同网站给用户的感觉。同样一篇新闻,出现在新浪新闻、新华网上,跟bbs、个人博客上的转载相比,前者当然更权威。医治健康、法律相关问题,医生、律师的回答,肯定更让人们信服。官方网站发布的信息,比其它网站更可信。
多条结果的相关性
判断多条结果时,主要取决于两方面,一是每条结果的相关性,二是位置因素。第一条位置最好,天然易获得用户的点击。位置越靠后,越不易得到用户的注意。另外,某些情况,要考虑整体结果的多样性,主要需求满足的同时,也要照顾到次要需求。
所以,多条结果的相关性=(第一条结果的相关性×第一条位置的权重+第二条结果的相关性×第二条位置的权重+……)×整体结果的多样化参数。
如果判断每条结果的相关性时,已经考虑了跟前面结果的重复情况,那么不需要多样化指标。例行的前三打分测试,就是这样。
几点看法
孙云丰
1,不同的搜索需求,满足方式迥异
文章里的需求表述还是过于简略。如果做一下分类会更易于表述清楚。比如“决策”就是一类很特别的需求。用户要找的不是一个特定的信息,而是要通过一系列信息的组合,来解决一个问题。如“十万块钱买什么车比较好”。
不同的需求,经常可以有跳空式的满足模式,而不局限于经典的搜索算法。
2,就传统的相关性而言,我的概括:
a,语义相关
用户的需求表述,和搜索结果内容在语义层面上是一致的。比如“北京房价”,出“上海北京路房价”,就是语义上的不一致。文中提到的省略、拆散等表象背后,都属于此类基础问题。
b,需求强度
如果完全个性化,那就不存在需求梯度的问题,而只有0和1的区别了。在非个性化状态下,结果的需求强度是一种概率分布。比如“刘德华”,想看刘德华介绍的,和想听刘德华歌曲的,永远是冲突的,只是概率更高的,会在排序上占优。
时间因子、地域因子等,虽然有独立的处理策略;但在分类上,我倾向于纳入需求强度这个维度。
个性化、用户行为反馈机制等,都有助于解决需求强度问题。当然,框计算整个就建立在需求识别这个基础之上的。
c,有效性
有效性反映特定结果的物理质量。考量的因子很多,比如打开速度,内容完整性,浏览体验等。典型的低质量类型,如死链,spamming,无效下载页,有问无答页,需查看权限页等。
在衡量有效性方面,并不一定全要靠页面本身的属性,很多第三方数据,比如停留时间,二次点击等,都是衡量手段。
d,权威性
语义相关,需求一致,还有一个谁更好的问题,影响比较大的,就是“可信”、“专业”方面的考虑,简称为“权威性”。日本放人了,这个消息来自新华网,和来自一个魔兽吧,是完全不同的效果。
3,对用户搜索需求满足影响巨大,但不属于相关性范畴的事情