谈谈搜索引擎排序的一些基本方法

我们假定一个场景,需要从小学1年纪1000个人[webpages]中,挑选[query]出10个最适合做运动员[keyword]的小朋友[page]。我们马上想到第一个方案A:让这1000个人扳手劲比力量,挑选前10个,这个方法很好,挑选出了前10个,但这个10个人真的【最适合做运动员】吗?我看跳水运动员就不合适嘛。

方案A简单,可操作,但不全面,马上可能又会想出一个方案B,给出5个指标,5个指标综合排名最好的前10个当运动员,这5个指标可能是力量,协调性,身高,平衡性,理解力。方案B比显然方案A好,但方案B挑选出的人才往往比较平均,可能在多个运动中显示出水平,但不会是顶尖水平,比如有一个力量巨大,身高很高的人,协调性差,做不了最佳的举重运动员,也成不了最佳的篮球运动员,方案B虽然全面,但用一个model去套不同的情况,必然会出现问题。

紧接着我们会想到方案C,我们对不同的运动项目做一个单独的model,去考察每个运动项目需要侧重的点,用决策树的方法对小朋友进行先分类,在分类后在进行方案B的评价。例如我们对游泳运动员的选材要求是身体修长,脚大手大,力量好,通过一个决策树,会把1000个小朋友中符合这几条的小朋友选进来,大约可能有200人,这200人在用方案B的方法,通过综合评分,最后排一个序,这样就可以找到最适合游泳的若干队员。

网页搜索也一样,对于所有的网页不可能训练处一个单独的model来给出他们的rank,必须首先经过一次分类,区分时效性查询,导航累查询,下载类查询,电话号码查询,数字查询等等,在确定了分类后,在这个确定的分类下用一个单独的model来进行排序,不同的分类对于排序的特征敏感性不同,比如时效性查询更看重网页创建的时间,而看不十分看重内容的信息量,而知识性查询更看重网页的信息量,实效性确不一定看重。

因此对查询的分类,对查询结果的分类是非常重要的先期工作,这个工作的细致与否,对排序有着重大影响。

你可能感兴趣的:(工作,搜索引擎)