搜索引擎的那些事(开篇)

【 声明:版权所有,欢迎转载,请勿用于商业用途。  联系信箱:feixiaoxing @163.com】 


    说起搜索引擎,大家肯定都不陌生。至少对于我来说,每日百度的次数不下几十次。在信息的查询和搜索方面,百度帮了我很大的忙,当然这中间也有很多搜索结果我也不是很满意。那么不知道大家有没有兴趣知道搜索引擎是怎么做出来的?其实说简单也简单,说复杂也复杂。

    大家知道,网络搜索结果都是按照网页来进行查找的。一般来说,如果网页中包含了这个关键字,那么这个网页就是我们需要的。但是,事实上结果不都是这样的。大家知道,互联网上的网页非常多,想要在不到1秒钟的时间内就寻找到自己需要到那个结果基本上来说是不可能的。别的不说,把这互联网上几十亿个网页下载下来就不是一件容易的事情,更不要说后面的查找和遍历了。所以说,搜索引擎所查找的任何结果都是计算机预处理的结果,有了这个基本概念之后后面的讲解就比较容易了。

    要做一个简单的搜索引擎其实不是件复杂的事情。关键步骤可以分成三个部分,即网页的遍历和下载、中文分词和解析、查询结果和排序。

(1) 网页下载和遍历

    要有自己的搜索引擎,要有自己的数据,这个数据就是网页的数量。说到这里,我们就不得不说网页的一个重要特性,那就是超链接。有了超链接,我们就可以继续爬行到别的网页了。说到这里,有几个问题需要考虑,这个网页该怎么爬行,是首先按照宽度进行遍历呢,还是按照广度进行遍历呢,如何判断哪些网页是已经遍历过了的,哪些网页尚没有遍历,如果利用多线程对网页进行遍历呢?

(2)中文分词和倒排文件

    有了自己的网页,这只是一个基本条件。下面,我们就需要对网页的数据进行拆解,对网页中的每一个句子进行拆解。这就是所谓的中文分词。当然,中文分词可以有很多的方法,基本上说按照字典来拆解就可以了,要么从左向右进行拆解,要么从右向左进行拆解,或者按照最小词组数目进行拆解也可以。当然,网页的数目是在不断递增的,但是一般来说一个语言的词组的数目是一定的,一般来说汉语的词组也就在几十万个左右。其他语言呢,比如说英语,因为英语是由一个一个单词组成的,按照牛津词典的标准,单词的最大数目也就在几十万个单词上下。所以,在此我们设计了倒排文件的格式。用最简单的话说,我们不再关注一个网页包含了哪些词语,我们更关注某个词语在哪些网页中出现了,这就是倒排文件的基本思路。

(3)索引查找和排序

    有了倒排文件之后,我们就可以把这些索引结果用数据库进行保存起来的。因此,大家注意我们搜索的任何结果都是从这份数据库合并过来的。当然,查到了这些结果之后,我们怎么判断哪些排序结果应该排在前面,哪些结果应该排在后面。说到这里,一个不得不提的算法就是pagerank,这个算法的基本思想就是大家都想要的结果就是你想要的结果,某个网页重要是因为别人引用它的次数比较多。打个通俗的比方来说,一个被大家多次引用的论文质量肯定差不到哪去。当然,还有其他影响排序的因素,比如字频、网页日期、网站权重、是否为客户购买的关键字、是否为作弊网页、是否为标题文字等等。

    选到这一个题目来写我的博客,和我的工作没有什么关系,主要是因为个人的兴趣而已。当然,整个文章的风格和自己之前的博客差不多,基本上还是一个标题一个标题来写,中间会穿插C语言代码描述该功能是怎么实现的。要是还能对大家有一些帮助,那是我最开心不过的事情了。





你可能感兴趣的:(搜索引擎的那些事)