搜索引擎(searchengine)也可以说是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。在此,借助马海祥博客的平台,我也来浅谈一下我对搜索引擎原理结构的一些认识
搜索引擎的原理结构框架大概分为三部分,即:数据搜集—>预处理【索引】—>排名。如下图所示:
一、数据搜集
数据搜集直白的讲,即数据的搜集阶段,将网页从浩如瀚海的互联网世界搜集到自己的数据库中进行存储。搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛(Spider)。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎通过这些爬虫去爬互联网上的外链,从这个网站爬到另一个网站,去跟踪网页中的链接,访问更多的网页,这个过程就叫爬行。这些新的网址会被存入数据库等待抓取。所以跟踪网页链接是搜索引擎蜘蛛(Spider)发现新网址的最基本的方法。搜索引擎抓取的页面文件与用户浏览器得到的完全一样,抓取的文件存入数据库。
1、链接跟踪
蜘蛛是顺着链接爬行和抓取页面的。如何快速抓取到对用户来说相对重要的信息以及达到广阔的覆盖无疑是搜索引擎需要重点考虑的问题。由于互联网上无数的网站页面,搜索引擎蜘蛛无法将所有的页面都下载保存到服务器。因此,许多搜索引擎的网络蜘蛛不是所有的页面都抓取的,只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接广泛度及外部链接的数量与质量。所以马海祥觉的在给网站加外链时不要只给首页外链,其他页面也要加(这和外链的随机性也有关)。
2、在抓取网页的时候,搜索引擎蜘蛛一般有两种策略:广度优先和深度优先。
广度优先是指搜索引擎蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让搜索引擎蜘蛛并行处理,提高其抓取速度。
深度优先是指搜索引擎蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是搜索引擎蜘蛛在设计的时候比较容易。
广度抓取有助于获取到更多的信息,深度抓取有助于得到更全面的信息。搜索引擎蜘蛛在抓取数据时,通常会两种方式都采用,但是想比较来说,广度抓取要多于深度抓取。
这是搜索引擎抓取数据的二大策略,当然其中还夹杂着一些加入了人工智能的策略,比如:
a、热点优先策略:对于爆发式的热点关键词进行优先抓取,而且不需要经过严格的去重和过滤,因为会有新的链接来覆盖以及用户的主动选择。
b、权威优先策略:搜索引擎会给每个网站分配一个权威度,通过网站历史、网站更新等来确定网站的权威度,优先抓取权威度高的网站链接。
c、用户点击策略:当大部分搜索一个行业词库内的关键词时,频繁的点击同一个网站的搜索结果,那么搜索引擎会更频繁的抓取这个网站。
d、历史参考策略:对于保持频繁更新的网站,搜索引擎会对网站建立更新历史,根据更新历史来预估未来的更新量以及确定抓取频率。
3、地址库
为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。地址库中的URL有以下几个来源:
a、人工录入的种子网站。
b、蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据对比,如果是地址库中没有的网址,就存入待访问地址库。
c、站长通过搜索引擎网页提交表格提交进来的网址。
蜘蛛按重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库中。大部分主流搜索引擎都提供一个表格,让站长提交网址。不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的。可以说提交页面基本上是毫无用处的,搜索引擎更喜欢自己沿着链接发现新页面。
4、文件存储
链接跟踪完毕,需要将跟踪到的信息进行存储。存储的对象,第一是url,第二是页面内容(文件大小、最后一次更新时间、http状态码、页面源代码等等)。
二、预处理【索引】
数据抓取完毕,就需要进行预处理了,一般也叫索引。主要会从提取文字、中文分词、去停止词、消噪、去重、正向索引、倒排索引、链接分析、特殊文件处理等几个方面来进行。
1、提取文字
这个应该很好理解的,将源代码中的文字提取出来。当然需要注意的是,这里面会包括meta信息以及一些替代文字,除了用户可见的文字信息外,还有代码中的文字信息(例如alt标签)。目前搜索引擎都是以文字为基础。蜘蛛抓取的HTML代码中除了用户在浏览器看到的文字外还有大量HTML格式标签、DIV+CSS标签、JavaScript程序等无法用于排名的内容。所以搜索引擎第一步就是要去除从HTML代码中抓取的标签、程序等,提取可以用于排名处理的页面文字内容。除了可见文字,搜索引擎也会提取一些特殊的包含文字信息的代码,如Meta标签中的文字、alt标签、FLASH文件代替的文字、链接的锚文本等等。
2、分词
中文分词 (Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。分词方法主要包括:基于理解的分词方法、基于字符串匹配的分词方法、基于统计的分词方法。这里就不多说了,分词可以说是搜索引擎最重要的部分。中文分词的框架如下图所示:
3、去停止词
无论英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的介词,这些词被称为停止词,因为它们对页面主要意思没有什么影响。英文中常见的停止词如the,a,an,to,of等。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。
4、消噪
对搜索引擎来说,并不是网页上的所有部分它都需要抓取,有一些部分对排名计算是没有意义的,比如导航条、版权文字说明、广告等等区块。考虑到搜索引擎需要处理的网页数量非常庞大,这部分无意义内容的绝对量也是非常大的,为了节省计算资源,提升排名计算的速度,搜索引擎在预处理时会将这些内容识别后剔除出去。这个过程就称为消噪。
现在搜索引擎应用的消噪技术可分为三类:基于网页结构的方法,基于模版的方法和基于可视化信息的方法。
A、基于可视化信息的方法:是指利用页面中元素的布局信息,从而能够利用布局信息对页面进行划分,保留页面中间区域,而其它区域则认为是噪音。
B、基于网页结构的方法:即根据html标签对页面来分区,分出一些页头、导航、正文、广告等等的区块,只抓取正文等重要的部分。
C、基本模版的方法:指的是从一组网页中提取出相同的模板,而后利用这些模版从网页中抽取有用的信息。
5、SEOer如何人工减噪?
A、搜索引擎会基于可视化信息识别噪音,因此马海祥建议SEO人员在建设网页时应尽量遵循通用的原则,将正文内容安排在页面中间区域,而不要弄一些非常个性化的页面,增加搜索引擎识别噪音的难度。
B、搜索引擎会基于网页结构识别噪音,因此马海祥建议SEO人员在处理网页结构时建议引入JS代码,将页头、广告、版权声明等内容通过JS调用来实现。当然是一些你不想被抓取的版块,因为这些区块在站内很可能都是重复出现的,特别是广告、版权、评论这些。一旦被收录,很容易造成重复内容堆积,影响整站的内容质量评分。
C、搜索引擎会基于网页模版识别噪音,因此SEO人员在建设网页时应尽量采用同一套模版,尤其是在改版的时候不要轻易动模版,以帮助搜索引擎识别噪音区块。
6、去重
经过去停顿,去噪之后剩下的词组,已经可以很好的表达出页面的主体意思了。为了便于使得内容不被搜索引擎重复收录,搜索引擎需要一个算法来进行去重处理。比如比较知名且常用的为MD5算法,搜索引擎根据特征关键词计算指纹区分。
7、正向索引
正向索引简称为索引。经过前五步之后,接下来搜索引擎将提取文中关键词,按分词程序划分好的词,同时记录每个词在页面中出现的频率、出现的次数、格式(如加粗、倾斜、黑体、H标签、加颜色、锚文字等)、位置(如页面第一段文字或者最后一段等)。然后把这些词语记录为串关键词集合,那么这些词的相关信息如格式、权重等也会记录在案。实际在搜索引擎中每个关键词也被转换为ID形式记录,然后每个文件ID对应一串关键词ID。这种每个文件ID对应一个串关键词ID这样的数据结构被称之为正向索引。比如文章A对应1、2、3这三个关键词,文章B对应2、4、5这三个关键词。
8、倒排索引
正向索引还不能直接运用到关键词排名,假设用户搜索关键词2,那么搜索引擎讲扫描索引库中所有文件,这样时间太长无法满足用户返回结果的速度,所以这里运用到了倒排索引,把关键词ID映射到文章ID,比如关键词2对应文章A、文章B,如此一来大大缩短搜索引擎扫描索引库中的文件,缩短扫描时间。
9、链接算法
在此阶段,各个页面之间的链接关系也会被搜集。页面中有哪些导入链接,这些链接都指向哪里,哪些链接又指向这个页面,链接用的是URL还是锚文字,这些复杂的链接关系网就形成了页面的链接权重,此时锚文本将被作为重要排名依据,当量广泛的锚文本将被列入计算关键词排名的步骤中。
10、特殊文件的处理
除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT 文件等,我们在搜索结果中也经常会看到这些文件类型。但搜索引擎目前还不能很好的处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。
三、排名
索引文件建立完毕之后,接下来要做的就是排名了。
1、搜索词的处理
这一步和前面的预处理一样也要中文分词、去停止词。还要进行指令处理,拼写错误矫正,整合搜索触发等。这个上面基本是一样的。
2、文件匹配
从上面我们看到搜索引擎的蜘蛛是无时无刻的都在爬行和抓取,另外不断对抓取的数据进行整理归纳以及存储。这些过程并不是用户在搜索的时候进行的,而是在搜索之前就预处理好的,真正当用户搜索某个关键词时,搜索引擎只需要在自己的数据库中进行查找,而不是实时的对互联网上所有的网站进行查找。搜索引擎就会在和该关键词对应的所有文件中进行简单的计算和匹配,找到匹配页面。
3、初始子集选择
为了更加快速的满足用户的需要,搜索引擎需要从所有的相关页面中进行选择,只计算权重稍高的页面返回给用户,这个过程就是常说的初始子集的筛选。大家可以试想,当我们搜索某个关键词时,往往包含这个关键词的页面数量是巨大的,甚至几十万、上百万。如果搜索引擎从这么大的数据中进行匹配的话时间显然更长,为了更好的满足用户的需求,实际中搜索引擎只会选择哪些权重高的页面去匹配(大概1000个左右)。
4、相关性计算
(1)、关键词常用程度
经过分词后的多个关键词,对整个搜索字符串的意义贡献并不相同。越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。举个例子,假设用户输入的搜索词是“马海祥博客”。“博客”这个词常用程度非常高,在很多页面上会出现。它对“马海祥博客”这个搜索词的辨识程度和意义相关度贡献就很小。找出那些包含“博客”这个词的页面,对搜索排名相关性几乎没有什么影响,有太多页面包含“博客”这个词。而“马海祥”这个词常用程度就比较低,对“马海祥博客”这个搜索词的意义贡献要大得多。那些包含“马海祥”这个词的页面,对“马海祥博客”这个搜索词会更为相关。常用词的极致就是停止词,对页面意义完全没有影响。
所以搜索引擎对搜索词串中的关键词并不是一视同仁地处理,而是根据常用程度进行加权。不常用的词加权系数高,常用词加权系数低,排名算法对不常用的词给予更多关注。我们假设A、B两个页面都各出现“博客”及“马海祥”两个词。但是“博客”这个词在A页面出现于普通文字中,“马海祥”这个词在A页面出现于标题标签中。B页面正相反,“博客”出现在标题标签中,而“马海祥”出现在普通文字中。那么针对“马海祥博客”这个搜索词,A页面将更相关。
(2)、词频及密度
一般认为在没有关键词堆积的情况下,搜索词在页面中出现的次数多,密度越高,说明页面与搜索词越相关。当然这只是一个大致规律,实际情况未必如此,所以相关性计算还有其他因素。出现频率及密度只是因素的一部分,而且重要程度越来越低。
(3)、关键词位置及形式
就像在索引部分中提到的,页面关键词出现的格式和位置都被记录在索引库中。关键词出现在比较重要的位置,如标题标签、黑体、H1等,说明页面与关键词越相关。这一部分就是页面seo所要解决的。
(4)、关键词距离
切分后的关键词完整匹配地出现,说明与搜索词最相关。比如搜索“呼叫中心”时,页面上连续完整出现“呼叫中心”四个字是最相关的。如果“呼叫”和“中心”两个词没有连续匹配出现,出现的距离近一些,也被搜索引擎认为相关性稍微大一些。
(5)、链接分析及页面权重
除了页面本身的因素,页面之间的链接和权重关系也影响关键词的相关性。其中最重要的是锚文字。页面有越多以拽索词为锚文字的导入链接,说明页面的相关性越强。链接分析还包括了链接源页面本身的主题、锚文字周围的文字等。
5、排名过滤及调整,过滤一些作弊等
通过各种算法(例如近期百度的绿萝算法和石榴算法)的调整,过滤一些作弊的网站,通过算法规则或人工调整给予违规网站的降权,提取展示优质网站的信息。
6、搜索缓存
搜索引擎的搜索缓存也即cache,是计算机领域非常常用的一种技术,我们最熟悉的,恐怕就是浏览器的缓存。搜索引擎的缓存可以这样简单描述:在高速内存硬件设备开辟一块数据存储区,用来存储搜索用户的查询、索引数据、搜索的中间结果或者最终的搜索结果。缓存的大小是有限度的,不可能无限存储数据。因此搜索引擎会采取缓存更新策略和缓存淘汰策略管理维护缓存区存储的数据。搜索引擎缓存的价值搜索引擎缓存具有两个价值:a、加快响应搜索用户查询的速度,提高搜索用户体验;b、减少搜索引擎后台的计算量,节省计算资源。
7、排名结果显示
根据信息的有效性、原创性、信息的认可度和网站自身权重给予相应的排名显示。并查询及点击日志,对搜索用户的搜索做统计,最后根据该用户搜索习惯给出相应结果