搜索引擎的技术攻坚战,之爬虫!

2014年,一部名为《这就是搜索引擎:核心技术详解》的书,再次把“搜索”这一核心话题,带入公众视野。姑且抛开此书一版再版所折射的隐性魅力不言,正如书中所说,基于其所充当的互联网入口地位,及复杂的实现方式,“搜索引擎”都是目前互联网产品中最具技术含量的产品,即便不是唯一,至少也是其中之一。

而我们今天所要探讨的话题,正是围绕“爬虫抓取策略”所展开的爬虫相关简介,并借此带领我们身边的“老司机”,一起发现那些有可能被忽略掉的理论。

1.    一句话概括爬虫

“传输海量网页数据至本地,并形成数以亿计网页之镜像备份”的高效下载系统设计。

2.    通用爬虫框架流程

a.     精选部分网页链接地址作为种子URL,并将种子URL放入待抓取URL队列;

b.    从待抓取URL队列依次读取URL,并通过DNS将URL链接地址,转换为网站服务器对应的IP地址;

c.     将网站IP地址和网页相对路径名称交给网页下载器,下载页面内容;

d.    将下载后的网页所对应的URL放入已抓取URL队列,并将下载到本地的网页内容存储到页面库,等待后续处理;

e.     从刚下载的网页中抽取所有链接,并与已抓取URL队列做对比,检出未被抓取的URL链接放入待抓取URL队列,并重复新一轮抓取操作;

f.      循环到网页被尽数抓完,完整一轮完整抓取过程。

PS.动态抓取中的爬虫&与网页的相对关系

已下载网页集合:已被爬虫从互联网下载到本地进行索引的网页集合;

已过期网页集合:所对应互联网网页已做动态更新,却未及爬虫展开新一轮爬取的,已被下载到本地的网页集合;

待下载网页集合:处于待抓取URL队列中的网页集合;

可知网页集合:存在于已抓取网页或待抓取网页中的,未及爬取,但迟早会被爬虫通过链接关系发现,并进行抓取和索引的网页集合;

不可知网页集合:爬虫无法抓取到的网页集合;

3.    三种爬虫类型

a.     批量型爬虫

有着明确的抓取范围和目标,达到设定目标(特定数量网页或特定长度时间)即停止抓取的爬虫类型;

b.    增量型爬虫

持续不断地抓取网页,并对已抓取网页进行定期更新的爬虫类型;

c.     垂直型爬虫

只抓取特定行业网页或主题内容的爬虫类型

4.    优秀爬虫需满足的条件

a.     高性能

单位时间尽可能抓取更多的网页;

b.    可扩展

可通过增加抓取服务器和爬虫数量的方式,较为容易地解决缩短抓取周期的问题;

c.     健壮性

能正确应对诸如网页HTML编码不规范、服务器突然死机、爬虫陷阱等异常情况,避免工作中断,或中断后能轻易恢复之前抓取到的数据;

d.    友好性

保护网站的部分私密性(避抓爬虫禁抓协议下的网页,避抓网页禁抓标记下的部分内容),并减少被抓取网站的网络负载;

5.    爬虫抓取策略

爬虫抓取的总原则:优先选择重要网页进行抓取(PageRank是评价网页重要性的常用标准),确定待抓取URL队列则是技术关键。

根据URL优先排序的不同确定方法,划分4种爬虫抓取策略如下:

a.     宽度优先遍历策略

含义: 一种通过“将新下载网页包含的链接,直接机械地追加到待抓取URL队列末尾”的方式,实现合理安排URL下载顺序的抓取策略。

特点:简单直观、历史悠久、功能强悍,对比各种抓取策略的基准策略。

优缺点:可基本保证按网页重要性排序待抓取URL列表,效果很好。

b.    非完全PageRank策略

PageRank:一种著名的,能确定网页重要性的,全局性的,链接分析算法。

非完全PageRank策略: 一种“在不完整的互联网页面子集中,计算PageRank,形成待抓取URL队列”的爬虫抓取策略,即连带已下载网页和待抓取URL队列中的URL一起,组成网页集合,并在所组成的网页集合中进行PageRank计算,并按照PageRank得分从高到低的顺序,将待抓取URL队列重排,形成新的待抓取URL队列,这样一种抓取策略。

l  非完全PageRank,常采用“每当新下载网页攒够K个,将所有下载页面重新进行一次非完全PageRank计算”的方法进行;

l  在新一轮非完全PageRank计算未展开前,赋予新抽取出来的还没有PageRank值的网页以临时PageRank值,以跟待抓取URL列表形成大小比较,考虑到新抽取网页需要优先抓取的需要。

优缺点:争论不一

c.    OCIP策略

含义:OCIP,在线页面重要性计算。通过“算法开始前,给予所有互联网页面相同现金(cash), 每下载一个页面,便将其对应的现金均分给页内所包含的页面链接,以清空已下载页面的现金值。待抓取URL队列中的网页,均按照现金由多到少排序,并实现顺次抓取”

效果:一种较好的重要性衡量策略,效果优于宽度优先遍历策略。

优缺点:不需迭代,计算速度快,适于实时计算。

d.    大站优先策略

含义:优先下载大型网站,即以网站为单位来衡量网页重要性,对于待抓取URL队列中的网页,根据所属网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接。

你可能感兴趣的:(搜索引擎的技术攻坚战,之爬虫!)