搜索引擎的技术攻坚战，之爬虫！

2014年，一部名为《这就是搜索引擎：核心技术详解》的书，再次把“搜索”这一核心话题，带入公众视野。姑且抛开此书一版再版所折射的隐性魅力不言，正如书中所说，基于其所充当的互联网入口地位，及复杂的实现方式，“搜索引擎”都是目前互联网产品中最具技术含量的产品，即便不是唯一，至少也是其中之一。

而我们今天所要探讨的话题，正是围绕“爬虫抓取策略”所展开的爬虫相关简介，并借此带领我们身边的“老司机”，一起发现那些有可能被忽略掉的理论。

1. 一句话概括爬虫

“传输海量网页数据至本地，并形成数以亿计网页之镜像备份”的高效下载系统设计。

2. 通用爬虫框架流程

a. 精选部分网页链接地址作为种子URL，并将种子URL放入待抓取URL队列；

b. 从待抓取URL队列依次读取URL，并通过DNS将URL链接地址，转换为网站服务器对应的IP地址；

c. 将网站IP地址和网页相对路径名称交给网页下载器，下载页面内容；

d. 将下载后的网页所对应的URL放入已抓取URL队列，并将下载到本地的网页内容存储到页面库，等待后续处理；

e. 从刚下载的网页中抽取所有链接，并与已抓取URL队列做对比，检出未被抓取的URL链接放入待抓取URL队列，并重复新一轮抓取操作；

f. 循环到网页被尽数抓完，完整一轮完整抓取过程。

PS.动态抓取中的爬虫&与网页的相对关系

已下载网页集合：已被爬虫从互联网下载到本地进行索引的网页集合；

已过期网页集合：所对应互联网网页已做动态更新，却未及爬虫展开新一轮爬取的，已被下载到本地的网页集合；

待下载网页集合：处于待抓取URL队列中的网页集合；

可知网页集合：存在于已抓取网页或待抓取网页中的，未及爬取，但迟早会被爬虫通过链接关系发现，并进行抓取和索引的网页集合；

不可知网页集合：爬虫无法抓取到的网页集合；

3. 三种爬虫类型

a. 批量型爬虫

有着明确的抓取范围和目标，达到设定目标（特定数量网页或特定长度时间）即停止抓取的爬虫类型；

b. 增量型爬虫

持续不断地抓取网页，并对已抓取网页进行定期更新的爬虫类型；

c. 垂直型爬虫

只抓取特定行业网页或主题内容的爬虫类型

4. 优秀爬虫需满足的条件

a. 高性能

单位时间尽可能抓取更多的网页；

b. 可扩展

可通过增加抓取服务器和爬虫数量的方式，较为容易地解决缩短抓取周期的问题；

c. 健壮性

能正确应对诸如网页HTML编码不规范、服务器突然死机、爬虫陷阱等异常情况，避免工作中断，或中断后能轻易恢复之前抓取到的数据；

d. 友好性

保护网站的部分私密性（避抓爬虫禁抓协议下的网页，避抓网页禁抓标记下的部分内容），并减少被抓取网站的网络负载；

5. 爬虫抓取策略

爬虫抓取的总原则：优先选择重要网页进行抓取（PageRank是评价网页重要性的常用标准），确定待抓取URL队列则是技术关键。

根据URL优先排序的不同确定方法，划分4种爬虫抓取策略如下：

a. 宽度优先遍历策略

含义：一种通过“将新下载网页包含的链接，直接机械地追加到待抓取URL队列末尾”的方式，实现合理安排URL下载顺序的抓取策略。

特点：简单直观、历史悠久、功能强悍，对比各种抓取策略的基准策略。

优缺点：可基本保证按网页重要性排序待抓取URL列表，效果很好。

b. 非完全PageRank策略

PageRank：一种著名的，能确定网页重要性的，全局性的，链接分析算法。

非完全PageRank策略: 一种“在不完整的互联网页面子集中，计算PageRank，形成待抓取URL队列”的爬虫抓取策略，即连带已下载网页和待抓取URL队列中的URL一起，组成网页集合，并在所组成的网页集合中进行PageRank计算，并按照PageRank得分从高到低的顺序，将待抓取URL队列重排，形成新的待抓取URL队列，这样一种抓取策略。

l 非完全PageRank，常采用“每当新下载网页攒够K个，将所有下载页面重新进行一次非完全PageRank计算”的方法进行；

l 在新一轮非完全PageRank计算未展开前，赋予新抽取出来的还没有PageRank值的网页以临时PageRank值，以跟待抓取URL列表形成大小比较，考虑到新抽取网页需要优先抓取的需要。

优缺点：争论不一

c. OCIP策略

含义：OCIP，在线页面重要性计算。通过“算法开始前，给予所有互联网页面相同现金（cash）, 每下载一个页面，便将其对应的现金均分给页内所包含的页面链接，以清空已下载页面的现金值。待抓取URL队列中的网页，均按照现金由多到少排序，并实现顺次抓取”

效果：一种较好的重要性衡量策略，效果优于宽度优先遍历策略。

优缺点：不需迭代，计算速度快，适于实时计算。

d. 大站优先策略

含义：优先下载大型网站，即以网站为单位来衡量网页重要性，对于待抓取URL队列中的网页，根据所属网站归类，如果哪个网站等待下载的页面最多，则优先下载这些链接。