2014年,一部名为《这就是搜索引擎:核心技术详解》的书,再次把“搜索”这一核心话题,带入公众视野。姑且抛开此书一版再版所折射的隐性魅力不言,正如书中所说,基于其所充当的互联网入口地位,及复杂的实现方式,“搜索引擎”都是目前互联网产品中最具技术含量的产品,即便不是唯一,至少也是其中之一。
而我们今天所要探讨的话题,正是围绕“爬虫抓取策略”所展开的爬虫相关简介,并借此带领我们身边的“老司机”,一起发现那些有可能被忽略掉的理论。
1. 一句话概括爬虫
“传输海量网页数据至本地,并形成数以亿计网页之镜像备份”的高效下载系统设计。
2. 通用爬虫框架流程
a. 精选部分网页链接地址作为种子URL,并将种子URL放入待抓取URL队列;
b. 从待抓取URL队列依次读取URL,并通过DNS将URL链接地址,转换为网站服务器对应的IP地址;
c. 将网站IP地址和网页相对路径名称交给网页下载器,下载页面内容;
d. 将下载后的网页所对应的URL放入已抓取URL队列,并将下载到本地的网页内容存储到页面库,等待后续处理;
e. 从刚下载的网页中抽取所有链接,并与已抓取URL队列做对比,检出未被抓取的URL链接放入待抓取URL队列,并重复新一轮抓取操作;
f. 循环到网页被尽数抓完,完整一轮完整抓取过程。
PS.动态抓取中的爬虫&与网页的相对关系
已下载网页集合:已被爬虫从互联网下载到本地进行索引的网页集合;
已过期网页集合:所对应互联网网页已做动态更新,却未及爬虫展开新一轮爬取的,已被下载到本地的网页集合;
待下载网页集合:处于待抓取URL队列中的网页集合;
可知网页集合:存在于已抓取网页或待抓取网页中的,未及爬取,但迟早会被爬虫通过链接关系发现,并进行抓取和索引的网页集合;
不可知网页集合:爬虫无法抓取到的网页集合;
3. 三种爬虫类型
a. 批量型爬虫
有着明确的抓取范围和目标,达到设定目标(特定数量网页或特定长度时间)即停止抓取的爬虫类型;
b. 增量型爬虫
持续不断地抓取网页,并对已抓取网页进行定期更新的爬虫类型;
c. 垂直型爬虫
只抓取特定行业网页或主题内容的爬虫类型
4. 优秀爬虫需满足的条件
a. 高性能
单位时间尽可能抓取更多的网页;
b. 可扩展
可通过增加抓取服务器和爬虫数量的方式,较为容易地解决缩短抓取周期的问题;
c. 健壮性
能正确应对诸如网页HTML编码不规范、服务器突然死机、爬虫陷阱等异常情况,避免工作中断,或中断后能轻易恢复之前抓取到的数据;
d. 友好性
保护网站的部分私密性(避抓爬虫禁抓协议下的网页,避抓网页禁抓标记下的部分内容),并减少被抓取网站的网络负载;
5. 爬虫抓取策略
爬虫抓取的总原则:优先选择重要网页进行抓取(PageRank是评价网页重要性的常用标准),确定待抓取URL队列则是技术关键。
根据URL优先排序的不同确定方法,划分4种爬虫抓取策略如下:
a. 宽度优先遍历策略
含义: 一种通过“将新下载网页包含的链接,直接机械地追加到待抓取URL队列末尾”的方式,实现合理安排URL下载顺序的抓取策略。
特点:简单直观、历史悠久、功能强悍,对比各种抓取策略的基准策略。
优缺点:可基本保证按网页重要性排序待抓取URL列表,效果很好。
b. 非完全PageRank策略
PageRank:一种著名的,能确定网页重要性的,全局性的,链接分析算法。
非完全PageRank策略: 一种“在不完整的互联网页面子集中,计算PageRank,形成待抓取URL队列”的爬虫抓取策略,即连带已下载网页和待抓取URL队列中的URL一起,组成网页集合,并在所组成的网页集合中进行PageRank计算,并按照PageRank得分从高到低的顺序,将待抓取URL队列重排,形成新的待抓取URL队列,这样一种抓取策略。
l 非完全PageRank,常采用“每当新下载网页攒够K个,将所有下载页面重新进行一次非完全PageRank计算”的方法进行;
l 在新一轮非完全PageRank计算未展开前,赋予新抽取出来的还没有PageRank值的网页以临时PageRank值,以跟待抓取URL列表形成大小比较,考虑到新抽取网页需要优先抓取的需要。
优缺点:争论不一
c. OCIP策略
含义:OCIP,在线页面重要性计算。通过“算法开始前,给予所有互联网页面相同现金(cash), 每下载一个页面,便将其对应的现金均分给页内所包含的页面链接,以清空已下载页面的现金值。待抓取URL队列中的网页,均按照现金由多到少排序,并实现顺次抓取”
效果:一种较好的重要性衡量策略,效果优于宽度优先遍历策略。
优缺点:不需迭代,计算速度快,适于实时计算。
d. 大站优先策略
含义:优先下载大型网站,即以网站为单位来衡量网页重要性,对于待抓取URL队列中的网页,根据所属网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接。