python网络爬虫-采集整个网站

      上一篇文章中,实现了在一个网站上随机地从一个链接跳掉另一个链接。但是,如果需要系统地把整个网站按目录分类,或者要搜索网站上的每一个页面,就得采集整个网站,那是一种非常耗费内存资源的过程,尤其处理大型网站时,最合适的工具就是用一个数据库来储存采集的资源。

 1. 深网和暗网

     你可能听说过深网(deep Web)、暗网(dark Web)或者隐藏网络(hidden Web)之类的术语,尤其在最近的媒体中。它们是什么意思呢?深网是网络的一部分,与浅网(surface Web)对立。浅网是互联网上搜索引擎可以抓到的那部分网络。据不完全统计,互联网中其实约90%网络都是深网。因为谷歌不能做像表单提交这类事情,也找不到那些没有直接链接到顶层域名上的网页,或者因为有robots.txt禁止而不能查看网站,所以浅网的数量相对深网还是比较少的。

     暗网,也被称为Darknet或者dark Internet,完全是另一种“怪兽”。它们也建立在已有的网络基础上,但是使用Tor客户端,带有运行在HTTP之上的新协议,提供了一个信息交换的安全隧道。这类暗网页面也是可以采集的,就像你采集其他网站一样,不过这些内容超出了本章的讨论范围。

     和暗网不同,深网相对容易采集。可以让你采集那些Google爬虫机器人不能获取的深网信息。

2. 遍历整个网站的网络数据采集有许多好处:

  (1)生成网站地图

       使用爬虫采集整个网站,收集所有的链接,再把所有的页面整理成网站实际的形式。

  (2)收集数据

你可能感兴趣的:(python网络爬虫,整个网站采集,python网络爬虫)