Python-web-scraping简介

一、什么是web scraping

简单的可以概括为以下步骤:

1.从一个域名(网址)获得HTML数据

2.从获得的数据中分析到目标信息

3.存储目标信息

4.如果你愿意,换一个网页重复上述操作

二、为什么要进行web scraping

1.如果只会通过浏览器访问互联网,我们将会丧失许多的可能。尽管浏览器可以很方便处理JavaScript脚本,展示图片,以人类可读的方式处理对象,但是web scraper更适合于收集和处理大量数据。因而,你不用一次只在一个小窗口里浏览一个页面,你可以一次性浏览上千甚至上百万的页面。

2.其次,web scraper还可以做传统搜索引擎做不了的工作。如果你用搜索引擎搜索“去往A市最便宜的航班”,那么你可能得到大量的广告或者是一些航班搜索站点。搜索引擎只知道这些网站的内容页面,却不知道针对具体问题的准确答案。然而一个开发良好的web scraper可以造访若干网站,记录通往A市的航班的价格,最终告诉你购票的最佳时间。

3.有些人可能会问,为什么不使用某些API呢?当然,如果恰好你能找到适合你的API,那再好不过。但是,也有一些原因导致某些你想要的API不存在:

1)某些你想要获得数据的站点,不提供相应的API

2)你需要的数据量较小、有限,所以站点管理员不认为这需要一些API

3)该数据源的管理者,没有相应的基础设施和技术能力进行API的开发

即使存在相应的API,也会存在种种原因使得你的目的不能被满足,所以@_@开始web scraping的学习吧。



三、附录

本系列博客参考该书进行编写

Python-web-scraping简介_第1张图片


你可能感兴趣的:(Python-web-scraping简介)