网络爬虫简介

什么是网络爬虫

简单的说,网络爬虫是一种自动提取网页内容的程序,按照实现技术可以分为:

  • 通用网络爬虫(General Purpose Web Crawler):对整个Web网络进行信息采集,常用于搜索引擎、门户站点等。由于商业原因,它们的技术细节很少公布出来,这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,普通人接触不到。

  • 聚焦网络爬虫(Focused Web Crawler):只爬取那些与目标主题相关页面的信息,和通用网络爬虫相比,信息搜集数量低,对硬件资源和算法性能要求不高,有很多开源算法,入门快、学习门槛低。人们常说的网络爬虫即指聚焦网络爬虫

网络爬虫主要功能

网络爬虫主要功能是从目标网站:

  1. 抓取所有内容

  2. 去掉不需要的数据

  3. 将有用的数据整理待用

常见爬虫框架

基于Python爬虫框架开发爬虫应用是小公司或者个人开发者的不二选择。从性能上来说,有人基于相同(相近)的爬虫算法,分别实现C++,C#,Python三个版本;在同样的环境分别测试,发现三个版本的性能一模一样,原因是:抓取速度根本赶不上处理速度,解析单元几乎一直处于挂起状态,哪个语言都一样。

常见的Python爬虫框架有:Scrapy、Pyspider、Crawley、Portia、Beautiful Soup等等。鉴于Scrapy是一个纯Python实现的爬虫框架,且社区最活跃、使用人数最多,本文选取Scarpy做为项目的爬虫框架。

Scrapy简介

Scrapy(https://scrapy.org/)是一个用于从网站快速提取结构化数据的开源框架,如下图所示。基于Scrapy框架可以快速实现一个网络爬虫,抓取指定网站的内容或图片。

Scrapy

安装Scrapy

在使用Scrapy前,需要安装Scrapy,使用命令:

pip install scrapy

若如1.6.4节所示,配置好了清华镜像源,推荐用命令:

conda install -c conda-forge scrapy

这样安装速度会更快。

安装好Scrapy后,在Windows命令行界面中输入命令:

scrapy

若出现下图所示画面,证明Scrapy安装成功。

Scrapy安装成功

你可能感兴趣的:(网络爬虫简介)