python爬虫技术

随着信息时代快速的发展,互联网技术的普及和应用,网络上每天都会产生海量的数据,这些数据在人类的各个领域都有非常大的应用价值,无论是进行数据分析还是产品需求分析,都需要从网络上,提取出我们感兴趣的、有价值的数据。虽然现在是信息化时代,但是仅仅依靠人的两只手和一双眼睛,到网页上去获取有价值的数据,这显然是不现实的,这就需要一种能够自动获取网页内容,按照特定的规则提取出想要的数据,这就是爬虫技术。
网络爬虫又称网页蜘蛛, 就是模拟客户端发送网络请求,接受请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。爬虫的目地是获取有价值的数据保存, 为了方便进行数据分析。网络爬虫技术的发展起源于海量数据的可用性, 通过网络爬虫, 很容易获取网络上的数据,并通过对数据的分析整理,得出有价值的结论。按照被爬虫网站数量的不同,可将爬虫分为两类:通用爬虫与聚焦爬虫。搜索引擎是通用爬虫最常见的一种形式,主要是给用户提供搜索数据的接口;而聚焦爬虫则是一种针对特定领域爬虫数据的程序,是面向主题爬虫。
目前,网络上的爬虫大致分为以下三种类型:第一种是批量型网络爬虫,其主要特点是限制抓取的属性,包括抓取范围、特定目标限制抓取时间、限制数据量以及限制抓取页面。第二种是增量网络爬虫,与前者相反,没有固定的限制,其特点是无休无止地爬虫直到抓完所有数据,这种类型一般应用于搜索弓|擎的网站爬虫。第三种是垂直网络爬虫,简单的可以理解为一个无限细化的增量网络爬虫,可以细致的对诸如行业、内容、发布时间、页面大小等很多因素进行筛选。这些爬虫的功能不一,使用方法与适用对象也都不相同,例如谷歌、百度搜索就是典型的增量型爬虫,提供大而全的内容来满足世界各地的用户。另外像天猫、京东很多店铺都需要屏蔽外来的抓取,这时就需要爬虫根据一些低级域名的链接来抓取他们进行排名。但是,爬虫的一般流程是一致的:
(1)初始URL列表,将URL放入到待爬虫队列。
(2)取出URL,解析IP地址,根据IP站点下载要获取的HTML页面,
下载内容保存到数据库中,爬取完后URL放入到已爬完队列。
(3)分析页面内容,获取想要的数据,提取出里面的URL链接。
(4)重复步骤(2)。
这里采用的是增量型爬虫,选择的是其中最常见的爬虫框架Scrapy,能帮助我们快捷地获取到学生成果数据。加上Python语言使用起来简单,在Xpath选择器和正则表达式的配合下,使得数据抓取变得更加的容易。

你可能感兴趣的:(python爬虫技术)