python-scrapy教程(一):创建工程,并抓取数据

首先,做一下简介:Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

1、创建工程:选择一个文件夹,然后:scrapy startproject youku
2、进入文件夹:cd youku
3、创建py文件,制定采集网址后缀: scrapy genspider data youku.com
如图:
python-scrapy教程(一):创建工程,并抓取数据_第1张图片
4、打开data.py文件进行主程序编写。
python-scrapy教程(一):创建工程,并抓取数据_第2张图片
5、我们再来看一下正则匹配的一些内容
python-scrapy教程(一):创建工程,并抓取数据_第3张图片
python-scrapy教程(一):创建工程,并抓取数据_第4张图片
6、运行程序
python-scrapy教程(一):创建工程,并抓取数据_第5张图片
main.py中写入以下程序,然后右击运行
7、运行结果:
python-scrapy教程(一):创建工程,并抓取数据_第6张图片

下一章节对数据采集入库,网页跳转,翻页进行讲解

 
 

你可能感兴趣的:(Python)