Scrapy 创建项目,爬取电影源码

在开始爬取之前,必须创建一个新的 Scrapy 项目。cd进入自定义的目录中

然后cd 到我们的spidername 目录下,下面我们以创建一个电影爬取为例:

创建好了生成一个dy文件项目,打开这个文件,文件目录:

scrapy.cfg:项目的配置文件Spider/:项目的 Python 模块,将会从这里引用代码Spider/items.py:项目的目标文件Spider/pipelines.py:项目的管道文件Spider/settings.py:项目的设置文件Spider/spiders/:存储爬虫代码目录在spiders 里面明确抓取目标(dytt8net/items.py)

我们打算抓取 某网站里面的电影名称和链接地址。

打开 mySpider 目录下的 items.py,Item 定义结构化数据字段,用来保存爬取到的数据,这里和 dict 类似,但是提供了一些额外的保护减少错误可以通过创建一个 scrapy.Item 类, 并且定义类型为 scrapy.Field 的类属性来定义一个 Item(可以理解成类似于 ORM 的映射关系)4. 里面已经创建好了一个DyItem的类,

爬取数据

在目录下输入以下命令,将在 目录下创建一个名为VidoDySpider

的爬虫类,并指定爬取域的范围:

import scrapy

class VidoDySpider(scrapy.Spider):name = 'vido_dy' allowed_domains = ['dytt8net'] start_urls = [''] def parse(self, response): pass

以上代码文件也可以我们自己创建并编写相关代码,这里要注意的是要建立一个 Spider, 你必须用 scrapy.Spider 类创建一个子类,并确定了三个强制的属性和一个方法。

name = "":这个爬虫的识别名称,必须是唯一的,在不同的爬虫必须定义不同的名字,否则会出现报错。allow_domains = []:是搜索的域名范围,也就是爬虫的约束区域,规定爬虫只爬取这个域名下的网页。start_urls = ():爬取得 URL 元祖/列表。爬虫从这里开始抓取数据,所以,第一次下载的数据将会从这些 URLs 开始。其他子 URL 将会从这些起始 URL 中继承性生成。parse(self, response):解析的方法,每个初始 URL 完成下载后将被调用,调用的时候传入从每一个 URL 传回的 Response 对象来作为唯一参数,主要作用如下:负责解析返回的网页数据(response.body), 提取结构化数据(生成 item)生成需要下一页的 URL 请求。这里我们将 start_urls 设置需要爬取得 URL,我图上的网址不对,大家要输入正确的,我只做演示。在parse方法下新建文件并且写入要存取的网页源码,

然后启动爬虫,启动命令:

Scrapy crawl vido_dy

最后提醒大家

http://www.wu0553.com/m/view.php?aid=37247
http://www.wu0553.com/m/view.php?aid=37250
http://www.wu0553.com/m/view.php?aid=37251
http://www.wu0553.com/m/view.php?aid=37253
http://www.wu0553.com/m/view.php?aid=37254
http://www.wu0553.com/m/view.php?aid=37256
http://www.wu0553.com/m/view.php?aid=37257
http://www.wu0553.com/m/view.php?aid=37259
http://www.wu0553.com/m/view.php?aid=37260
http://www.wu0553.com/m/view.php?aid=37261
http://www.wu0553.com/m/view.php?aid=37263
http://www.wu0553.com/m/view.php?aid=37267
http://www.wu0553.com/m/view.php?aid=37268
http://www.wu0553.com/m/view.php?aid=37322
http://www.wu0553.com/m/view.php?aid=37366
http://www.wu0553.com/m/view.php?aid=37370
http://www.wu0553.com/m/view.php?aid=37377
http://www.wu0553.com/m/view.php?aid=37395
http://www.wu0553.com/m/view.php?aid=37396
http://www.wu0553.com/m/view.php?aid=37397
http://www.wu0553.com/m/view.php?aid=37402
http://www.wu0553.com/m/view.php?aid=37403
http://www.wu0553.com/m/view.php?aid=37404
http://www.wu0553.com/m/view.php?aid=37405
http://www.wu0553.com/m/view.php?aid=37406
http://www.wu0553.com/m/view.php?aid=37407
http://www.wu0553.com/m/view.php?aid=37430
http://www.wu0553.com/m/view.php?aid=37431
http://www.wu0553.com/m/view.php?aid=37432
http://www.wu0553.com/m/view.php?aid=37433
http://www.wu0553.com/m/view.php?aid=37436
http://www.wu0553.com/m/view.php?aid=37441
http://www.wu0553.com/m/view.php?aid=37448
http://www.wu0553.com/m/view.php?aid=37454
http://www.wu0553.com/m/view.php?aid=37455
http://www.wu0553.com/m/view.php?aid=37465
http://www.wu0553.com/m/view.php?aid=37466
http://www.wu0553.com/m/view.php?aid=37467
http://www.wu0553.com/m/view.php?aid=37468
http://www.wu0553.com/m/view.php?aid=37469
http://www.wu0553.com/m/view.php?aid=37470
http://www.wu0553.com/m/view.php?aid=37471
http://www.wu0553.com/m/view.php?aid=37473
http://www.wu0553.com/m/view.php?aid=37474
http://www.wu0553.com/m/view.php?aid=37475
http://www.wu0553.com/m/view.php?aid=37476
http://www.wu0553.com/m/view.php?aid=37477
http://www.wu0553.com/m/view.php?aid=37478
http://www.wu0553.com/m/view.php?aid=37480
http://www.wu0553.com/m/view.php?aid=37481
http://www.wu0553.com/m/view.php?aid=37482
http://www.wu0553.com/m/view.php?aid=37483
http://www.wu0553.com/m/view.php?aid=37606
http://www.wu0553.com/m/view.php?aid=37609
http://www.wu0553.com/m/view.php?aid=37614
http://www.wu0553.com/m/view.php?aid=37616
http://www.wu0553.com/m/view.php?aid=37619
http://www.wu0553.com/m/view.php?aid=37623
http://www.wu0553.com/m/view.php?aid=37625
http://www.wu0553.com/m/view.php?aid=37628
http://www.wu0553.com/m/view.php?aid=37632
http://www.wu0553.com/m/view.php?aid=37635
http://www.wu0553.com/m/view.php?aid=37638
http://www.wu0553.com/m/view.php?aid=37640
http://www.wu0553.com/m/view.php?aid=37642
http://www.wu0553.com/m/view.php?aid=37654
http://www.wu0553.com/m/view.php?aid=37656
http://www.wu0553.com/m/view.php?aid=37658
http://www.wu0553.com/m/view.php?aid=37663
http://www.wu0553.com/m/view.php?aid=37665
http://www.wu0553.com/m/view.php?aid=37666
http://www.wu0553.com/m/view.php?aid=37667
http://www.wu0553.com/m/view.php?aid=37669
http://www.wu0553.com/m/view.php?aid=37670
http://www.wu0553.com/m/view.php?aid=37671
http://www.wu0553.com/m/view.php?aid=37672
http://www.wu0553.com/m/view.php?aid=37673
http://www.wu0553.com/m/view.php?aid=37674
http://www.wu0553.com/m/view.php?aid=37675
http://www.wu0553.com/m/view.php?aid=37677
http://www.wu0553.com/m/view.php?aid=37678
http://www.wu0553.com/m/view.php?aid=37679
http://www.wu0553.com/m/view.php?aid=37680
http://www.wu0553.com/m/view.php?aid=37681
http://www.wu0553.com/m/view.php?aid=37682
http://www.wu0553.com/m/view.php?aid=37683
http://www.wu0553.com/m/view.php?aid=37684
http://www.wu0553.com/m/view.php?aid=37688
http://www.wu0553.com/m/view.php?aid=37690
http://www.wu0553.com/m/view.php?aid=37694
http://www.wu0553.com/m/view.php?aid=37715
http://www.wu0553.com/m/view.php?aid=37716
http://www.wu0553.com/m/view.php?aid=37721
http://www.wu0553.com/m/view.php?aid=37724
http://www.wu0553.com/m/view.php?aid=37727
http://www.wu0553.com/m/view.php?aid=37729
http://www.wu0553.com/m/view.php?aid=37730
http://www.wu0553.com/m/view.php?aid=37731
http://www.wu0553.com/m/view.php?aid=37733

源码就爬取下来了,由于老婆经旁边叽叽歪歪,写不下去了,有支持我咒他一顿的给个赞,太累,明天带大家爬取电影,今天先把网页源码爬取下来。

你可能感兴趣的:(Scrapy 创建项目,爬取电影源码)