使用Scrapy爬取的基本

(1)创建工程

scrapy startproject name #name为你想创建的工程名字,名字不可与第三方库名冲突

(2)创建爬虫

cd name
scrapy genspider example example.com #scrapy genspider 爬虫名 爬虫网址

(3)修改pass
进入example.py 文件

将pass修改为  print(response.body.decode())

在终端里执行,直接执行py文件没有作用....

scrapy crawl example

有东西输出,但是还是看不见网页的源代码,打开setting.py发现

# Obey robots.txt rulesROBOTSTXT_OBEY = True

将其修改为

# Obey robots.txt rulesROBOTSTXT_OBEY = False

然后就可以发现源代码被打印出来了
(4)在pycharm里面运行
在工程的根目录里面新建一个,main.py文件,输入如下代码就可以了。

from scrapy import cmdline   
cmdline.execute("scrapy crawl example".split())

你可能感兴趣的:(使用Scrapy爬取的基本)