如果你还没有搭建好开发环境,请到这篇博客。
接下来我们为大家创建一个Scrapy爬虫项目,并在爬虫项目下创建一个Scrapy爬虫文件。
scrapy startproject <projectname>
cd demo
scrapy genspider -t basic <filename> <domain>
更多 Scrapy 命令的介绍请到这篇博客查看。
我们创建一个爬虫项目,在里面创建一个爬虫文件来爬取百度,并再创建一个爬虫文件爬取CSDN博客文章。
先创建一个Scrapy爬虫项目:
scrapy startproject firstDemo
输出:
D:\WorkSpace\python_ws\python-large-web-crawler>scrapy startproject firstdemo
New Scrapy project 'firstdemo', using template directory 'c:\\users\\aobo\\appdata\\local\\programs\\python\\python35\\lib\\site-packages\\scrapy\\templates\\project', created in:
D:\WorkSpace\python_ws\python-large-web-crawler\firstdemo
You can start your first spider with:
cd firstdemo
scrapy genspider example example.com
D:\WorkSpace\python_ws\python-large-web-crawler>
创建一个爬虫文件来爬取百度
cd firstDemo
scrapy genspider -t basic baidu baidu.com
输出:
D:\WorkSpace\python_ws\python-large-web-crawler>cd firstdemo
D:\WorkSpace\python_ws\python-large-web-crawler\firstdemo>scrapy genspider -t basic baidu baidu.com
Created spider 'baidu' using template 'basic' in module:
firstdemo.spiders.baidu
D:\WorkSpace\python_ws\python-large-web-crawler\firstdemo>
打开 PyCharm 软件,用 PyCharm 软件打开刚刚创建的 firstdemo
爬虫项目。
打开这 baidu.py
爬虫文件,你会看到自动生成的代码:
(源代码太多,列出重点的。)
<html xmlns="http://www.w3.org/1999/xhtml" class="cye-enabled cye-nm sui-componentWrap">
百度一下,你就知道