python_2_Scrapy_1


Scrapy官网

这只是个学习笔记,所以..不要奢求太多
仅仅只是记录下作者的学习历程,同时,
欢迎互相交流学习

step1 构建环境

此处默认已经构建了pyenv和pyenv-virturlenv(不懂?看上一篇,python环境的构建)。

  1. 创建项目目录,把该目录置为Python3.5.2的虚拟环境
  2. 在该虚拟环境下执行

echo "export PATH=/usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
source ~/.bashrc
pip install Scrapy

详情见:https://doc.scrapy.org/en/latest/intro/install.html

  1. 此时已经完成安装Scrapy,然后初始化一个项目工程,在终端执行:

scrapy start project tutorial

目录内会自动创建一个项目工程,结构如下:

python_2_Scrapy_1_第1张图片
目录结构.png

step2 Scrape shell命令

scrapy crawl [quotes]     #在tutorial目录下运行爬虫 [quotes]为爬虫名字

scrapy shell ['http://quotes.toscrape.com/page/1/']     #scrapy分析目标网址元素
分析目标网址后,可使用如下命令获取具体元素
>>> response.css('title::text').extract()
>>> response.xpath('//title/text()').extract_first()
使用详见(https://doc.scrapy.org/en/latest/intro/tutorial.html#our-first-spider)

scrapy crawl [quotes] -o [quotes.json]      #简单存储指定爬虫的数据(追加写文件方式),多次存储会损坏son格式,[quotes]为爬虫名字,[quotes.json]为存储文件
scrapy crawl [quotes] -o [quotes.jl]        #简单存储指定爬虫的数据(追加写文件方式),可多次存储,[quotes]为爬虫名字,[quotes.jl]为存储文件,PS:.jl为json lines

scrapy crawl quotes -o quotes-humor.json -a tag=humor     #向start_requests方法传递参数,可用作简单筛选

step3 爬虫示例

此处是按照官方示例所写
代码放在github

看~灰机~灰机灰过来了~灰机又灰过去了~

你可能感兴趣的:(python_2_Scrapy_1)