scrapy 的使用思路

1、创建 scrapy 项目 scrapy startproject filedName
scrapy 的使用思路_第1张图片
-w753
scrapy 的使用思路_第2张图片
-w523

明确目标

scrapy 的使用思路_第3张图片
-w793
2、scrapy genspider filedName itcase.cn(爬取域范围)
scrapy 的使用思路_第4张图片
-w758
3、爬取 scrapy crawl [crawl name] -o file

爬虫命令导出文件,支持四种导出文件方式, Json,csv,xml,json lines

scrapy 的使用思路_第5张图片
-w751
scrapy 的使用思路_第6张图片
WX20180828-215138
scrapy 的使用思路_第7张图片
-w822

爬虫出现乱码可以使用代码解决

scrapy 的使用思路_第8张图片
-w803

yield 作用: 返回数据,函数变为生成器,一直获取值,值不会重新执行,有 Return 一样的作用。在上次执行的地方继续执行。返回给管道,返回给管道后,继续进行到 for 循环里面。避免存放到空列表中占用较大内存。

错误提示处理:

TypeError: write() argument must be str, not bytes

之前文件打开的语句是:

filehandle = open(WAV_FILE, 'w')
然后使用二进制方式打开就没有这个问题:

filehandle = open(WAV_FILE, 'wb+')
产生问题的原因是因为存储方式默认是二进制方式。


爬虫的一般步骤

scrapy 的使用思路_第9张图片
-w604

469.jpg)

你可能感兴趣的:(scrapy 的使用思路)