由于公司最近要写一个数据爬取工具,以前没接触过python 使用原生python 开发了一套携程国内酒店数据爬取,后来同事推荐使用scrapy爬虫框架进行开发.在这中间吐槽一下,因为使用java(spring 手动滑稽)开发习惯了,初接触到python各种踩坑... 特别是scrapy这个框架的搭建以及scrapy框架爬虫在windows部署发布,中间是遇到了各种问题,当然scrapy中还有很东西我并没有接触到,开发过程中也是特别懵逼...
我先记录下我踩过的坑,scrapy这个框架在安装是需要注意的地方:
1,安装 anaconda
1.1:下载地址
1.2: 安装直接一路next就好,我勾选了Add Anaconda to my PATH environment variable 这步其实完全不需要, 无需勾选!!! 如有需要替换安装目录过后完全可以一路next毫不停留... 如果勾选了上面那个选项会出现和我一样的情况 anaconda 直接去注册了环境变量
1.3:安装完毕后使用anaconda prompt 使用以管理员身份运行 (见图1-1) 运行完成需要切换环境!!! activate 环境名
1.4:pip install scrapy
1.5: 创建scrapy框架 scrapy startproject 项目名
1.6: scrapy genspider 爬虫名 爬取域名 会生成一个py文件见图(1-2)
1.7:初始项目完成 使用编辑器打开根目录使用scrapy 就行了.
后续:
在这中间可能会出现pywin32未安装 导致scrapy 安装失败 pywin32GItHub地址
pywin32的安装可百度教程
下一篇:scrapy web 发布