爬虫相关工具安装及操作说明

Anaconda,需要设置环境变量

  • path下新建C:\Users\Think\Anaconda3
  • path下新建C:\Users\Think\Anaconda3\Scripts
  • path下新建C:\Users\Think\Anaconda3\Lib

安装python,conda已自带
安装pip,conda已自带
用pip安装常用工具包,用到什么装什么:
pip install lxml
pip install selenium
……

安装pycharm:

建议选择专业版
pycharm在使用from lxml import etree时,很多人会遇到“找不到指定模块”的错误,无法导入模块函数。遇到这种情况,请卸载lxml包pip uninstall lxml,然后到https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 重新下载和系统匹配和python版本匹配的lxml包,重新安装pip install 文件名.whl

安装虚拟环境管理工具包:

pip install virtualenv
pip install virtualenvwrapper

用virtualenvwrapper创建虚拟环境文件夹:

  • 用cd命令切换到虚拟文件夹要存放的路径下
  • mkvirtualenv envs(envs是虚拟环境名称)命令创建虚拟环境
  • 用virtualenv创建虚拟环境要激活
  • virtualenv envs(envs是虚拟环境名称)创建虚拟环境
  • cd进入到文件夹Envs\venv\Scripts
  • 执行激活,输入:activate
  • 退出,输入:deactivate
  • 需要设置虚拟环境变量:
  • 变量:WORKON_HOME,值:虚拟环境文件夹路径

win下下载tesseract.exe图片识别工具包,设置环境变量:

  • path下新建E:\AI\tool\TesseractOCR
  • 变量:TESSDATA_PREFIX,值:E:\AI\tool\TesseractOCR\tessdata
  • 需要安装pytesseract
pip install pytesseract

安装scrapy框架包:

pip install scrapy
  • 提示需要安装twisted,安装要手动下载和python匹配的版本,手动安装
  • 如果一直提示无法安装twisted需要visual c++ 14.0的话,说明版本还是不对。继续去找正确的twisted来安装。twisted安装成功了,scrapy就能安装了。
pip instal Twisted
  • 还需要安装pypiwin32,如果没安装以后运行scrapy项目时会报错
pip install pypiwin32
  • 只能通过cmd来创建项目,无法通过pycharm直接创建scrapy项目
  • cd 进入项目要存放的路径
  • 用命令:scrapy startproject 项目名称 来创建项目
  • 创建项目,需要进入安装scrapy的系统环境或虚拟环境下执行

待补充……

你可能感兴趣的:(爬虫相关工具安装及操作说明)