虚拟环境搭建与scrapy爬虫项目创建

虚拟环境搭建(virtualenv):

pip 安装 virtualenvwrapper-win 统一管理虚拟环境,放在环境变量WORKON_HOME路径下(Evns文件夹下)然后可以在cmd中执行下列命令:

  • workon 显示当前所有虚拟环境;
  • workon + 名称 进入相应虚拟环境;
  • mkvirtualenv + 名称 创建虚拟环境。

安装库:

  • (镜像快速下载)镜像:pip install -i https://pypi.douban.com/simple 库名
  • (找不到时可用)进入 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应版本 whl 文件,cmd 进入所在目录,用 workon 进入虚拟环境,再pip install whl文件名

弯路经验:
有时候 pip 安装 scrapy 库会报错,可以试试先安装twisted,然后安装 scrapy

创建项目:

scrapy startproject + 项目名

创建爬虫:

  • 进入项目目录;
  • scrapy genspider + 爬虫名 + 网址

在 pycharm 打开后,spider 文件夹右键 synchronize(同步) 就能显示爬虫文件

运行爬虫:

scrapy crawl + 爬虫名

pycharm 中通过在项目文件夹中新建 main文件,execute([“scrapy”,“crawl”,“jobbole”]) 传入命令执行

# main.py
from scrapy.cmdline import execute
import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__)))
# 获取main文件所在目录(abspath)的父目录(dirname)

execute(["scrapy","crawl","jobbole"])
# cmd中运行爬虫的命令当作数组传进,就可以执行了

命令行调试:

scrapy shell + 网址

一个交互终端, 未启动爬虫情况下尝试及调试代码

  1. response . xpath(“定位命令”) / response . css(“css选择器”) 获取结果Selector对象
  2. Selector对象还可继续xpath,"./" 本目录下;"../" 父目录
  3. Selector对象 . extract() 从Selector对象中提取获得的数据列表
  4. 用 extract_first() 代替 extract()[0] 防止列表为空

你可能感兴趣的:(scrapy爬虫)