Scrapy爬虫框架搭建及pycharm中scrapy插件配置

Scrapy爬虫框架搭建

    • Scrapy爬虫框架简介
    • Scrapy安装
    • Pycharm中搭建Scrapy环境

Scrapy爬虫框架简介

Scrapy 是python实现爬取网站数据,提取结构性数据而编写的应用框架,可用于广泛的应用程序,如数据挖掘、信息处理或历史存档。 它使用 Twisted 包(基于事件驱动的网络引擎包)高效地处理网络通信,使用 lxml 、 cssselect 高效提取 HTML 页面, 同时也提供了有效的线程管理。

Scrapy安装

可以在命令行使用pip进行安装:

pip3 install scrapy

直接使用pip安装时,可能会安装失败,因为Scrapy需要大量的第三方依赖包。比如:Twisted, lxml, pyOpenSSL, pywin32等。

首先,我们安装wheel,因为后续安装文件都是whl。

pip3 install wheel

接下来,下载依赖包。去依赖库 下载。

  1. Twisted 依赖包: (cp37 表示 python 版本 3.7 版本, win32/64 根据自己 windows 系统选择)
    Twisted‑19.2.1‑cp37‑cp37m‑win_amd64.whl

下载完成后,在命令行进入下载路径,再使用pip进行安装:

pip3 install Twisted‑19.2.1‑cp37‑cp37m‑win_amd64.whl

【注意】
最好把安装包放在python安装目录下,以便以后找寻。

  1. lxml 依赖包: 同理,在依赖库中下载包进行安装。

pip3 install lxml‑3.7.2‑cp35‑cp35m‑win_amd64.whl

  1. 下载并安装scrapy

pip3 install Scrapy

验证Scrapy是否安装成功,只需在命令行中:

scrapy version

如果出现下图,即安装成功。
Scrapy爬虫框架搭建及pycharm中scrapy插件配置_第1张图片

Pycharm中搭建Scrapy环境

通常来说,系统中安装好 Scrapy, pycharm 中导入插件即可使用。但事情往往不尽人意,直接在 pycharm 中安装 scrapy 插件一般来说是会失败的。

报错的原因还是在于 scrapy 需要大量的依赖库,所以,在pycharm 中,首先安装 lxml, pyOpenSSL, pywin32 插件。这些插件在网络环境好的情况下,均可成功安装。

File -> Settings -> Project Interpreter -> add

接下来,再安装插件 Twisted, 倘若安装失败, 则直接将之前使用命令行安装的 Twisted 和 Scrapy 安装文件夹放在 python 安装路径的 Lib -> site-packages 下,即可看到Pycharm中插件已经安装成功。
如下图:
Scrapy爬虫框架搭建及pycharm中scrapy插件配置_第2张图片

你可能感兴趣的:(Notes)