学习scrapy——介绍&安装

学习scrapy——介绍&安装


介绍

Scrapy是一个从各种资源中抓取数据的健壮web框架。参见 初窥Scrapy 。

安装 pip

本部分来自: https://pip.pypa.io/en/stable/installing/

我需要安装pip吗?

如果你的python版本: python2 >= 2.7.9 或 python3 >=3.4 ,且是从 python.org 下载的,那么pip已经安装了。

如果你使用的是由 virtualenv 或 pyvenv 创建的虚拟环境,那么pip已经安装了。

通过 get-pip.py 安装

下载get-pip.py 。
运行下面的指令:

python get-pip.py

对于windows用户,如果没有为python配置系统环境变量,则需要cd到python根目录。
对于windows用户,如果用户名是中文可能导致安装出错,最好新建一个纯英文的用户名,如何在该用户下安装。

安装 scrapy

运行下面的指令:

pip install scrapy

Scrapy 不是什么 ?

Scrapy 不是 Apache Nutch。这意味着它不是一个通用网络爬虫。如果Scrapy访问一个它什么都不知道的网站,它将无法获得任何有意义的东西。Scrapy能够提取结构化信息,需要人为的努力去建立适当的XPath或CSS表达式。Apache Nutch 获取一个一般的网页并提取信息,例如关键字。它可能更适合一些应用。

Scrapy 不是 Apache Solr, Elasticsearch, 或 Lucene。换言之,它与搜索引擎无关。Scrapy 不会给你一个包含‘Einstein’单词文件索引或者其他这类的东西。你可以使用通过Scrapy提取的数据,并将它插入Solr或Elasticsearch,但这只是使用Scrapy的方法,并不是嵌入Scrapy的东西。

Scrapy 不是像MySQL, MongoDB, or Redis 之类的数据库。它既不存储也不索引数据。它仅仅提取数据。

你可能感兴趣的:(心得体会)