Scrapy的乱七八糟

Scrapy是python2.7的一个open source package,目前还不支持py3,安装直接pip install scrapy就可以。

干嘛的?
写爬虫。

使用体会
从backbone开始,到react, angular等一系列前端框架,这次写爬虫用scrapy,深刻体会到一个“束缚性”,the frame calls you, you call the library。当然这不是说框架不好,相反我觉得有两点好处:第一,适合快速上手,毕竟一步一步的都规定好了;第二,效率高。

重点在哪?

  • Scrapy的几个关键命令,比如说
scrapy startproject tutorial
scrapy genspider dmoz
scrapy crawl dmoz
  • Item 的概念
    Item是用来存储爬取信息的一个简单容器,定义了字段的metadata,同时它支持python的dictionary的大部分api。

  • Spiders
    如果你稍微接触过web,尤其是前端,那么spider是怎样爬取数据应该非常好理解。仔细看一下文档里这部分内容http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/spiders.html

  • Selector
    Selector是基于lxml的一个选择器。类似于beatufulsoup里的find。其支持选择通过两种方式:xpath和css。关于selector的内容不需要强记,用的时候多查就好。

熟悉了这几个概念之后就可以开始尝试写一些简单的爬虫了。Scrapy还支持一些特性,比如说item pipeline用于处理item里的数据,feed export用来存储爬取的数据,等等。这些都在文档里,自己去慢慢看吧……

资源

入门推荐学习:https://github.com/scrapy/dirbot
项目地址:https://github.com/scrapy/scrapy
文档:https://doc.scrapy.org/en/latest/

完。

你可能感兴趣的:(Scrapy的乱七八糟)