Spider工作流程.

可参考scrapy架构概览:http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/architecture.html


Spider(1)使用request获取网页.

(2)使用selector解析网页构建Item.

(3)使用pipeline存储获取的Item.


学习要点:

1. HTML语言,网页文本语言解读,标签语言,标签属性等。

2. Spider中的request和response,如何获取网页列表,如何复制网页内容,并将网页内容存起来以待分析,是Spider的动力源,驱动Spider发起动作

3. 得到response之后Spider使用selector去解析网页,使用selector获得自己想要的信息,selector解析HTML语言有多种方式,我们可以先学习XPath方法,使用Xpath解析HTML语言,获得自己想要的数据项Item

4. Spider中的Item,构造自己想要的Item模样,存储Item到自己创建的数据库中


Spider运作流程:

  1. 以初始的URL初始化Request,并设置回调函数。

    The first requests to perform are obtained by calling the start_requests() method which (by default) generates Request for the URLs specified in the start_urls and the parse method as callback function for the Requests.

  2. 在回调函数内分析返回的(网页)内容,返回 Item 对象或者 Request 或者一个包括二者的可迭代容器。 返回的Request对象之后会经过Scrapy处理,下载相应的内容,并调用设置的callback函数(函数可相同)。

  3. 在回调函数内,您可以使用 选择器(Selectors) (您也可以使用BeautifulSoup, lxml 或者您想用的任何解析器) 来分析网页内容,并根据分析的数据生成item。

  4. 最后,由spider返回的item将被存到数据库(由某些 Item Pipeline 处理)或使用 Feed exports 存入到文件中。

http://python.usyiyi.cn/documents/scrapy_12/topics/spiders.html

关键细节点:

1. xpath 参考:

http://www.w3school.com.cn/xpath/

http://www.zvon.org/xxl/XPathTutorial/General_chi/examples.html

http://www.runoob.com/xpath/xpath-syntax.html

2. HTML语言,参考手册:http://www.w3school.com.cn/tags/html_ref_byfunc.asp

3. CSS选择器:http://www.w3school.com.cn/cssref/css_selectors.asp

4. 查看网页源码方法:google浏览器ctrl+shift+I  点击左上角小箭头  指定位置定位源码

5. 编辑自己的items,在文件Item.py中定义,(在所建的Scrapy工程中存在Item.py文件),使用语句:

from tutorial.items import DmozItem
在调用Item的py文件中导入item定义。import关键字类似于c语言中的include

6. 编辑自己的pipelines,在文件pipelines.py中定义,pipeline是用来加工Item并将其导出到文件或数据库,并使用语句:

custom_settings = {
    'ITEM_PIPELINES':{'spider.pipelines.BondPipeline': 300},
}

与主程序建立链接。


你可能感兴趣的:(Spider工作流程.)