Scrapy框架学习2

yield关键字

  yield<——>生成器

   生成器是一个不断产生值的函数

   包含yield语句 的函数是一个生成器


生成器每次产生一个值(yield语句),函数被冻结,被唤醒后再产生一个值。


生成器 vs.列表——>


更节省存储空间 /响应更迅速 /使用更灵活

Scrapy爬虫的使用步骤

1.创建一个工程和Spider模板

2.编写Spider

3.编写Item Pipeline

4.优化配置策略

Scrapy爬虫的使用步骤 

    1.  Request类

            Request对象表示一个HTTP请求

            由Spider生成,downloader执行

Scrapy框架学习2_第1张图片

     2.Response类

        Response对象表示一个HTTP响应

        由Downloader生成,Spider执行

Scrapy框架学习2_第2张图片

       3.Item类 

          Item对象表示从html页面中提取的信息内容
          由Spider生成,由Item Pipeline处理

           Item类似字典类型,可以按照字典类型操作

spider提取信息的方法

          Beautiful Soup

          lxml

          re

         XPath Selector

         CSS Selector


                



   

你可能感兴趣的:(Scrapy框架学习2)