2018-09-05 scrapy项目介绍

    当我们用scrapy startproject创建了一个项目之后会有很多文件

打开这个项目(我用的是pycharm项目写python,用anaconda管理不同版本真心好用,强推anaconda),

在jianshu文件夹下面的spiders子目录里面装的全是爬虫(这个状态下我还没有安排新的爬虫进去),一般一个文件对应一个爬虫。

items中有的是数据实体,当我们抓取到数据的时候通常生成一个items对象,然后把数据装到item中去。

middlewares是中间件文件,主要功能是,在其中可以帮助我们下载起来不被网站察觉

pipeline是管道文件,处理数据的文件。

settings中有很多参数,比如我们想启动某一个管道文件就得先去里面注册。

这些文件以后会一个个详解。

你可能感兴趣的:(2018-09-05 scrapy项目介绍)