学习python爬虫scrapy框架,学习心路历程(一)

scarpy框架是什么?

  • scarpy框架是什么?
  • scarpy框架与request、bs4的的区别
  • 常见的python爬虫框架

scarpy框架是什么?

Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~

scarpy框架与request、bs4的的区别

reuqest 和 bs4(BeautifulSoup4) scrapy
request和bs类似于一个空的大房子,你需要什么搬什么进去 scrapy类似于大房子已经建立好了多个功能房,你需要什么,直接进去各自的房间,找出那个功能就好了
如果爬虫很大(要有日志模块,或者其他的小功能之类的),request和bs的大房子可能会乱七八糟,这时候就需要建功能房,造函数,如果爬虫的需求很随便(对,就是随便,不要求后续维护之类,可能是导师心血来潮叫你爬一爬),request和bs就很方便 scrapy进去前还需要提前熟悉它的各个功能调用方式,scrapy多个模块,可能也会让初学者比较懵,但是熟悉后,发现scrapy有好多小功能封装比较完善,比如ItemLoader,批处理每个Item的字段,超方便

总结:

  1. request和bs4初学容易上手,大型开发就比较麻烦,要自己造轮子,适合初学者偶尔有个需求。
  2. scrapy初学麻烦,或者觉得它过于庞大,但是做项目后发现还是用轮子更方便,你能想到的小功能,它很多都封装好。

常见的python爬虫框架

  1. scrapy框架
    scrapy框架是一套比较成熟的python爬虫框架,是使用python开发的快速、高层次的信息爬取框架,它的开发初衷就是屏幕抓取(更精确的说,是网络抓取),但是他还是可以用来访问API来提取数据,最重要的是,他是一款开源的框架,开源你懂的!!!
  2. crawley框架
    高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等。网上关于crawley框架的资料很少,不好搜索。
  3. portia框架
    portia框架就比较有意思了,他是一个可视化的爬虫工具,就算你不会python语言,你也可以用portia框架爬到你想要的数据,你不需要安装任何东西,因为他是在web里面执行。

第一章主要是了解了关于scarpy框架的一些信息和周边的信息,让自己有一个大概的了解,也是我学习框架的一种方式,希望大家能提出意见和建议,有好的学习方式希望大家再评论区交流,我也学习学习。

下一章主要是关于scarpy框架的一些安装,和我自己在使用scarpy框架时遇到的一些问题。和一些解决思路,希望大家多多支持。

你可能感兴趣的:(scrapy)