go爬虫框架-colly实战(一)

原文连接:Hzy 博客

1.吐槽

这几天准备用go写爬虫来着,之前一直都是用python,python写协程,我这菜鸡也得又蛋疼,刚好又学了go,就想体验一把用go写爬虫的快感来着。

之前github上照着别人的思路,写了一个简单的并发爬虫框架,对go的并发,倒是学到了一点点,无意间发现了colly,对比下别人的,在看自己写的,唉…

2.colly简单介绍使用

github: https://github.com/gocolly/colly

官网: http://go-colly.org/

2.1 colly介绍

colly是一个爬虫框架,通过他,我们能快的实现一个并发爬虫,同简单易懂,方便扩展。

colly主要的东西就是Collector,通过Collector来收集访问的数据,并进行存储。(面向过程)

2.1 colly一个页面的抓取时的过程中的回调

  • 收集器请求前: onRequest()
  • 收集器抓取失败:onError()
  • 收集器响应后:onResponse()
  • 收集器收到HTML:onHTML()
  • 收集器收到XML: onXML()
  • 收集器抓取完后最后执行的回调:onScraped()

通过浙这些回调,我们就能很快写出一个爬虫,同时官网上也会有很多例子,供我们参考学习,实在不行看看源码。

2.2 colly中Collector的配置

  • 具体配置信息可以在官网中查看到,这里就随便说几个。
  • 爬虫域名抓取限制,最大深度限制,是否爬取重复网站,避免死循环。
  • 设置异步,并发数量,设置随机延迟时间等
  • http中是否保持长连接,限制连接数量等。
  • 同时还支持分布式。
  • 通过扩展,我们还能设置随机user-agent,reffer。

2.3 colly中的存储

  • 默认存储是在内存中。
  • 官网推荐的是存储到redis中
  • 同时还可以存储到sqlite3,mongo中,官网上有相关的例子。
  • colly-sqlite3存储
  • colly-mongo存储

3.结尾

  • 如要想要跟进一步的了解,可以看看这篇文章:go爬虫框架colly源码以及软件架构分析 ,看看colly的设计结构
  • Colly源码解析——结合例子分析底层实现 分析下colly源码中主要的几个函数。

明天来写写用这个框架来爬取leetCode上的题目。

你可能感兴趣的:(python爬虫,web及网络)