colly 第六课 colly例子剖析和使用技巧

ChildText是获取的子元素的文本内容

ChildAttr

 

一、parallel并发性

在并行化爬虫时,需要控制好MaxDepth爬取的深度以及设置Async

需要设置LimitRule限速规则

 

二、url_filter例子

url_filter的目的是什么,基于什么场景?

在创建Collector时,通过设置正则表达式,符合正则表达式的url链接才能进行再次访问。

c := colly.NewCollector(

// Visit only root url and urls which start with "e" or "h" on httpbin.org

colly.URLFilters(

regexp.MustCompile("http://httpbin\\.org/(|e.+)$"),

regexp.MustCompile("http://httpbin\\.org/h.+"),

),

)

更加节约了cpu资源以及存储空间和计算

 

三、shopify_sitemap例子,直接解析xml内容的节点

xpath语法

http://www.w3school.com.cn/xpath/xpath_syntax.ASP

xpath使用路径表达式在xml文档中选取节点。节点是通过沿着路径或step来选取的。

 

四、request_context例子

在request和response之间传递上下文参数

 

五、爬虫代理proxy_switcher

你可能感兴趣的:(go语言项目实战)