go爬虫框架colly的精简讲解

1. 拉取软件包

go get github.com/gocolly/colly

2. 创建colly的收集器

colly.NewCollector()

可以在创建的时候进行配置

c := colly.NewCollector(colly.AllowURLRevisit())

也可以创建后进行配置, 如: 

c := colly.NewCollector()
c.DetectCharset = true

3. 捕获页面的元素

// 在box这个class里面进行筛选
c.OnHTML(".box", func(h *colly.HTMLElement) {
    // 获取 dd标签内部的所有a标签
    h.ForEach("dd a", func(i int, h *colly.HTMLElement) {
		// 获取标签内嵌的文本
        println(h.Text)
        // 获取标签的href属性
		println(h.Attr("href"))
	})
})

4. 设置要爬取页面的网址

c.Visit("https://www.xxx.com")

你可能感兴趣的:(golang,html,爬虫)