爬虫

1、爬取网页如果不是utf8编码,通过mahonia包来解决。
2、爬取数据通过goquery包。
3、通过chrome的检查功能定位到具体html标签上,右键copy-->copy selector,获取到想爬取数据的选择器路径。
4、重点用法:
dec := mahonia.NewDecoder("GB2312")
rd := dec.NewReader(resp.Body)
doc, _ := goquery.NewDocumentFromReader(rd)
doc.Find("tr.trclass").Each(func(i int, s *goquery.Selection) {
...
}
5、有的网页查看源代码会发现所需数据是通过ajax请求或js生成的,这种情况可以通过network的xhr功能,查看网页请求接口,直接模拟请求接口获取所需的json数据即可。
6、参考blog:http://blog.csdn.net/hotqin888/article/details/52194839

你可能感兴趣的:(爬虫)