爬虫笔记

编写爬虫一般有三种方法:
1. 通过网站的API搜索信息,这是最快最准的。
2. 拼凑url请求,自己解析。
3. 爬网页解析,最笨最慢最不稳定的方法。
N多方法,最好使用API,最不好就爬网页。

共有31款Java 网络爬虫开源软件,网址:http://www.oschina.net/project/tag/64/spider?lang=19&os=0&sort=view&p=1,其中Nutch和Heritrix比较流行

jsoup
http://tieba.baidu.com/p/2114471038

java开源web爬虫简介
http://www.open-open.com/68.htm

webmagic 0.2.0 发布,Java垂直爬虫框架
http://www.oschina.net/news/43130/webmagic-0-2-0

搜狗微信API
抓取微信号信息
http://weixin.sogou.com/weixinjs?query=微信号
http://weixin.sogou.com/weixinjs?query=微信号&page=2

抓取文章
http://mp.weixin.qq.com/mp/getmasssendmsg?__biz=“+biz+”&uin=”+uin+”&key=”+key+”&f=json”;

头像接口:
http://img01.sogoucdn.com/app/a/100520090/oIWsFtzcKVfiAn9vIn-RC5vPURho

二维码接口:
http://img03.sogoucdn.com/app/a/100520105/nJB0eyHE6x_UhzAYn8W4

版权声明:本文为博主原创文章,未经博主允许不得转载。

你可能感兴趣的:(爬虫)