爬虫爬取以及链接其他文章

爬取网络信息主要在于解析爬取规则。jsoup和htmlparser适用于不同情况的爬取。

较为通用的信息爬取平台 可以将jsonp的规则包装以后设置在页面上形成自动化的解析。


但是:针对不同网站的爬取策略和破解反爬虫策略才是无法通用的难点

按页爬取时,如果在参数信息中包含页面大小可以调整来尝试减少爬取次数。

基本的反爬取策略:传入请求参数、传入请求头可以爬取成功。

有些需要在请求头中传入Cookie才能爬取,Cookie有时候可以获取到有时候很难找到获取cookie的有效途径

有些情况下cookie如何和请求参数匹配才能爬取成功。

还有的网页会在爬取页面时传递token,然后再通过token get到信息,token一次有效,这个需要注意下。


爬取页面成功后,判断是否需要Ip代理。

未解决问题:有些ssl3在windows上可以正常爬取,linux机器上就会报错。【存在安全隐患,被linux系统封了】

比较好的一篇文章:http://www.cnblogs.com/Lands-ljk/p/5673017.html




你可能感兴趣的:(爬虫爬取以及链接其他文章)