使用php技术破解雅虎台湾问答网站(奇摩)对于访问次数的限制

最近做一个采集奇摩问答网站的项目。在测试中发现,雅虎论坛做了限制,一台电脑,连续访问500次左右就会禁止你再次访问了,返回的错误是999,是雅虎自己研发的防止恶意采集、攻击的系统。他的这个不同于其他网站封锁ip的方式,我想应该有办法破解。

项目已经接手,不能轻易说NO。于是开始搜索,百度、google、雅虎了一遍,没有找到解决的办法。
因为自己做 小偷程序采集程序有六年的时间了,所以对于网站采集破解积累了很多方法,但是这次之所以有必要写一下,主要是因为雅虎的这个限制的破解还是第一次遇到,并且成功解决。现在我测试了4万次的不间断采集,只有170次采集失败。已经完美的解决了这个限制问题。
这次破解还尝试使用了黑客们常用的修改host的方法,这个方法也是必须要使用的。
总结:大家可以查询一下tw.knowledge.yahoo.com域名在所有搜索引擎的收录量。收录量是非常低的,原因就是因为雅虎有限制,一个ip连续只能访问500次左右。所以搜索引擎都不能正常抓取数据,那就是因为不能破解他的这个限制。 小偷程序和采集程序实际上和搜索引擎爬虫原理一样,都是远程获得数据。首先都是要解决抓取这一关。

程序演示地址http://0772zd.cn/qimo/ http://0772zd.cn/qimo/

你可能感兴趣的:(PHP,.net,搜索引擎,百度,Google)