去哪儿网供应商价格采集演示

 

 

 

原文作者:西安鲲之鹏

原文链接:http://http://www.site-digger.com/html/articles/20150422/89.html

去哪儿网的机票搜索采用了多重反采集策略,其中最麻烦的就是访问频率限制和数据加密。体现在:

1)客户端访问稍微频繁一点就会出现验证码,在展开供应商价格时尤为突出。

2)Ajax返回的价格数据进行加密,而且加密算法经常升级。

3)另外在浏览器中,价格数据还被使用CSS进行了数字混淆。

去哪儿网供应商价格采集演示_第1张图片

鲲鹏数据的技术人员采用“Webkit + HTTP代理IP轮换 + OCR验证码识别技术”实现,实现了稳定采集去哪儿网机票价格数据的方案。

下面是视频演示:

特别说明:该文章为西安鲲之鹏的原创文章 ,你除了可以发表评论外,还可以转载到你的网站或博客,但是请保留源地址,谢谢!!(尊重他人劳动,你我共同努力)

 

你可能感兴趣的:(去哪儿网供应商价格采集演示)