爬虫小思路

最近考试,好久没写代码了

而实习却是在弄爬虫,虽然还没上测试环境跑过

但是最近在思考不同的网站验证逻辑该怎麽躲过?

对于滑动验证可以采用seleniu+phantomJS来模拟

对于图片验证

打算采用java调用python来处理(但是部门没有一套自己的python训练框架,估计会采用第三方或者别的部门的接口)

但是自己来搞也需要有思路

1.拖动补全图片

2.数字验证码

3.根据文字选择合适的图片进行补全

这些github均有现成的模块可以模仿调用

而公司的那套框架已经封装了那种爬虫链,也就是爬虫上下文,基本的逻辑也就是单纯地解析,而对于附带的数据应该注意一些反爬的校验数据应该携带,浏览器的代理应该注意,增加容错机制等等

你可能感兴趣的:(爬虫小思路)