【爬虫篇】网络爬虫技术,实践案例解说,如何实现简单的登录破解!

前言:

本人程序员一枚,从实习到现在也差不多三年工作经验了,近日整理了一些这几年工作中常遇到的一些问题,大家有兴趣可以关注,一起交流学习。

正文:

有时候大家在爬虫的时候会遇到要登录的情况,如果不登录则爬不到自己想要的东西,那么如何解决呢?这里大家也可以多思考利用什么方式可以达到目的。

这里以博客园为例,here we go~~

首先简单的介绍一下selenium和phantomJS:

selenium是一款测试工具,能够模拟用户对浏览器进行操作。

phantomJS是一款轻便式浏览器,其没有界面并且功能相对简单,因此速度上会比较快速。

说到这大家应该明白selenium+phantomJS如何实现登录破解了,对,就是模拟人工操作

我们现看一下博客园的登录界面:


找到这些元素所在的点,填写账号密码,并且点击登录按钮,之后等待一段时间,因为页面加载需要时间,之后就可以爬取登陆后的界面:


代码段

完整代码段这里没办法放上去,这边给大家放一个完整版代码的链接,有兴趣的大家可以去看看。(https://mp.weixin.qq.com/s?timestamp=1526357289&src=3&ver=1&signature=pEdMNyFtt3hQ4zRZHY05lc3K-lvY0F2XzDqYxhKGppjUn8gBnTRew7KIvp4Q6UNsxnPbu4uHEroCO7AMFcB00rTXhTVM4Wdi-YNSuiG-6-CBKyl6zdFC588U9TUp*xJhkQwp-ZsvvtFkurtpRqe8hRpwv*cGFFA5eO*945xEciQ=)

结尾段

以上就是今天关于‘【爬虫篇】用selenium+phantomJS实现简单的登录破解’的全部内容了,如果你有其他的方法或者更好的建议,欢迎一起交流。

ps:第一次写,有点小紧张,如果有不明白的同学尽管提出来哈~

你可能感兴趣的:(【爬虫篇】网络爬虫技术,实践案例解说,如何实现简单的登录破解!)