爬虫遇到禁止F12、调试Debugger、丑化JS不怕，看我教你轻松解决

前言

在爬取数据时，有一些网站设置了反爬（禁止F12、网页调试Debugger、丑化Js），比如下面这几种情况：

1.禁止查看源代码

2.网页调试Debugger

上面禁止查看网页问题，可以先按F12，再访问网站，但是又有网页调试Debugger

经过各种百度之后，可以在浏览器里面关闭Debug调试

这样就点击为蓝色就可以关闭了。

3.丑化JS

通过查看，可以发现数据是异步加载过来，查看数据包（network）时，发现js是被丑化过，无法查看

遇到以上这些反爬，难道就会阻止我们去采集数据了？？？显然不可能（哈哈哈）

上有政策，下有对策

今天教大家如何用python去解决这些问题，并爬取数据。

Python解决上述反爬

1.引入Selenium

本来想通过Reuqest请求数据，奈何数据是异步加载，异步链接也被js丑化了。

这时候我考虑抓包方式，但是很遗憾，无法通过抓包方式获取到异步链接

因此这里采用Selenium方式去爬取数据（后面还有新问题，太坑了，但是都解决了）

2.Selenium准备工作

为了在python中使用Selenium，需要进行一些准备工作

安装Selenium库

通过下面命令去安装Selemium库

下载chromedriver.exe

查看自己对应浏览器（这里使用chrome）版本

在下面这个地址去下载chromedriver.exe

http://chromedriver.storage.googleapis.com/index.html

下载自己浏览器对应版本（我这里选择89）

配置chromedriver.exe

将下载好的文件复制到python安装路径下

通过下面python代码可以查看python安装路径

3.Selenium请求数据

结果如下：

发现没有获取到数据，原因是网站监测到非法操作，因此开启Debuggger，所以数据没有异步加载过来。

原本应该是这样的

下面需要进行另外操作（关闭Debugger）

4.给Selenium设置代理

设置代理

找到chrome的路径

在cmd（终端）下，进入到该路径

启动代理

通过上面这个命令启动代理

ip是本机ip（127.0.0.1）

端口是9222

启动之后，自动打开chrome，并等待执行代码

编写代码

这样等待的浏览器就自动加载到数据，成功解决！！

下面请看动图演示

总结

1.解决了F12禁止查看网页反爬.

2.解决了网页调试Debugger反爬。

3.Selenium结合代理去模拟浏览器请求。

4.本文总结了几种反爬情况，推荐收藏！收藏！收藏！

爬虫遇到禁止F12、调试Debugger、丑化JS不怕，看我教你轻松解决

你可能感兴趣的:(爬虫遇到禁止F12、调试Debugger、丑化JS不怕，看我教你轻松解决)