《封号码罗》python爬虫之10行代码破解网页动态反爬虫(二)

网页异步动态反爬虫,就是数据不在HTML的原始文件中,而是通过ajax等技术,异步获取数据并且渲染到页面上的,有的时候,我们可以直接分析出异步接口,通过直接请求接口获取数据,但是遇到加密复杂的接口,可能破解起来比较消耗时间,这个时候我们就可以借助动态渲染的工具,如selenium,pyppeteer,或者splash等等。
三个工具都可以实现动态页面的渲染,但是三个工具在使用时有明显的区别:
selenium是同步渲染的,速度要慢一些,使用的语法也非常易懂,入门首选;
pyppeteer是异步渲染的,速度要快一些,但是它的语法也相对更晦涩一些;
splash也是异步渲染的,但是配置起来稍显麻烦,并且它是运行在docker上面的一个轻量级服务,使用的是lua语言
《封号码罗》python爬虫之10行代码破解网页动态反爬虫(二)_第1张图片
正如上图所示,网页正文是异步加载的,下面使用pyppeteer来绕过动态渲染反爬虫

import asyncio
from pyppeteer import launch


"""
关于asyncio的一些关键字的说明:
event_loop 事件循环:程序开启一个无限循环,把一些函数注册到事件循环上,当满足事件发生的时候,调用相应的协程函数
coroutine 协程:协程对象,指一个使用async关键字定义的函数,它的调用不会立即执行

你可能感兴趣的:(爬虫)