谷歌爬虫神器(Pyppeteer)--神挡杀神,佛挡杀佛

你遇到的问题

我们可能用requests保存的网页,返回到的都是JS代码,那我怎么解析网页,XpathBS4都是筛选HTML标签的呀。这咋办?这说明人家是JS预加载,那些网站这样做是为了反爬虫
如果是之前我们肯能要分析JS代码找到里面的JSON数据,转换JSON格式化,然后再抓数据
可是现在谷歌推出一款神器,神挡杀神,佛当杀佛
无论对方怎么JS加载,用这个神器总是会返回HTML代码
然后呢?你就解析就好了,用XpathBS4解析
这不就是进入小白知识范畴了麻
小白说:有这个我来我也行呀

神器文档

谷歌神器:Pyppeteer
官方文档:Pyppeteer

你可能感兴趣的:(Python)