1.22selenium+chrome headless爬虫踩坑

第一是按照class name页面搜索时候,class里面不能有空格。

有些网站把此作为反爬措施之一,关键信息只有class,里面却又包含空格。做法是用xpath分解。比如

应该换作div[@class=”handdome xiaoshuai”.

第二是给足加载网页时间

一开始sleep(1),一直报错说找不到我要得element; 找了两三个小时bug都快疯了。出去上了厕所喝了咖啡一下就通了,给程序更多时间来加载(多sleep几秒,网速慢的更是如此),就解决了。所以动态渲染爬虫是非常慢的做法,一般用不上,一般动态网页能够逆向分析还是优先逆向分析,使用chrome里面的network手动查看新加载信息的地址,并进行追踪爬取。不得已情况下再用selenium的webdriver结合chrome headless进行网页渲染爬取。phomenJS大家好像都说是已经过时的技术。
不过这selenium真是好玩。模拟登录,模拟搜索,模拟点击,应该还有很多其他用法。

哈利路亚荣耀归上帝!!!

你可能感兴趣的:(python)