在python爬虫什么是selenium框架?selenium框架的优缺点

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云 作者:孔雀

( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )
在这里插入图片描述

不同的网站选择不通的技术策略和不同的框架组合。

selenium框架: 我把这个框架取了一个名字叫:“无法阻挡爬虫蜘蛛侠”,这个框架优点的个人觉得就是可以模拟浏览器,相当于您用程序调动浏览器让浏览器打开您需要爬取的网站。这个好处其实就是可以大量避免被封。因为我们在用Python的requets库发出网络情况时候,您必须先构造http请求头。但是有些网站反爬很严格,可以直接识别出来您当前的访问是否正常用户行为。所以如果在用request请求时被目标网站反爬识别,导致无法爬取的话,那么这个时候只有使用这个selenium框架就是最好技术选择方式。他可以做到的是只要您网站用浏览器可以正常访问,那么selenium就可以采集到网站数据,除非正常浏览器都不能访问了。
selenium框架优点:反爬能力强,适合爬取哪种反爬很厉害的网站或者是那种需要点击提交的网站,我在做商标网数据爬取的时候,当时老板要求要爬取全部网站几千万商标数据,但是这个网站反爬很厉害,而且需要点击确定按钮,然后才能进入商标综合搜索页面,然后再根据注册号搜索进入列表页,然后从列表页点击进入商标详情页,然后再从详情页点击进入商标流程页。这一连串的需要的模拟动作,当时为了解决一天爬取上百万数据,刚开始我采用Python的request库+代理IP池技术架构,然后开启了多进程,但是遗憾是很快就被目标网站识别您的请求不是正常用户,因为您太快了,所以最后不得不改用selenium+多进程技术价格组合。

selenium框架缺点:速度慢,适合每天爬取数据量要求不高的爬虫工作, 因为selenium框架是必须要打开浏览器,然后模拟点击网页,这个过程和您用手打开浏览器打开网址去访问网站一样的速度。这个速度是比较慢。如果您要采集的数据,每天也就1-2万条那么可以用这个selenium框架。因为比较稳定靠谱。

你可能感兴趣的:(爬虫,python,python)