《封号码罗》python爬虫之140行代码五步法破解字体反爬虫(五)

五步法破解字体反爬虫

由于字体的加载和映射工作都是由css完成的,所以就算是借助来自动化工具也无法获取对应的文字内容
《封号码罗》python爬虫之140行代码五步法破解字体反爬虫(五)_第1张图片
就是这种情况,它就是字体反爬虫,与之前SVG反爬虫最大的区别就是,它所有的class都是一个值,而且标签的文本也是一个方框来表示的,所以处理起来可能会比较复杂,不要担心,继续跟着我的思路,你会豁然开朗,加油吧!
再来看看网页的源码
《封号码罗》python爬虫之140行代码五步法破解字体反爬虫(五)_第2张图片
可以看到,在网页源码里面,是不同的类似符号的数据来代表网页的显示数据,例如

""".代表的就是网页显示的9.7"""

我们可以针对这种映射关系来破解字体反爬,但是,如果网站有多套字体映射,那这个恐怕就不好用了,我们要用Python来实现这种映射算法,这样就算网站更换来其他字体,我们也不用担心爬虫的

你可能感兴趣的:(爬虫)