反爬研究:大众点评文字样式反爬机制,SVG反爬

【原创内容请勿转载】本文仅提供研究学习反爬技术使用

大众点评的反爬工作一向做的很好,变化也非常的多。

以往大众点评网页端的反爬主要以IP访问频率的控制为主,同时能够识别Selenium + ChromeDriver的自动化解决方案,使得使用自动化方式进行滑动解锁的半自动抓取亦不能顺利进行。此处可以通过一些手段屏蔽Selenium的标识。

今年11月份左右,大众点评再次升级了自己的反爬策略,采用了通过加载SVG资源的方法,对页面的部分文字和数字进行加密,导致抓取的数据缺胳膊少腿(缺字)

不同于汽车之家的字体反爬,大众点评没有采用字体资源的形式,而是通过css资源文件定义样式,通过样式的坐标值来去SVG文件中定位最终的文字内容。
反爬研究:大众点评文字样式反爬机制,SVG反爬_第1张图片
通过多次刷新页面可以发现,每次被处理的文字均不相同,通过定位文本的css可以看到具体文字的坐标,通过查看对应的css文件可以看到:
反爬研究:大众点评文字样式反爬机制,SVG反爬_第2张图片
每一个被隐藏的文字都有一个样式,并且包含了他的坐标,通过css可以找到相应SVG资源文件的链接,打开后如下:

个人博客: www.xiaomilu.top/archives/280

你可能感兴趣的:(爬虫)