css偏移反爬虫

网站中,页面正常显示,但是源代码中却找不到的正确展示信息,对应的标签中的信息是错误的,仔细可以看出开发者们在CSS样式动了手脚。

  css偏移反爬虫,在反爬技术中也用得比较多的,都是为阻止爬虫工程师采集页面的数据,它的特点在于计算。源代码中,它们的数据错乱不堪,但是前端工程师则通过css排版,将源代码中的数据显示在页面中,如果爬虫程序想正确的得到页面数据,则要计算出css数据排版规律。

数据呈现:

  css偏移方式有很多种,这里说说常见的2种。

  1.替换错误方式:

    源代码中,数据在标签中正常显示,但是规律是错误,对于此类计算,偏移量都在对应的标签中。如:去那儿旅行网

  2.单独样式引用:

    源代码中,数据在标签中不正常显示,都是引用源代码开头的style样式,其中样式也对各个数据进行偏移和混淆。如 http://glidedsky.com/level/crawler-css-puzzle-1

爬虫实破:

  对于此此反爬虫,无非是分析、研究css偏移的规律,再通过代码去设计对应的规律,来得出正确的值。提一下,此类大多的left的偏移量相关。

练手博文:

glidedsky 反爬练习

你可能感兴趣的:(爬虫逆向与反爬)