盘点数据采集中14种常见的反爬策略

盘点数据采集中14种常见的反爬策略_第1张图片

引言

随着互联网的飞速发展, 爬虫技术不断演进, 为数据获取和信息处理提供了强大支持。然而, 滥用爬虫和恶意爬取数据的行为日益增多, 引发了反爬虫技术的兴起。在这场看似永无止境的 技术较量 中, 爬虫与反爬虫技术相互博弈、角力。本文将简单过下目前已知的几种反爬策略, 旨在扩展知识! 万一日后能够用上呢!!

一、图⽚伪装

1.1 原理

将价格、数量、手机号等一系列敏感信息, 通过图片的方式进行伪装, 然后图片和文字再混合一起进行展示, 这种方式既不影响用户的正常阅读, 又可以限制爬虫程序直接获取到这些敏感内容

盘点数据采集中14种常见的反爬策略_第2张图片

1.2 破解方式

该反爬手段是直接用图片替换了原来的内容, 所以爬虫程序是无法直接获取内容的, 唯一的破解手段就是将图片下载下来, 然后使用 OCR(文字识别) 技术对图片内容进行一个识别

二、CSS 偏移

2.1 原理

HTML 中将要展示的内容打乱, 然后利用 CSS 将乱序的文字排版成人类能够正常阅读

你可能感兴趣的:(逆向知识,安卓逆向,python,反爬,爬虫,数据采集)