爬虫中反爬机制

爬虫中反爬机制

首先说明爬虫的步骤

1.请求网页,获取响应结果

2.解析网页,提取数据

3.数据持久化

爬虫 —— 网页反爬——进行反网页反爬(反 反爬)

1.User-Agent:将爬虫伪装成浏览器。(haerders)

2.字体反爬:将页面中重要信息使用符号进行隐藏。(例如:猫眼,瓜子二手车)

3.动态页面:使用selenium模块(自动化测试的模块)。其意再模拟人的行为使用浏览器

4.人机验证:九宫格选图片、选成语(词语)、图片+计算公式、字母数字验证码、滑块验证、短信验证等

九宫格图片 --> 深度学习。https://cuiqingcai.com/

选成语 -->超级鹰

图片+计算公式、字母数字验证码 —>光学文字识别(ocr):easyocr,百度非浆,百度AI开发者平台

滑块验证:selenium、pyautogui —>pyautogui :引入对应的物理原理。 达到更加像人再操作电脑

短信验证:接码平台。

5.封IP: 可以使用代理IP: 激光代理IP、蘑菇代理、站大爷、芝麻代理

6.检测selenium: 滑块验证无法成功。1)加入屏蔽selenium代码。2)修改selenium驱动的底层代码

7.网页中的数据放到图片中: 光学文字识别

8.登录使用:再requests中传入对应的cookie信息,或者再selenium中传入cookie信息。再或者使用selenium操作登录系统

RPA --机器人流程自动化(影刀、八爪鱼、壁虎等) -->从selenium进行的演变。

你可能感兴趣的:(爬虫,python,开发语言)