反爬虫策略

最近在做爬虫相关的作业, 发现一些网站有反爬虫策略。 反爬虫策略说白了就是要检测你是不是机器人。 

那问题来了, 如何伪装成普通的用户反问呢?

构造合理的http请求头

如把user-agent 设置成一大串 ,设置合理的Accpet 和 Accept-Language

"'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',"

'Accept':'image/webp,image/apng,image/*,*/*;q=0.8'

'Accept-Language':'zh-CN,zh;q=0.9,en;q=0.8'

合理的访问时间间隔

机器人1秒就可以爬上千个链接, 通常很容易就被识别, 所以要合理的sleep, 让时间间隔变成 1-3秒来访问网页。 


参考:

https://www.cnblogs.com/junrong624/p/5533655.html

你可能感兴趣的:(反爬虫策略)