常见的反爬手段和解决思路

1.通过headers中的User-Agent字段来反爬

随机生成User-Agent:

import random

def get_ua():
    first_num = random.randint(55, 62)
    third_num = random.randint(0, 3200)
    fourth_num = random.randint(0, 140)
    os_type = [
        '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)',
        '(Macintosh; Intel Mac OS X 10_12_6)'
    ]
    chrome_version = 'Chrome/{}.0.{}.{}'.format(first_num, third_num, fourth_num)

    ua = ' '.join(['Mozilla/5.0', random.choice(os_type), 'AppleWebKit/537.36',
                   '(KHTML, like Gecko)', chrome_version, 'Safari/537.36']
                  )
    return ua

2. 通过referer字段或者是其他字段来反爬

通过referer字段来反爬,我们只需要添加上即可

3.通过cookie来反爬

  • 如果目标网站不需要登录 每次请求带上前一次返回的cookie,比如requests模块的session

  • 如果目标网站需要登录 准备多个账号,通过一个程序获取账号对应的cookie,组成cookie池,其他程序使用这些cookie

4.通过js来反爬

使用selenium

5.通过验证码来反爬

通过打码平台或者是机器学习的方法识别验证码,其中打码平台廉价易用

6.通过ip地址来反爬

同一个ip大量请求了对方服务器,有更大的可能性会被识别为爬虫,对应的通过购买高质量的ip的方式能够结局问题

7.通过自定义字体来反爬

解决思路:切换到手机版

8.通过css来反爬

解决思路:计算css的偏移

你可能感兴趣的:(爬虫)