urllib请求头

# coding:utf-8


# 设置请求头headers值

import urllib2,urllib

url = 'http://www.baidu.com'
headers = {
    # User-Agent: 在设置用户标识,可以通过该键伪装成是浏览器在访问该网站。
而爬虫默认的User-Agent的值是:Python-urllib/2.7。
    'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) 
Gecko/20100101 Firefox/50.0",
    # Referer: 用于标识当前是通过哪一个网址入口访问的url,服务器在读取Referer
字段值得时候,会判断当前的url访问是不是通过正常的网址入口进来的。
    'Referer':"http://www.baidu.com"
}
request = urllib2.Request(url, headers=headers)

res = urllib2.urlopen(request)

'''
1>服务器会判断一个频繁的请求是不是同一个User-Agent用户标识,如果是,会进行限制访问。
解决:需要随机切换User-Agent的值
2>服务器会判断User-Agent是不是以Python开头的,如果是,会限制访问。
3>服务器会判断一个频繁的请求是不是同一个IP地址发出的请求,如果是,会对IP进行限制访问。
解决:使用代理IP,随机切换IP地址。不使用真实IP来频繁的请求。
'''

你可能感兴趣的:(urllib请求头)