urllib是python提供的一个爬虫的原生框架,python发起网络请求都是通过该框架
1 request.urlopen(url) 打开远程连接 返回值是一个响应对象,响应对象包含响应头和响应体
【注意】urlopen()这个函数只能用于发送简单的请求,无法添加请求头,添加请求头需要使用request.Request()方法
import urllib.request
url = 'http://www.baidu.com/'
res=urllib.request.urlopen(url=url)
print(res) #
res.read().decode('utf-8') # read() 从响应对象中读取出响应体,decode('utf-8')对响应体进行解码
res.readlines() # 按行读取
res.url # 得到请求的url
res.headers # 响应头部 字符串
res.getheaders() # 列表,列表里面是元组
res.getcode() # 获取响应状态码
2 request.urlretrieve(url,filename) 把url的内容下载下来,存储到filename的目录下
urllib.request.urlretrieve(url=url,filename='./baidu.html')
3 parse.urlencode() 将参数处理成url参数 由于urllib库不能识别汉字,所以汉字需要转成ASCII编码形式
1)把待处理的参数写成字典的形式
dic = {'参数':'值'}
2)用urlencode()方法将字典处理成url参数(xx=xxx&pp=ppp...)
import urllib.parse #导入parse,这个库主要用于处理url的格式问题
data = urllib.parse.urlencode(dic)
4 request.Request()方法携带用户代理,目的是伪装浏览器
有些网站为了防止某些恶意的爬虫攻击网站,会设置用户代理,后台通过用户代理决定应该如何响应给前端内容,如果做反爬,可以在用户代理上进行限制
一个请求包含三部分内容:url、请求头、请求体(get请求请求体在url中)
1)构建Request对象,并让其携带用户代理
req = urllib.request.Request(url=url,headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0'})
print(req) #
2)用请求对象来发送请求
res = urllib.request.urlopen(req)
print(res) #
另外:用户代理也可以用以下方式添加
req = urllib.request.Request(url=url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0' )
1)构造请求参数
#url
url = 'https://fanyi.baidu.com/sug'
#请求头
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0' }
#请求体
data = {'参数':'值'}
2)把请求体处理成url参数的形式
data = urllib.parse.urlencode(data).encode('utf-8')
print(data) #b'参数=值'
3)用前面创建好的请求头,请求体和url,去创建一个请求对象
req = urllib.request.Request(url=url,headers=headers,data=data)
4)发起请求
res = urllib.request.urlopen(req)
5 error
接收由urllib.request产生的异常
import urllib.error
url = 'http://www.baidu.com/?参数=值'
req = urllib.request.Request(url=url)
try:
res = urllib.request.urlopen(req)
print('0')
except urllib.error.URLError as e:
#网址本身有异常,比如这个域名不存在
print(e)
print('1')
except urllib.error.HTTPError as e:
#在发起http请求的时候或是响应的时候发生了异常
print(e)
print('2')
except Exception as e :
print(e)
print('3')
6 request.ProxyHandler({'协议名':'host:port',...}) 配置代理
proxy = urllib.request.ProxyHandler({'http':'123.188.91.126:80'})
#创建一个opener对象,用于携带代理发起请求
opener = urllib.request.build_opener(proxy)
res = opener.open(req)