python urllib库基本使用

urllib是python提供的一个爬虫的原生框架,python发起网络请求都是通过该框架

 

1 request.urlopen(url)  打开远程连接     返回值是一个响应对象,响应对象包含响应头和响应体

【注意】urlopen()这个函数只能用于发送简单的请求,无法添加请求头,添加请求头需要使用request.Request()方法

import urllib.request

url = 'http://www.baidu.com/'
res=urllib.request.urlopen(url=url)
print(res)  #

 

res.read().decode('utf-8')   # read() 从响应对象中读取出响应体,decode('utf-8')对响应体进行解码
res.readlines()              # 按行读取
res.url                      # 得到请求的url
res.headers                  # 响应头部  字符串
res.getheaders()             # 列表,列表里面是元组
res.getcode()                # 获取响应状态码


2 request.urlretrieve(url,filename)    把url的内容下载下来,存储到filename的目录下

urllib.request.urlretrieve(url=url,filename='./baidu.html')


3 parse.urlencode()  将参数处理成url参数   由于urllib库不能识别汉字,所以汉字需要转成ASCII编码形式
1)把待处理的参数写成字典的形式

dic = {'参数':'值'}

2)用urlencode()方法将字典处理成url参数(xx=xxx&pp=ppp...)

import urllib.parse    #导入parse,这个库主要用于处理url的格式问题
data = urllib.parse.urlencode(dic)

 

4 request.Request()方法携带用户代理,目的是伪装浏览器
有些网站为了防止某些恶意的爬虫攻击网站,会设置用户代理,后台通过用户代理决定应该如何响应给前端内容,如果做反爬,可以在用户代理上进行限制

一个请求包含三部分内容:url、请求头、请求体(get请求请求体在url中)

  • get请求

1)构建Request对象,并让其携带用户代理

req = urllib.request.Request(url=url,headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0'})
print(req)     #

2)用请求对象来发送请求

res = urllib.request.urlopen(req)
print(res)      #

另外:用户代理也可以用以下方式添加

req = urllib.request.Request(url=url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0' )
  • post请求

1)构造请求参数

#url
url = 'https://fanyi.baidu.com/sug'
#请求头
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0' }
#请求体
data = {'参数':'值'} 

2)把请求体处理成url参数的形式

data = urllib.parse.urlencode(data).encode('utf-8')
print(data)           #b'参数=值'

3)用前面创建好的请求头,请求体和url,去创建一个请求对象

req = urllib.request.Request(url=url,headers=headers,data=data)

4)发起请求

res = urllib.request.urlopen(req) 

 

5 error 接收由urllib.request产生的异常

import urllib.error

url = 'http://www.baidu.com/?参数=值'
req = urllib.request.Request(url=url)

try:
res = urllib.request.urlopen(req)
print('0')
except urllib.error.URLError as e:
#网址本身有异常,比如这个域名不存在
print(e)
print('1')
except urllib.error.HTTPError as e:
#在发起http请求的时候或是响应的时候发生了异常
print(e)
print('2')
except Exception as e :
print(e)
print('3')

 

 6 request.ProxyHandler({'协议名':'host:port',...}) 配置代理

proxy = urllib.request.ProxyHandler({'http':'123.188.91.126:80'}) 
#创建一个opener对象,用于携带代理发起请求 
opener = urllib.request.build_opener(proxy) 
res = opener.open(req)

 

你可能感兴趣的:(python,爬虫,python,爬虫,urllib)