urllib模块的使用

在Python3.3之后的版本,urllib2库现在可以用import urllib.request的方法引用。

import urllib.request

url =r'http://www.baidu.com'
#编码
newUrl1 = urllib.request.quote(url)
print(newUrl1)
#解码
newUrl2 = urllib.request.unquote(url)
print(newUrl2)


#向指定的url发起请求,并返回服务器响应的数据(文件的对象)
response = urllib.request.urlopen(url)

#data = response.read()

#data = response.readline()        #三种读取数据的方式

data = response.readlines()

#一步把爬取的文件写到本地
urllib.request.urlretrieve('http://www.baidu.com', filename=r'C:\Users\Administrator\AppData\Local\Programs\Python\Python37\file.html')
#urlretrieve在执行过程中会产生缓存,用久了会影响性能,需要清除缓存
urllib.request.urlcleanup()

print(data)

'''
1.基本方法

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

-         url:  需要打开的网址

-         data:Post提交的数据

-         timeout:设置网站的访问超时时间

直接用urllib.request模块的urlopen()获取页面,page的数据格式为bytes类型,需要decode()解码,转换成str类型。
urlopen返回对象提供方法:
-         read() , readline() ,readlines() , fileno() , close() :对HTTPResponse类型数据进行操作
-         info():返回HTTPMessage对象,表示远程服务器返回的头信息
-         getcode():返回Http状态码。如果是http请求,200请求成功完成;404网址未找到
-         geturl():返回请求的url

2.使用Request

urllib.request.Request(url, data=None, headers={}, method=None)

使用request()来包装请求,再通过urlopen()获取页面。

用来包装头部的数据:
-         User-Agent :这个头部可以携带如下几条信息:浏览器名和版本号、操作系统名和版本号、默认语言
-         Referer:可以用来防止盗链,有一些网站图片显示来源http://***.com,就是检查Referer来鉴定的
-         Connection:表示连接状态,记录Session的状态。

3.Post数据

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

urlopen()的data参数默认为None,当data参数不为空的时候,urlopen()提交方式为Post。

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None)

urlencode()主要作用就是将url附上要提交的数据。 

总结:

如果只是单纯的下载或者显示下载进度,不对下载后的内容做处理等,比如下载图片,css,js文件等,可以用urlilb.urlretrieve()
如果是下载的请求需要填写表单,输入账号,密码等,建议用urllib2.urlopen(urllib2.Request())
在对字典数据编码时候,用到的是urllib.urlencode()
具体代码和方法:
http://www.cnblogs.com/Lands-ljk/p/5447127.html

'''

你可能感兴趣的:(urllib模块的使用)