爬虫:urllib库各种函数的使用

1、urlopen函数

请求网络服务

from urllib import request
resp=request.urlopen('http://www.baidu.com')
print(resp.read())

就能得到网页的源代码了(:)~

2、urlretrieve函数

下载东西到本地特别方便

from urllib import request
request.urltrieve('http://www.baidu.com','baidu.html')

第一个参数是要下载的网址,第二个是下载后的文件名

3、urlencode、parse_qs函数

第一个给请求编码,第二个将url参数进行解码

from urllib import parse
params={'name':'张三','age':19}
qs=parse.urlencode(params)
print(qs)
url='http://www.baidu.com'
url=url+'?'+qs  #百度提交请求的格式
print(url)
qs='name=%E5%BC%A0%E4%B8%89&age=19'
params=parse.parse_qs(qs)
print(params)

4、urlparse、urlsplit函数

都是解析url中的每个组成部分

from urllib import parse
url='http://www.baidu.com/s?wd=python&username=xiaoming#a'
result=parse.urlparse(url)
print('scheme:',result.scheme)
print('netloc:',result.netloc)
print('path:',result.path)
print('params:',result.params)
print('query:',result.query)
print('fragment:',result.fragment)

你可能感兴趣的:(爬虫:urllib库各种函数的使用)