URLLIB库之函数介绍-爬虫

URLLIB库的urlretrieve函数用法
urlretrievel函数:
这个面数可以方便的将网页上的一个文件保存到本地。以下代码可少非常方便的将百度的首页下载到本地:

from urllib import request
request.urlretrdeve("http://www.baidu.com/,"baidu.html")


5 urllib库之参数编码和解码函
urlencode函数:
用浏览器发送请求的时,如果url中包含了中文或者其他特殊字符,那么浏览器器会自动的给我们进行编码。而如果使用发送请求,那么就必须手动的进行编码。,这时就应该使用urlencode函数实现。urlencode可以把字曲数据转换为URL编码的数据。
示例代码如下:

    from urllib import parse
    data = {'name':'爬虫基础','greet':'hello world','age':100}
    qs = parse.urlencode(data)
    print(ps)


parse_qs函数:
    可以将经过编码后的url参数进行解码。示例代码如下:
    

from urllib import parse
    qs ="ie=UTF-8&wd=%E7%AD%BE%E5%AD%97%E7%AC%94%E6%9B%BF%E8%8A%AF"
    print(parse.parse_qs(qs))


urlparse和URLsplit:
    有时候拿到URL,想要对这个URL中的各个组成部分进行分割,那么这时候就可以使用urlparse或是urlsplit来进行分割。示例代码如下:
  

 from urllib import request,parse
    url = 'https://www.baidu.com/s?username=tmall'
    result = parse.urlsplit(url)
    #result = parse.urlparse(url)

    print('scheme',result.scheme)
    print('netloc',result.netloc)
    print('path',result.path)
    print('query',result.query)

 

你可能感兴趣的:(爬虫)