python爬虫——urllib库

目录

      • urllib库
      • urlopen函数
      • urlretrieve函数
      • urlencode函数
      • parse_qs函数
      • urlsplit和urlparse
      • request.Request类
      • 实际操作代码

urllib库

urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。

urlopen函数

在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面。
urlopen函数有如下几点需要注意:

  • url:请求的url
  • data:请求的data,如果设置这个值,将会变成post请求。
  • 返回值:返回值是一个http.client.HTTPResponse对象,这个对象是一个类文件句柄对象。有read(size)、readline、readlines以及getcode等方法。

urlretrieve函数

这个函数可以方便的将网页上的一个文件保存到本地

urlencode函数

urlencode可以把字典数据转换为URL编码的数据

parse_qs函数

可以将经过编码后的url参数进行解码

urlsplit和urlparse

有时候拿到一个url,想要对这个url中的各个组成部分进行分割,那么这时候就可以使用urlparse或者是urlsplit来进行分割

request.Request类

如果想要在请求的时候增加一些请求头,那么就必须使用request.Request类来实现

实际操作代码

from urllib import request,parse

#urlopen函数基本操作
'''
url = 'http://www.baidu.com'
resp = request.urlopen( url )
print( resp.read() )
'''

#urlretrieve函数(保存数据到本地)
'''
request.urlretrieve( 'http://www.baidu.com/', 'baidu.html' )
'''

#urlencode函数(导入parse模块,url编码)
'''
data = { 'name':'张三' }
qs = parse.urlencode(data)
print( qs )
'''

#parse_qs函数(url解码)
'''
qs = 'name=%E5%BC%A0%E4%B8%89'
print( parse.parse_qs( qs ) )
'''

#urlparse函数和urlsplit函数(两个函数大致一样,urlparse函数比urlsplit函数多获取一个params属性,但此属性用的比较少)
'''
url = 'http://www.baisu.com/s;hello?username=phishing'
result = parse.urlparse( url )
print( 'scheme:', result.scheme )
print( 'netloc:', result.netloc )
print( 'path:', result.path )
print( 'query:', result.query )
print( 'params:', result.params )
'''

#Request函数(增加一些请求头)
'''
rs = request.Request(url,headers={
    'User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) 
    AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25'
})
'''

你可能感兴趣的:(python爬虫)