Python爬虫入门—urllib库的基础知识

Python爬虫入门—urllib库的基础知识

urllib库是模拟浏览器发出请求的库,在python2和python3使用的是不同的版本

  • python2:urllib 和 urllib2
  • python3: urllib.request 和 urllib.parse

urllib.request

  • urllib.request.urlopen():方法用于实现对目标url的访问。
    • 函数原型如下:
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) 	
	- 案例:
import urllib.request
url = "https://www.baidu.com/"
response = urllib.request.urlopen(url = url)
print(response)
	 输出的结果:

  • urllib.request.urlopen(url,data = form_data)
    • 可以
  • urllib.request.urlretrieve(): 方法直接将远程数据下载到本地。
    • 函数原型如下:
urlretrieve(url, filename=None, reporthook=None, data=None)
	案例: 
import urllib.request
url =  "https://www.baidu.com/"
response = urllib.request.urlretrieve(url = url,"text.html")

response:
-此处的response是一个**变量**:response = urllib.request.urlopen(url = url)
	 - read():读取相应内容,内容是字节类型
	 - geturl():获取请求的url
	 - getheaders():获取头部信息,列表里面有元组
	 - getcode():获取状态码
	 - readlines():按行读取,返回列表,都是字节类型

urllib.parse

  • urllib.parse.urlencode():这个方法可以将字典转换为url参数
import urllib.parse
params = {
    "name":"zhaosan",
    "age":23,
}
base_url = "http://www.baidu.com?"
params = urllib.parse.urlencode(params)
url = base_url+params
print(params)
print(url)

输出结果如下:
在这里插入图片描述

你可能感兴趣的:(Python爬虫入门—urllib库的基础知识)