爬虫-urllib简介urlopen函数重要参数学习

1.urllib简介

urllib是Python中内置的最基本的网络请求库。

提供直接发送HTTP请求,接受处理HTTP响应的API。

2.urllib中包含模块

  • 2.1 urllib.request 是求请模块,urllib.response 是响应处理,它在urllib.request模块中包含,用于处理响应,不用我们单独处理。
  • 2.2 urllib.parse 是url解析模块
  • 2.3 urllib.error 是异常处理模块
  • 2.4 urllib.robotparser 是robot.txt解析模块,这个用于通用爬虫。

3. 常用的API

  • urllib.request 中最常用的函数是网络请求函数urlopen()。这个函数的作用就是发送HTTP请求,返回HTTP响应。

下面是这个函数的原型:

里面有很多参数,url是必须填的,后面参数都有默认值,也就是可以不填的。那么这些参数的含义是什么呢?

url:网络地址,是str类型。也可以是一个Request对象。这里我们需要了解url中如果出现了中文或者其他字符,必须进行url编码,当然浏览器默认为我们做了这件事情。否则就会报错。

比如我们在百度中输入下面这个网址,然后点击搜索。

再将网址复制下来就会变成

这就是所说的浏览器进行了url编码。

  • data 这个是发送求请需要传递的参数。如果要传递data参数,urlopen将使用post方式请求。
  • timeout 这个是求请超时时长。我们可以设置时长,如果请求时间过长,则会抛出异常。
  • cafile 这个是CA证书。
  • capath 这个是CA证书路径。
  • cadefault=Flase 这个已经被弃用了,不用关注这个了。
  • context 这个可以指定SSL安装验证设置,比如我们可以设置忽略证书验证等等。

 

你可能感兴趣的:(爬虫)