urllib异常处理中HTTPError和URLError混用的注意事项


运行环境:Python 3.6、Pycharm 2017.2


Python中写爬虫程序时,可以使用urllib.error来接收urllib.request产生的异常。urllib.error有两个方法,URLErrorHTTPError


注意事项

如果在urllib.request产生异常时,用HTTPErrorURLError一起捕获异常,那么需要将HTTPError放在URLError的前面,因为HTTPErrorURLError的一个子类。如果URLError放在前面,出现HTTP异常会先响应URLError,这样HTTPError就捕获不到错误信息了。


演示代码:

# -*- coding: utf-8 -*-
# @Time : 2017/9/24 23:11 
# @File : 07_CSDN_Spider_3_2.py 
# @Software: PyCharm
# 本实例代码将HTTPError放在URLError之前,
# 是正确的做法

from urllib import request
from urllib import error

if __name__ == "__main__":
    url = input("Please enter a URL:")
    req = request.Request(url)
    try:
        response = request.urlopen(req)
        # html = response.read().decode('utf-8')
        # print(html)
        print("It's OK!")               # 正常
    except error.HTTPError as error:    # HTTP错误
        print('HTTPError')
        print('ErrorCode: %s' % error.code)
    except error.URLError as error:     # URL错误
        print(error.reason)

运行结果:

# 输入正确url时,以www.baidu.com为例
Please enter a URL:http://www.baidu.com
It's OK!
# 输入一个不存在的域名时
Please enter a URL:http://www.qweqwdsasdx.com
[Errno 11001] getaddrinfo failed
# 输入一个正常的域名,但是不存在的资源时
Please enter a URL:http://www.zhihu.com/AAA.html
HTTPError
ErrorCode: 404

HTTPError放在URLError的后面时:

当URL出现异常时,只会抛出一种异常,即URLError

# 如上输入一个不存在的资源URL时,具体应该返回404错误
Please enter a URL:http://www.zhihu.com/AAA.html
Not Found

你可能感兴趣的:(Python,爬虫)