运行环境:Python 3.6、Pycharm 2017.2
Python中写爬虫程序时,可以使用urllib.error
来接收urllib.request
产生的异常。urllib.error
有两个方法,URLError
和HTTPError
。
如果在urllib.request
产生异常时,用HTTPError
和URLError
一起捕获异常,那么需要将HTTPError
放在URLError
的前面,因为HTTPError
是URLError
的一个子类。如果URLError
放在前面,出现HTTP
异常会先响应URLError
,这样HTTPError
就捕获不到错误信息了。
# -*- coding: utf-8 -*-
# @Time : 2017/9/24 23:11
# @File : 07_CSDN_Spider_3_2.py
# @Software: PyCharm
# 本实例代码将HTTPError放在URLError之前,
# 是正确的做法
from urllib import request
from urllib import error
if __name__ == "__main__":
url = input("Please enter a URL:")
req = request.Request(url)
try:
response = request.urlopen(req)
# html = response.read().decode('utf-8')
# print(html)
print("It's OK!") # 正常
except error.HTTPError as error: # HTTP错误
print('HTTPError')
print('ErrorCode: %s' % error.code)
except error.URLError as error: # URL错误
print(error.reason)
运行结果:
# 输入正确url时,以www.baidu.com为例
Please enter a URL:http://www.baidu.com
It's OK!
# 输入一个不存在的域名时
Please enter a URL:http://www.qweqwdsasdx.com
[Errno 11001] getaddrinfo failed
# 输入一个正常的域名,但是不存在的资源时
Please enter a URL:http://www.zhihu.com/AAA.html
HTTPError
ErrorCode: 404
当HTTPError
放在URLError
的后面时:
当URL出现异常时,只会抛出一种异常,即URLError
# 如上输入一个不存在的资源URL时,具体应该返回404错误
Please enter a URL:http://www.zhihu.com/AAA.html
Not Found