在爬取一些网站的数据时,有时候会碰到以下报错:
requests.exceptions.SSLError: HTTPSConnectionPool(host='martin-audio.com', port=443):
Max retries exceeded with url: xxx (Caused by SSLError(SSLError("bad handshake: Error
([('SSL routines', 'ssl3_get_server_certificate', 'certificate verify failed')],)",),))
如果一时看不出来,百度翻译来凑~~
这个大概的意思就是:请求异常,连接超过最大连接次数,最后是因为证书认证失败。(差不多就是这几个意思~)
知道原因,接下来就开始debug:
首先,给requests.get()传入 verify=False 避免ssl认证。
import requests
requests.get(url, verify=False)
设置完,运行一下
嗒嗒嗒,数据都出来了,嗨森~~
不过,向上翻看,发现还有报错??
仔细一看,是一个强烈的建议:
xxx\site-packages\urllib3\connectionpool.py:1004:
InsecureRequestWarning: Unverified HTTPS request is being made.
Adding certificate verification is strongly advised.
See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
大概意思就是:不安全请求警告:正在发出未验证的HTTPS请求。强烈建议添加证书验证。
关闭这个警告,可以有一下三种方法:
方法1:调用requests中的一个方法关掉警告,代码如下:
requests.packages.urllib3.disable_warnings()
方法2:直接调用urllib3的disable_warnings(),代码如下:
import urllib3
urllib3.disable_warnings()
方法3:调用logging的captureWarnings()方法,传入True,关闭提示,代码如下:
import logging
logging.captureWarnings(True)
接下来就可以愉快的爬取数据了~~