from urllib import request,parse
from urllib.error import HTTPError,URLError
# 一、get(url, headers = None)
# 定义get方法,获取参数,返回爬取信息
def get(url, headers = None):
return urlrequests(url, headers = headers)
# 二、post(url, form, headers = None)
# 定义post方法,获取参数,返回爬取信息
def post(url, form, headers = None):
return urlrequests(url, form, headers)
# 封装爬取信息方法
def urlrequests(url, form = None, headers = None):
# 获取网页response中的User-Agent信息
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
# 如果用户需用自行转入headers, 则覆盖之前的headers
# 判断headers是否为空
if headers == None:
# 如果没有传入headers参数,即为None的时候,则把user_agent信息以值的形式传递
headers = {
'User-Agent':user_agent
}
# 定义一个变量接收数据
html_bytes = b''
# 错误类型的判断 隐藏错误信息
try:
# 判断请求类型
if form:
# POST类型
# 2.1 转换成str (导入parse)
form_str = parse.urlencode(form)
# 2.2 转换成bytes
form_bytes = form_str.encode('utf-8')
# 使用request.Request获取url,data,headers
req = request.Request(url, data=form_bytes, headers=headers)
else:
# GET类型
# 使用request.Request获取url和headers
req = request.Request(url, headers=headers)
# 用urlopen打开获取到的信息
response = request.urlopen(req)
# 读取获取的信息
html_bytes = response.read()
except HTTPError as e:
print(e)
except URLError as e:
print(e)
# 将读取的信息进行返回
return html_bytes
if __name__ == '__main__':
# post测试数据
# url = 'http://fanyi.baidu.com/sug'
# form ={
# 'kw':'哈哈'
# }
# html_bytes = post(url, form=form)
# print(html_bytes.decode('utf-8'))
# get测试数据
url = 'http://www.baidu.com'
html_byte = get(url)
print(html_byte)
首先,吐槽一下CSDN,好久没用发现编写博客的画风真的汗颜。。。
其次,这个只适合初学者学习。
最后,代码思路的简单讲解,代码注释已经很详细。
一、先创建urlrequests方法,对要爬取的信息进行简单的封装
二、后来又考虑到了请求类型(get,post)的不同,又对urlrequests进行了简单的封装调用
三、在入口处写入get或post所需的参数进行测试