requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高
requests模块下载:pip install requests
请求流程
:指定url,发起请求,获取响应数据,数据解析,持久化存储
import requests
# 制定URL
url = 'https://www.baidu.com/'
# 发起请求,获取请求数据
r = requests.get(url)
print(r.text) # 输出网页内容
# 保存源码为baidu.htmnl
with open('./baidu.html', 'w', encoding='utf-8') as fp:
fp.write(r.text)
print(r.status_code) #状态码,200表示成功
# 200
如果GET请求还需要添加额外的信息,可以利用params参数,比如url为http://httpbin.org/get
,需要访问的是http://httpbin.org/get?name=gremey&age=22
,则可以利用params参数,代码如下:
import requests
data = {
'name':'gremey',
'age':22
}
url = 'http://httpbin.org/get'
r = requests.get(url, params=data)
UA:USer-Agent请求载体的身份
UA检测:门户网站的服务器会检测对应请求的载体身份,如果监测到请求身份为某一款浏览器,说明该请求是一个正常请求 但是如果检测到请求的载体身份标识不是基于某一款浏览器,则标识该浏览为不正常的请求(爬虫),则服务器很可能拒接该请求
UA伪装:让爬虫对应得请求身份标识伪装成某一款浏览器
import requests
# UA伪装:将对应的User-Agent封装到一个字典
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
url = 'https://www.baidu.com/'
r = requests.get(url,headers=headers)
以百度翻译为例,在左上方输入单词,左下方会立马实时出现翻译(页面局部刷新,ajax请求),目标是获取左下方红方框的内容
在左边选择找到右边kw内容是上面输入的单词内容
在下面图中可以看出这是POST请求,请求的URL是https://fanyi.baidu.com/sug,请求的数据是json格式,json格式爬出来的数据可以使用json()方法转化为字典格式,不是json格式不能使用json()方法
import requests
import json
url = 'https://fanyi.baidu.com/sug'
# post请求参数处理(同get请求)
data = {
'kw': 'pig'
}
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.post(url=url, data=data,headers=headers)
print(r.text)
#如果服务器是json类型才可以使用json方法
print(r.json())
# 保存json格式文本
f = open('./pig.json', 'w', encoding='utf-8')
json.dump(r.json(), fp=f, ensure_ascii=False)
再以肯德基店铺查询为例,他的data数据如下:
keywoed代表查询地点,pageIndex参数代表页码数
以爬取豆瓣电影评分为例,到豆瓣官网查看电影排行榜,选择喜剧,不断往下滑动,下面会不断刷新出新的内容
该请求的URL为https://movie.douban.com/j/chart/top_list,加上其下方的几个data参数,可以看到这个请求的数据也是json格式,也可以用json方法
import requests
import json
url = 'https://movie.douban.com/j/chart/top_list'
data = {
'type': '24',
'interval_id': '100:90',
'action': '',
'start': '1', # 从库中的第几部开始的位置
'limit': '20' # 一次取多少个
}
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.get(url=url, params=data, headers=headers)
print(r.json())
# 保存json格式文本
f = open('./pig.json', 'w', encoding='utf-8')
json.dump(r.json(), fp=f, ensure_ascii=False)
URL:http://125.35.6.84:81/xk/
到该网站点击红方框内的会显示信息详情页面
详情页面如下,我们需要的就是这里面的数据
import requests
url = 'http://125.35.6.84:81/xk/'
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.get(url=url, headers=headers)
with open('./a.html', 'w', encoding='utf-8') as fp:
fp.write(r.text)
通过上面代码爬取保存的页面和浏览器的相比,首页中没有企业名称等信息,截图如下:
不显示企业信息,则该信息不是通过http://125.35.6.84:81/xk/这个URL获取的,而是通过其他方法加载出来的数据,称为动态加载的数据(通过ajax请求得到的)
按F12打开页面详细信息,从新进入页面,页面下方XHR里面会显示一个数据包,如下:
这里面有请求的URL,该请求为POST请求,数据类型为json格式,请求的data数据如下:这里可以爬取获得后面需要的id值
进入企业详情页面,按F12打开页面详情,刷新该页面,发现左下方有个数据包,右边有URL请求方式,以及id参数等信息
所有企业详情页面的URL都相同,只有id参数不同
如果我们可以批量获取多家企业的id后,就可以讲id和url形成一个完整的详情页面对应数据的Ajax请求的url
import requests
# 批量获取企业id值
url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'
# 参数封装
data = {
'on': 'true',
'page': '1', # 页面,通过这里可以便利获取每页所有企业信息
'pageSize': '15', # 页面显示企业数量
'productName': '',
'conditionType': '1',
'applyname': '',
'applysn': '',
}
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.post(url=url, headers=headers, data=data)
jsons = r.json()
# 存储id
id_list = []
for dic in jsons['list']:
id_list.append(dic['ID'])
# 获取企业详情数据
post_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'
for id in id_list:
data = {
'id': id
}
js = requests.post(url=post_url, headers=headers, data=data)
# 输出企业详情页面的具体信息数据
print(js.json())
在百度图片中找一张图片,复制图片的链接,然后爬取该链接即可获取其图片(浏览该链接会有图片)
import requests
url = 'https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2021%2F0919%2F2bb40aecj00qzo05j000dd200jg00etg00jg00et.jpg&thumbnail=650x2147483647&quality=80&type=jpg'
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.post(url=url, headers=headers)
with open('baidu.jpg', 'wb') as f:
f.write(r.content)
# text(字符串) content(二进制) json(对象)