requests模块
urlib模块:比较古老,其封装的相关爬虫的操作是比较麻烦,复杂的
requests模块:用法比较简洁并且很高效
requests模块:python是原生的一款基于网络请求的模块,功能非常强大,简单便携,效率极高。
作用:模拟浏览器发请求。
如何使用:
- 指定url
- 基于requests模块发起请求
- 获取响应对象中的数据值
- 持久化存储
环境安装:
pip install requests
入手采集百度首页
import requests
if __name__ == '__main__':
# 指定url
url = "https://www.baidu.com/"
# 发起请求
response = requests.get(url=url)
# 获取请求 返回字符串
info = response.text
# 持久化数据
with open("./数据存储/baidu.html",'w',encoding='utf-8') as fp:
fp.write(info);
print("爬取数据结束")
案例
1、UA检测伪装
简易网页采集器(指定关键字搜索保存)
import requests
#UA伪装:User-Agent 请求载体的身份标识
# UA伪装: 门户网站的服务器会检测对应请求的载体身份标识
# 如果检测到请求的载体身份标识为某一款浏览器,
# 说明该请求是一个正常请求,但是如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求为不正常的请求
# 服务器端很可能就会拒绝该次请求。
if __name__ == '__main__':
getInfo = "电影"
#UA伪装:将对应的User-Agent封装到一个字典中
headers = {
'User-Agent' : "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36"
}
# 指定url
url = "https://www.sogou.com/web"
param = {
'wd':getInfo
}
# 发起请求
response = requests.get(url=url,params=param,headers=headers)
# 获取请求 返回字符串
info = response.text
# 持久化数据
with open("./数据存储/"+getInfo+".html",'w',encoding='utf-8') as fp:
fp.write(info);
print("爬取数据结束")
2、破解百度翻译
post请求(携带了参数)
响应数据是一组json数据
import json
import requests
# 从response headers信息中的content-type中我们可以知道我们响应得到的数据类型
# python操作json文件通过了两种方法:
# load():用于读取json文件;
# dump():用于写入json文件
if __name__ == '__main__':
kw = input("请输入你想要的翻译结果:")
post_url = "https://fanyi.baidu.com/sug"
header = {
'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36'
}
data ={
'kw':kw
}
#请求发送
response = requests.post(url=post_url,data=data,headers=header)
#获取响应数据,如果确定响应数据是json类型,才可以使用json()
dict_info = response.json()
##存储文件 将字典数据写入到json文件中
file = open('./数据存储/'+kw+'.json','w',encoding='utf-8');
json.dump(dict_info,fp = file,ensure_ascii=False)
print("爬虫数据完成")
3、豆瓣电影抓取
import json
import requests
if __name__ == '__main__':
url = "https://movie.douban.com/j/chart/top_list"
header = {
'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36'
}
param ={
'type': '24',
'interval_id': '100:90',
'action': 'None',
'start': '0', # 从第几部开始取
'limit': '100' #一次取多少数据
}
#请求发送
response = requests.get(url=url,params=param,headers=header)
#获取响应数据,如果确定响应数据是json类型,才可以使用json()
dict_info = response.json()
##存储文件 将字典数据写入到json文件中
file = open('./数据存储/豆瓣喜剧电影信息.json','w',encoding='utf-8');
json.dump(dict_info,fp = file,ensure_ascii=False)
print("爬虫数据完成")
雨果亚马逊选品采集
# 项目目的爬取雨国跨境亚马逊选品信息
# 该网页相关数据包括:产品数据信息。。#最终需要爬取每个产品的详细信息(详情页)---动态加载出的页面数据(不可直接由当前页面的url解析出来)
# 爬取思路:先爬取主页数据再定位到主页各产品名称对应的id(通过首页爬取每个产品对应的产品id) 再对每个详情页发请求
# 验证:用XHR来捕获动态数据包查看动态数据的数据结构与类型
import requests
if __name__ == "__main__":
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
} # 反反爬机制:伪装成用户通过浏览器登陆
url = 'https://www.cifnews.com/supply/ajax/product/search'
# 参数的封装
for page in range(1, 6):
page = str(page)
params = {
'page': page, #第一页
'size': '40'
}
# 将发请求与获取响应数据合并起来 获取到的是带有企业id的字典类型的json数据
json_ids = requests.get(url=url, headers=headers,
params=params).json() # 对url发起访问请求;通过post()方法获取请求页面信息,以.json的数据形式。
id_list = [] # 存储商品的id
all_data_list = [] # 存储所有的商品详情数据
# 批量获取不同产品的id值(企业详情页url=原url+产品id)统一的url+不同的参数
#
# # 该字典的值是一个列表(列表中的每一个小字典对应一个产品信息)
for dic in json_ids['data']: # 遍历列表中的每一个字典并取出id数据
id_list.append(dic['productCode'])
print(id_list)
# 获取商品详情数据 这个地址 每个产品都是写死一个页面数据,所以要保存 需要进行数据处理
for id in id_list:
post_url = 'https://www.cifnews.com/ccee/product/'+id
##采集的是每个产品信息的网页数据,之后需要进行处理
detail_info = requests.get(url=post_url).text
print(detail_info)
##可以批量将每个产品的详情数据保存在list中
# all_data_list.append(detail_json)
# print(detail_json)
# # 持久化存储all_data_list
# fp = open('./数据存储/亚马孙商品.json', 'w', encoding='utf-8') # 写入并保存数据
# json.dump(all_data_list, fp=fp, ensure_ascii=False)
# print('保存成功')