requests使用get/post抓取数据踩过的坑

不知道初入门python爬虫的朋友是否有过跟我一样的经历，书是早几年的，书上的示例代码可能已经不适用了，需要做一些调整，才能将程序跑通。本人在学习python前三章的内容，就没少碰到这样的尴尬事，为此耗费了较多精力搜索、查阅相关资料。

前三章主要讲如何通过python的requests库使用get/post方法爬取网页或者API数据。本文说说我在这方面踩的坑。

1）安装requests库

书上的建议在pycharm中安装requests库，即打卡pycharm，单击“file”（文件菜单），选择“default settings”（默认设置）命令，如下图

图1

选择“project interpreter”（项目编辑器）命令，确认当前选择的编译器，然后单击右上角的加号，如下图

图2

在搜索框输入：requests（注意，一定要输入完整，不然容易出错），勾选“Install to user's site packages directory”（安装到用户的站点库目录）选项，如果不勾选该选项则会安装在临时目录中，然后单击左下角的“Install Package”（安装库）按钮，如下图

图3

到这一步就悲剧了，跟书上展示的完全不一样，此路不通。而书中的下一步应该如下图一般

截取自其它网页

本人从网上查阅了很多资料，至今都无法修复图3中“nothing to show”的情况，如果你有相应的解决办法，欢迎一起讨论哦。

2）get/post方法调用

I、get方法获取数据

书上只简单的给了一个示例，示例如下

# 使用GET方式抓取数据

import requests# 导入requests包

url ='http://www.cntour.cn/'

strhtml = requests.get(url)# GET方式获取网页数据

print(strhtml.text)

注：requests.get(url)只适用于不需要表头参数的信息获取，当API接口对表头数据有要求时，该方法已不使用，如下图API接口

阿里云市场上的天气信息API接口

接口的python示例代码

python3已经删除了urllib2的调用，若用requests调用接口，该代码要更改为

#获取城市列表

import requests#导入requests包

import json#导入json包

host ='http://weather-ali.juheapi.com'

path ='/weather/citys'

method ='GET'

appcode ='65070e518c474ff68837606434083cfa'

querys ='dtype=json'

bodys = {}

url = host + path +'?' + querys

headers = {'Authorization':'APPCODE ' + appcode} #设置http包头

response = requests.get(url,headers=headers) #调用http接口

# print(response)

data = response.text#获取response文本

# print(data)

data = json.loads(data) #将str字符串转换成dict字典

del data['resultcode'] #通过del删除字典的前两个元素

del data['reason']

print(data)

for item in data['result']:

print(type(item))

print(item)

注：API接口调用时，必传表头信息，表头信息的设置和接口的调用如下两行代码所示

headers = {'Authorization':'APPCODE ' + appcode} #设置http包头

response = requests.get(url,headers=headers) #调用http接口

II、post方法爬取百度翻译上的信息

输入网址“https://fanyi.baidu.com/?aldtype=16047#zh/en/”，按F12进入谷歌开发者模式，在待翻译框中输入“我爱中国”，显示如下

图4

图5

post方法获取网站信息，信息的爬取是动态的，代码中需要包含Request URL、Request Headers、Form Data的信息，三者缺一不可。代码如下：

# 使用POST抓取数据

import requests

import json

def get_translate_date(word =None):

url ='https://fanyi.baidu.com/v2transapi'

chinese = word

form_data = {'from':'zh','to':'en','query':chinese,'transtype':'realtime','simple_means_flag':'3','sign':'731618.1034963','token':'595cdd9cc5535f5221b042f98a8dff9e'}

request_headers = {'Accept':'*/*','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9','Connection':'keep-alive', \

'Content-Length':'154','Content-Type':'application/x-www-form-urlencoded; charset=UTF-8','Cookie':'REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BIDUPSID=44BBBD72ED6CC7036FE60E4B97D24B27; PSTM=1494408740; hasSeenTips=1; MCITY=-179%3A; BDUSS=9NU1RzQ3pMc2p0Y1FrNlhCR3N5dDZ6ekl0cXdZUHJKQ3VUN1dtRjgydHRZRUJjQUFBQUFBJCQAAAAAAAAAAAEAAADNlc0beWV6aTA4MDYxNzE3AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAG3TGFxt0xhcQW; BAIDUID=5AACF8785E214AF7E5AD9394BE0D9F82:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_PS_PSSID=1446_21125_28607_28584_26350_28603_20718; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; PSINO=5; locale=zh; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; to_lang_often=%5B%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%2C%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%5D; from_lang_often=%5B%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%2C%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%5D', \

'Host':'fanyi.baidu.com','Origin':'https://fanyi.baidu.com','Referer':'https://fanyi.baidu.com/?aldtype=16047','User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Mobile Safari/537.36', \

'X-Requested-With':'XMLHttpRequest'}

# 请求表单数据

response = requests.post(url,data = form_data,headers = request_headers)

# 将JSON格式字符串转字典

content = json.loads(response.text)

# 打印翻译后的数据

print(content['trans_result']['data'][0]['dst'])

if __name__ =='__main__':

get_translate_date('我爱中国')

注：输入的中文不同，Form Data中的sign和token会不同，本人暂未解决该问题，期待与大家一起讨论批量出入中文时，该如何动态获取Form Data中的sign和token

requests使用get/post抓取数据踩过的坑

你可能感兴趣的:(requests使用get/post抓取数据踩过的坑)