requests使用get/post抓取数据踩过的坑

不知道初入门python爬虫的朋友是否有过跟我一样的经历,书是早几年的,书上的示例代码可能已经不适用了,需要做一些调整,才能将程序跑通。本人在学习python前三章的内容,就没少碰到这样的尴尬事,为此耗费了较多精力搜索、查阅相关资料。

前三章主要讲如何通过python的requests库使用get/post方法爬取网页或者API数据。本文说说我在这方面踩的坑。

1)安装requests库

书上的建议在pycharm中安装requests库,即打卡pycharm,单击“file”(文件菜单),选择“default settings”(默认设置)命令,如下图

图1

选择“project interpreter”(项目编辑器)命令,确认当前选择的编译器,然后单击右上角的加号,如下图

图2

在搜索框输入:requests(注意,一定要输入完整,不然容易出错),勾选“Install to user's site packages directory”(安装到用户的站点库目录)选项,如果不勾选该选项则会安装在临时目录中,然后单击左下角的“Install Package”(安装库)按钮,如下图

图3

到这一步就悲剧了,跟书上展示的完全不一样,此路不通。而书中的下一步应该如下图一般

截取自其它网页

本人从网上查阅了很多资料,至今都无法修复图3中“nothing to show”的情况,如果你有相应的解决办法,欢迎一起讨论哦。

2)get/post方法调用

I、get方法获取数据

书上只简单的给了一个示例,示例如下

# 使用GET方式抓取数据

import requests# 导入requests包

url ='http://www.cntour.cn/'

strhtml = requests.get(url)# GET方式获取网页数据

print(strhtml.text)

注:requests.get(url)只适用于不需要表头参数的信息获取,当API接口对表头数据有要求时,该方法已不使用,如下图API接口

阿里云市场上的天气信息API接口
接口的python示例代码

python3已经删除了urllib2的调用,若用requests调用接口,该代码要更改为

#获取城市列表

import requests#导入requests包

import json#导入json包

host ='http://weather-ali.juheapi.com'

path ='/weather/citys'

method ='GET'

appcode ='65070e518c474ff68837606434083cfa'

querys ='dtype=json'

bodys = {}

url = host + path +'?' + querys

headers = {'Authorization':'APPCODE ' + appcode}       #设置http包头

response = requests.get(url,headers=headers)        #调用http接口

# print(response)

data = response.text#获取response文本

# print(data)

data = json.loads(data)       #将str字符串转换成dict字典

del data['resultcode']          #通过del删除字典的前两个元素

del data['reason']

print(data)

for item in data['result']:

     print(type(item))

    print(item)

注:API接口调用时,必传表头信息,表头信息的设置和接口的调用如下两行代码所示

headers = {'Authorization':'APPCODE ' + appcode}       #设置http包头

response = requests.get(url,headers=headers)        #调用http接口

II、post方法爬取百度翻译上的信息

输入网址“https://fanyi.baidu.com/?aldtype=16047#zh/en/”,按F12进入谷歌开发者模式,在待翻译框中输入“我爱中国”,显示如下

图4
图5

post方法获取网站信息,信息的爬取是动态的,代码中需要包含Request URL、Request Headers、Form Data的信息,三者缺一不可。代码如下:

# 使用POST抓取数据

import requests

import json

def get_translate_date(word =None):

      url ='https://fanyi.baidu.com/v2transapi'

      chinese = word

      form_data =                        {'from':'zh','to':'en','query':chinese,'transtype':'realtime','simple_means_flag':'3','sign':'731618.1034963','token':'595cdd9cc5535f5221b042f98a8dff9e'}

      request_headers = {'Accept':'*/*','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9','Connection':'keep-alive', \

'Content-Length':'154','Content-Type':'application/x-www-form-urlencoded; charset=UTF-8','Cookie':'REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BIDUPSID=44BBBD72ED6CC7036FE60E4B97D24B27; PSTM=1494408740; hasSeenTips=1; MCITY=-179%3A; BDUSS=9NU1RzQ3pMc2p0Y1FrNlhCR3N5dDZ6ekl0cXdZUHJKQ3VUN1dtRjgydHRZRUJjQUFBQUFBJCQAAAAAAAAAAAEAAADNlc0beWV6aTA4MDYxNzE3AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAG3TGFxt0xhcQW; BAIDUID=5AACF8785E214AF7E5AD9394BE0D9F82:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_PS_PSSID=1446_21125_28607_28584_26350_28603_20718; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; PSINO=5; locale=zh; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; to_lang_often=%5B%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%2C%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%5D; from_lang_often=%5B%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%2C%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%5D', \

'Host':'fanyi.baidu.com','Origin':'https://fanyi.baidu.com','Referer':'https://fanyi.baidu.com/?aldtype=16047','User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Mobile Safari/537.36', \

'X-Requested-With':'XMLHttpRequest'}

# 请求表单数据

    response = requests.post(url,data = form_data,headers = request_headers)

# 将JSON格式字符串转字典

    content = json.loads(response.text)

# 打印翻译后的数据

    print(content['trans_result']['data'][0]['dst'])

if __name__ =='__main__':

    get_translate_date('我爱中国')

注:输入的中文不同,Form Data中的sign和token会不同,本人暂未解决该问题,期待与大家一起讨论批量出入中文时,该如何动态获取Form Data中的sign和token

你可能感兴趣的:(requests使用get/post抓取数据踩过的坑)