[笔记]python爬虫学习笔记(二)——向网页发送请求(json)

运行平台:Windows 

Python版本:Python3.x 

IDE:Sublime text3

学习参考博客:http://blog.csdn.net/c406495762/article/details/58716886

# -*- coding: UTF-8 -*-
import io
import sys
from urllib import request
from urllib import parse
import json
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')		#改变标准输出的默认编码
if __name__ == "__main__":
	Request_URL = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
	#创建Form_Data字典,存储数据
	Form_Data = {}
	Form_Data['i'] = 'crush'
	Form_Data['from'] = 'AUTO'
	Form_Data['to'] = 'AUTO'
	Form_Data['smartresult'] = 'dict'
	Form_Data['client'] = 'fanyideskweb'
	Form_Data['salt'] = '1526093689660'
	Form_Data['sign'] = 'be06628950f0ed07bb166f26fd71e0d2'
	Form_Data['doctype'] = 'json'
	Form_Data['version'] = '2.1'
	Form_Data['keyfrom'] = 'fanyi.web'
	Form_Data['action'] = 'FY_BY_REALTIME'
	Form_Data['typoResult'] = 'false'
	#使用urlencode方法转换为标准格式
	data = parse.urlencode(Form_Data).encode('utf-8')
	response = request.urlopen(Request_URL,data)
	html = response.read().decode('utf-8')		#根据网页的编码方式进行解码
	#使用json
	translate_results = json.loads(html)
	print(translate_results)
	translate_results = translate_results['translateResult'][0][0]['tgt']
	print("翻译的结果是:%s"%translate_results)


{'type': 'EN2ZH_CN', 'errorCode': 0, 'elapsedTime': 0, 'translateResult': [[{'src': 'crush', 'tgt': '粉碎'}]]}

翻译的结果是:粉碎


产生报错:json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

产生报错是因为用了原地址http://fanyi.youdao.com/,但是查询返回的地址变了,请求的地址也要跟着改

然后又出现...

translate_result的返回值为{'errorCode': 50}

查了一下说是因为参数salt和sign加密,每次输入同样的翻译文都会产生不一样的salt和sign的参数值。

有两个解决办法:

第一是简单粗暴的,把请求地址中的“_o”删掉

第二是破解加密方法,mark一个博客,之后再来看:http://www.tendcode.com/article/youdao-spider/


上述代码涉及urlopen的两个参数

url:可以为一个字符串,也可以为一个request对象

data:data参数可以向服务器发送数据

    我们可以使用data参数,向服务器发送数据。根据HTTP规范,GET用于信息获取,POST是向服务器提交数据的一种请求,再换句话说:

    从客户端向服务器提交数据使用POST;

    从服务器获得数据到客户端使用GET(GET也可以提交,暂不考虑)。

    如果没有设置urlopen()函数的data参数,HTTP请求采用GET方式,也就是我们从服务器获取信息,如果我们设置data参数,HTTP请求采用POST方式,也就是我们向服务器传递数据。

    data参数有自己的格式,它是一个基于application/x-www.form-urlencoded的格式,具体格式我们不用了解, 因为我们可以使用urllib.parse.urlencode()函数将字符串自动转换成上面所说的格式。

data数据在审查元素中获得

右键-检查,出现一个信息框框,点击Network,在左侧输入翻译内容,如crush,翻译,右侧就会出现具体信息,Name中出现了一些信息,点击第一个,找到Form Data和Request URL。

[笔记]python爬虫学习笔记(二)——向网页发送请求(json)_第1张图片

urlopen()返回的对象,可以使用read()进行读取,同样也可以使用geturl()方法、info()方法、getcode()方法。

  • geturl()返回的是一个url的字符串;

  • info()返回的是一些meta标记的元信息,包括一些服务器的信息;

  • getcode()返回的是HTTP的状态码,如果返回200表示请求成功。

JSON是一种轻量级的数据交换格式,我们需要从爬取到的内容中找到JSON格式的数据,这里面保存着我们想要的翻译结果,再将得到的JSON格式的翻译结果进行解析,得到我们最终想要的样子:粉碎

为了说明获取的结果的格式,我print了json翻译后的结果,也可以在检查网页的preview中看到。

你可能感兴趣的:(py)