利用爬虫来翻译文本
1.F12查看翻译网页的元素(elements)
2.点开Network查看Method方法中post方法前面的文件中preview是否为自己刚提交的文本
下图为我提交的翻译文本例子:
Headers简介:
General |
Resquest URL: 请求访问地址 |
Resquest Method:传值方式 |
Status Code: 状态(标志是否传值成功 |
Remote Address: 服务器地址 |
Request Headers(客户端信息) |
User-Agent:用户访问信息(浏览器信息,系统信息等)客户端常常使用这个信息来判断是否为非人类在访问 |
Form Data |
i (显示的为提交的翻译文本) |
实现代码
import urllib.request
import urllib.parse
import json
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
print('按quit退出!')
while True:
string = input('请如输入你要翻译的内容:')
if string == 'quit':
break
data = {}
data['i'] = string
data['from']= 'AUTO'
data['to']= 'AUTO'
data['smartresult']= 'dict'
data['client']= 'fanyideskweb'
data['salt']= '15736230452499'
data['sign']= '2334c19fb0460ae09b873c2c1c9a7a98'
data['ts']='1573623045249'
data['bv']= '75551116684a442e8625ebfc9e5af1ba'
data['doctype']= 'json'
data['version']= '2.1'
data['keyfrom']= 'fanyi.web'
data['action']= 'FY_BY_CLICKBUTTION'
'''
data是来自于网页中Form Data中的数据,它其实为一个字典
data如果为空则默认用get传值否则用post来传值
data传入的格式要为application/x-www-from-urlencoded 形式,我们可以使用 urllib.parse.urlencode()方法转换为该格式
'''
data = urllib.parse.urlencode(data).encode('utf-8')
response = urllib.request.urlopen(url,data)
html = response.read().decode('utf-8')
target = json.loads(html)['translateResult'][0][0]['tgt']
print(target)
(注意点已经写在了代码中不在赘述)
解释一下json 来自百度词条
JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。