Python爬虫:百度翻译接口获取翻译结果

分析百度翻译接口,使用python获取翻译结果

目标:获取百度翻译结果

工具:chrome/firefox浏览器、pychram、python3.7

模块:requests、re、execjs

开始分析:

首先在翻译页面左边输入字符串,会自动检测语言并将翻译结果显示在右边,这个过程页面并没有刷新,所以分析应该是ajax请求了接口获取的结果,直接筛选XHR,发现最后一个请求就是翻译结果接口;
Python爬虫:百度翻译接口获取翻译结果_第1张图片
既然接口找到了,接下来就是分析看传递了哪些参数,一共八个参数:

from: zh
to: en
query: 你好
transtype: realtime
simple_means_flag: 3
sign: 232427.485594
token: c156c49e36c6a5d8625e1919bf915c6e
domain:common

参数from、to:多次尝试后发现分别是原文语言和翻译语言的简称;
参数query:翻译原文;
参数transtype:应该是翻译类型,多次尝试发现有两种结果realtime和translang;
参数simple_means_flag:固定值;
参数sign:应该是js生成的;
参数token:应该也是一段js生成的字符串;
参数domain:固定值。

参数初步分析完成,固定值不用改,现在只需要知道sign和token是怎样生成的就行。

通过搜索sign,发现这个index_4029c2d.js文件中sign调用函数y(n)传入了一个n
Python爬虫:百度翻译接口获取翻译结果_第2张图片
打个断点调试看看,发现这个n其实就是需要翻译的原文
Python爬虫:百度翻译接口获取翻译结果_第3张图片
继续往下调试,发现函数y其实就是这个函数e,通过函数e、函数n加密后得到sign,ok,接下来将代码复制出来测试,经过js调试发现这段代码报错
Python爬虫:百度翻译接口获取翻译结果_第4张图片
浏览器调试看了下,i 就是window全局对象gtk , u=gtk
Python爬虫:百度翻译接口获取翻译结果_第5张图片
再次搜索gtk,找到gtk对比前面浏览器调试u的值,发现果然一模一样,这个值就是翻译页面加载出来的,直接请求这个页面正则匹配就能获得gtk,那么也就解决了获取gtk问题
Python爬虫:百度翻译接口获取翻译结果_第6张图片
将js代码变量u直接赋值为这个值放到js调试,看是否和浏览器得到的结果一样。
Python爬虫:百度翻译接口获取翻译结果_第7张图片
通过对比,发现一模一样,至此sign参数搞定,利用这段js代码就可以生成sign
Python爬虫:百度翻译接口获取翻译结果_第8张图片
接下来分析token参数,刚刚搜索sign其实已经知道(不清楚的回到上面搜索sign那里看看),token参数是从window全局对象common中获取的,通过搜索发现,token其实和gtk是在同一个页面,那么一样使用正则匹配就能拿到
Python爬虫:百度翻译接口获取翻译结果_第9张图片
通过再次对比,确认sign和token参数获取方式都没错,参数分析完成,开始写代码
Python爬虫:百度翻译接口获取翻译结果_第10张图片
逻辑梳理:
请求翻译页 => 获取gtk、token => 生成sign => 请求翻译接口 => 解析得到翻译结果

代码:

import requests
import re
import execjs
from requests.packages.urllib3.exceptions import InsecureRequestWarning

# 关闭ssl验证错误提醒
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)


class FanYi:
    def __init__(self, keyword):
        self.keyword = keyword
        self.url = ['https://fanyi.baidu.com/?aldtype=16047',
                    'https://fanyi.baidu.com/v2transapi?']
        self.session = requests.session()
        self.headers = {
     
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                          '(KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36',
            'referer': 'https://fanyi.baidu.com/?aldtype=16047',
            'origin': 'https://fanyi.baidu.com',
        }

    def key_parameter(self):
        headers = {
     
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                          '(KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
        }
        response = self.session.get(self.url[0], headers=headers, verify=False).content.decode()
        # 获取页面中的token/gtk
        token = re.findall("token: '(.*?)',", response)[0]
        gtk = re.findall("window.gtk = '(.*?)';", response)[0]
        # 读取js
        with open('baidu.js', 'r') as f:
            js = f.read()
        # 生成js对象
        exec_obj = execjs.compile(js)
        # 调用js中的e函数并传入参数生成sign
        sign = exec_obj.call("e", self.keyword, gtk)
        return token, sign

    def form_data(self, token, sign):
        data = {
     
            'from': 'zh',
            'to': 'en',
            'query': self.keyword,
            'transtype': 'realtime',
            'simple_means_flag': 3,
            'sign': sign,
            'token': token,
            'domain': 'common'
        }
        return data

    def run(self):
        # 调用两次key_parameter函数以保证token为最新的,否则请求不到数据
        self.key_parameter()
        token, sign = self.key_parameter()
        form_data = self.form_data(token, sign)
        data = self.session.post(self.url[1], headers=self.headers, data=form_data, verify=False).json()
        result = data['trans_result']['data'][0]['dst']
        print('翻译结果:', result)


if __name__ == '__main__':
    word = input('请输入原文: ')
    fy = FanYi(word)
    fy.run()

大功告成,运行后可以成功获取到翻译结果。

遇到的问题:之前运行后一直不行,发现是token问题,获取两次token,使用第二次的token就行了,可能是百度的反爬?另外貌似还是有个问题,会偶尔请求失败,需要重新运行,目前原因不明,百度反爬措施还是挺多的。。。

总结:总之完成了翻译结果获取,其中的重点就是sign参数的获取,需要层层分析,打断点调试、抠js代码(js我还是比较菜。。。)分析完后这篇文章也最终干货满满。另外js代码就不放出来了,直接按我上面的方法就能找到js代码直接复制到一个文件中就行,把代码中的 u(这个值其实固定死也行,貌似浏览器上面也是固定的)赋值一下就行。

你可能感兴趣的:(Python爬虫,python,百度,爬虫,api)