反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!

一、分析百度翻译网页,获取明显易得的参数

以定位到URL为前提

先作对比,找出不同的参数

从之前的请求响应中找数据

(1)网页源代码中查找

(2)全局请求搜索

可以观察到,我们输入中文时回车或者点击翻译按钮又或是不管的时候,这是会有一个结果响应,即对应的英文单词。

在XHR中我们看到了有加载的数据,我们试着在这里面找东西。

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第1张图片

我们看到有个英文单词叫做transapi,这个就是有关翻译的接口了,确切来说是请求的URL。

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第2张图片

且在这里我们看到有我们想要查询的英语单词。

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第3张图片

对比form表单:

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第4张图片

query

是自己输入的中文词

sign是动态加载的

token 可以从访问https://fanyi.baidu.com得到的静态页面中获取

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第5张图片

二、js代码中获取sign值

Crt+~ 搜索框中找token看到其中有以下参数在一行中显示

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第6张图片

点击进入之后点击左下角的{}格式化:

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第7张图片

这边有两处,一个是自定义的函数,另一个不是,一般都是函数类的传值,如果实在不确定则两个都打上断点,刷新页面,步入函数。

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第8张图片

复制完代码之后进行调试,补充完整此JS代码。

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第9张图片

导入库:

import execjs

import requests

下面展示一些调试js的代码。

代码如下(示例):

mport execjs

def js_complie():

    with open("bd.js","r")as f:

        js1 = f.read()

    return execjs.compile(js1)

js1 = js_complie()

print(js1.call("e","中国"))

结果:

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第10张图片

加入var i=null;

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第11张图片
反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第12张图片

其中还有个关于window

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第13张图片

在源码中打断点调试,之后找到gtk

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第14张图片

然后直接将window[l]换为gtk,即:

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第15张图片

最后我的是对象问题,有的是n未定义,这个我是请教的同学,自己可以直接百度,这里的n一个函数,然后在源码中加入这个函数即可。

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第16张图片

然后直接加入这个函数到源码Js中,然后整个JS就弄好了,下面是改好的。

代码如下(示例):

function n(r, o) {

        for (var t = 0; t < o.length - 2; t += 3) {

            var a = o.charAt(t + 2);

            a = a >= "a" ? a.charCodeAt(0) - 87 : Number(a),

            a = "+" === o.charAt(t + 1) ? r >>> a : r << a,

            r = "+" === o.charAt(t) ? r + a & 4294967295 : r ^ a

        }

        return r

    }

function e(r,gtk) {

        var i = null;

        var o = r.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);

        if (null === o) {

            var t = r.length;

            t > 30 && (r = "" + r.substr(0, 10) + r.substr(Math.floor(t / 2) - 5, 10) + r.substr(-10, 10))

        } else {

            for (var e = r.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), C = 0, h = e.length, f = []; h > C; C++)

                "" !== e[C] && f.push.apply(f, a(e[C].split(""))),

                C !== h - 1 && f.push(o[C]);

            var g = f.length;

            g > 30 && (r = f.slice(0, 10).join("") + f.slice(Math.floor(g / 2) - 5, Math.floor(g / 2) + 5).join("") + f.slice(-10).join(""))

        }

        var u = void 0

          , l = "" + String.fromCharCode(103) + String.fromCharCode(116) + String.fromCharCode(107);

        u = null !== i ? i : (i = gtk || "") || "";

        for (var d = u.split("."), m = Number(d[0]) || 0, s = Number(d[1]) || 0, S = [], c = 0, v = 0; v < r.length; v++) {

            var A = r.charCodeAt(v);

            128 > A ? S[c++] = A : (2048 > A ? S[c++] = A >> 6 | 192 : (55296 === (64512 & A) && v + 1 < r.length && 56320 === (64512 & r.charCodeAt(v + 1)) ? (A = 65536 + ((1023 & A) << 10) + (1023 & r.charCodeAt(++v)),

            S[c++] = A >> 18 | 240,

            S[c++] = A >> 12 & 63 | 128) : S[c++] = A >> 12 | 224,

            S[c++] = A >> 6 & 63 | 128),

            S[c++] = 63 & A | 128)

        }

        for (var p = m, F = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(97) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(54)), D = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(51) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(98)) + ("" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(102)), b = 0; b < S.length; b++)

            p += S[b],

            p = n(p, F);

        return p = n(p, D),

        p ^= s,

        0 > p && (p = (2147483647 & p) + 2147483648),

        p %= 1e6,

        p.toString() + "." + (p ^ m)

    }

关于sign的值,也就是函数输出结果:

三、结合以上完成的python脚本:

代码如下(示例):

# from: zh

# to: en

# query: 中国

# transtype: enter

# simple_means_flag: 3

# sign: 777849.998728

# token: 9f8eb7eca82fbc1bb8169f524574d536

# domain: common

#

# from: zh

# to: en

# query: 复兴

# transtype: realtime

# simple_means_flag: 3

# sign: 694133.947268

# token: 9f8eb7eca82fbc1bb8169f524574d536

# domain: common

import execjs

import requests

import re

headers = {

    'origin': 'https://fanyi.baidu.com',

    'pragma': 'no-cache',

    'referer': 'https://fanyi.baidu.com/',

    'sec-fetch-mode': 'cors',

    'sec-fetch-site': 'same-origin',

    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',

    'x-requested-with': 'XMLHttpRequest',

}

session = requests.Session()

session.headers = headers

def js_complie():

    with open("baidu.js","r")as f:

        js1 = f.read()

    return execjs.compile(js1)

js1 = js_complie()

print(js1.call("e","中国"))

    # ,"320305.131321201"

def get_token():

    url = "https://fanyi.baidu.com/"

    for i in range(3):

        respone  = session.get(url)

        token = re.findall("token: '(.*?)'",respone.text)[0]

        gtk = re.findall("window.gtk = '(.*?)'",respone.text)[0]

        print("[%s]token:"%i,token)

        print("[%s]gtk:"%i,gtk)

    return token,gtk

def translate(query,sign,token):

    form_data={

    'from': 'zh',

    'to': 'en',

    'query': query,

    'simple_means_flag': '3',

    'sign': sign,

    'token':token ,

    'domain': 'common',

    }

    url =  "https://fanyi.baidu.com/v2transapi?from=zh&to=en"

    res = session.post(url,data=form_data)

    result = re.findall('"dst":"(.*?)"',res.text)[0]

    print(result)

    return result

if __name__ == '__main__':

    query = input("输入要翻译的中文:")

    token, gtk = get_token()

    js1 = js_complie()

    sign = js1.call("e", query, gtk)

    rest = translate(query,sign,token)

    print("需要翻译的中文是:%s,翻译结果:%s"%(query,rest))

代码结果:

反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!_第17张图片

总结

适合入门,代码也较容易理解。

你可能感兴趣的:(反反爬入门——JS混淆之百度翻译!这个爬虫教程有点东西!)