详解：用python3 urllib破解有道翻译反爬虫机制！（附带源代码）

前言：

今天为大家带来的内容是详解：用python3 urllib破解有道翻译反爬虫机制！（附带源代码），本文颇有不错的参考意义，希望在此能够帮助各位。

提示：

部分代码用图片的方式呈现出来，方便各位观看与收藏，要是喜欢记得点赞关注不迷路哦！

爬取条件

要实现爬取的目标，首先要知道它的地址，请求参数，请求头，响应结果。

进行抓包分析

打开有道翻译的链接：http://fanyi.youdao.com/。然后在按f12 点击Network项。这时候就来到了网络监听窗口，在这个页面中发送的所有网络请求，都会在Network这个地方显示出来，如果是空白的，点击XHR。接着我们在翻译的窗口输入我们需要翻译的文字，比如输入hell。然后点击自动翻译按钮，那么接下来在下面就可以看到浏览器给有道发送的请求，这里截个图看看：

点击链接，就可以看到整个请求的信息。包括请求头，请求参数，响应结果。

这里面有一个问题就是参数进行了加密。我们需要知道这些参数是如何加密的。

破解加密难题

要想知道如何加密的，需要查看源码。于是我们需要知道发起这个请求的js文件。在文件查找这个相关代码。刚才我们监听了网络请求，可以看到发起请求的js文件。那么接下来查找发起请求的链路，鼠标浮到请求文件上，显示了一系列执行方法，我们点击跟业务相关的那个方法对应的文件链接，这里是t.translate 对应的连接。

点击进入查看对应的源码

我们可以看到i,salt,sign是变量，其他的请求参数是常量。i是需要翻译的字符串，salt是时间戳生成的13位，sign是S+n+r+D

也就S是client的值，也就是fanyideskweb. 我们查找D 这个常量，在底栏输入框输入 D = （空格D空格=空格；格式化后的代码规范）点击右边的Aa让搜索时大小写敏感。回车查找到下一个，直到找到对应的值。

在上图我们看到了_,C，S,D等常量。

于是你以为构建一个请求，传好这些参数就ok了。别忘了，为了反爬虫，都是会校验请求头。于是要模拟浏览器的请求头。经过验证只需要User-Agent，Referer，Cookie 三个请求头。

实现代码：

提示：图一，图二，图三中的代码全是一起的。

data = parse.urlencode(data).encode('utf-8')

request1 = request.Request(request_url,data,headers = headers)

response = request.urlopen(request1)

print(response.info())

翻译结果：

{"translateResult":[[{"tgt":"地狱","src":"hell"}]],

"errorCode":0,"type":"en2zh-CHS","smartResult":{"entries"

:["","n. 地狱；究竟（作加强语气词）；训斥；黑暗势力\r\n","vi. 过放荡生活；飞驰\r\n","int. 该死；见鬼（表示惊奇、烦恼、厌恶、恼怒、失望等）\r\n"],"type":1}}

翻译的结果是：地狱

以上就是本文全部内容啦！

小编是一名python开发工程师，群里有我自己整理了一套最新的python系统学习教程，包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以加群：877562786

详解：用python3 urllib破解有道翻译反爬虫机制！（附带源代码）

你可能感兴趣的:(详解：用python3 urllib破解有道翻译反爬虫机制！（附带源代码）)