Python爬取有道词典

  1. 准备

  2. 实验原理

  3. 代码优化

  4. GUI界面

  5. 整合代码  

准备

我测试使用的Python版本为3.5。

实验原理

 

使用urllib.request发送请求

解析服务器返回的数据并提取关键字

 

 

urllib.request.urlopen(urldata=None, [timeout, ]*cafile=Nonecapath=Nonecadefault=Falsecontext=None)

-         url:  需要打开的网址

-         data:Post提交的数据

-         timeout:设置网站的访问超时时间

直接用urllib.request模块的urlopen()获取页面,page的数据格式为bytes类型,需要decode()解码,转换成str类型。

 

 

1.首先打开有道首页,点击审查元素

Python爬取有道词典_第1张图片

 

 

 

2.点击翻译,从元素中找到我们要查询的结果

Python爬取有道词典_第2张图片

 

 

3.找到form data,模拟浏览器提交数据。

Python爬取有道词典_第3张图片

 

 

4.了解urllib

Python爬取有道词典_第4张图片

 

5.模拟客户端向服务器发起请求,取得服务器返回的文件并进行比对。

需要使用urllib.parse.urlencode将data数据转换成标准格式

Python爬取有道词典_第5张图片

 

 

6.通过索引提取关键数据

我们虽然取得了数据,但是数据被封装成json格式。Json简介:Json,全名 JavaScript Object Notation,是一种轻量级的数据交换格式。Json最广泛的应用是作为AJAX中web服务器和客户端的通讯的数据格式。现在也常用于http请求中,所以对json的各种学习,是自然而然的事情。这里我们先通过json.loads()函数是将json格式数据转换为字典。

 

 

代码优化 

1.修改user-agent模拟浏览器发出请求

Python爬取有道词典_第6张图片

 

 

2.使用代理ip模拟人工访问

urllib2中通过ProxyHandler来设置使用代理服务器

Python爬取有道词典_第7张图片

Python爬取有道词典_第8张图片

 

 

GUI界面

Tkinter: Tkinter 模块(Tk 接口)是 Python 的标准 Tk GUI 工具包的接口 .Tk 和 Tkinter 可以在大多数的 Unix 平台下使用,同样可以应用在 Windows 和 Macintosh 系统里

Python爬取有道词典_第9张图片

3.简化代码

data里面的数据是不是都是必需的呢,有了这个疑问之后,小编立马进行测试,结果发现除了提交内容和指定内容格式为json的信息外,其他都可以删除。

 

 

整合代码 

 Python爬取有道词典_第10张图片

 

大功告成

Python爬取有道词典_第11张图片

你可能感兴趣的:(Python爬取有道词典)