接上篇《22、urllib库基本使用》
上一篇我们介绍了实现爬虫的必备基础——urllib库的学习。本篇我们来使用urllib实现百度翻译的效果。
当我们需要翻译一段文字时,百度翻译是一个很常用的工具。它是由百度公司开发的一款在线翻译服务,可以提供多语种互译:
在许多场景中,我们需要编写程序来获取并使用在线翻译服务。例如,如果我们正在开发一个Web应用程序,需要编写代码来翻译用户输入的文本。在这种情况下,我们可以使用Python编写代码来访问百度翻译API,并在应用程序中使用它提供翻译服务。
我们输入一个英文字母,点击百度翻译的“翻译”按钮,就给我们再右侧框输出了一个翻译后的中文,这中间是调用了百度后台的翻译API的,其实也就是一个http服务:
我们怎么去找到它呢?我们刷新百度翻译页面,F12打开浏览器开发者模式,输入英文并点击翻译后,可以看到右侧开发者工具“网络”面板请求了很多http服务:
那么我们就可以在网络请求的列表中,尝试找到翻译的API接口。首先排除所有“gif”图片请求,再剩下的请求中寻找:我们可以注意到,一个类似“v2transapi”的接口,参数是from=en向to=zh,这里我们可以分析出来,接口的名字应该是“trans(翻译)”的api,并且是version2.0版,参数是从英文(en)来,到中文(zh)去:
那我们点开这个请求,先看看他的Response中有没有我们的结果“羊”:
这里我们看到返回过来的中文都变成了Unicode编码字符(\u7f8a),我们可以通过“Preview”预览选项卡查看转义后的结果:
可以看到就是我们之前请求的sheep的翻译结果,证明这个接口就是我们需要的。
我们回到“Headers”选项卡,可以从这里分析出百度翻译的API接口结构:
这里可以看到请求的地址是“https://fanyi.baidu.com/v2transapi?from=en&to=zh”,请求类型是post请求。
然后请求的参数如下:
这里“Query String Parameters”是拼接在url的后面的,而“Form Data”就是我们post请求的body,它不是拼接在url后面的,而是包装在我们的request请求体中的。
我们新建一个“urllib百度翻译”的python程序文件,根据开发者工具分析的地址、请求头的User-Agent、Content-Type、Cookie和post需要的参数准备好:
# 翻译服务的API地址
url = "https://fanyi.baidu.com/v2transapi"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.66 Safari/537.36',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8'
'Cookie': 'BIDUPSID=9ACAA09E33A14A90B3A1F09AF6429144; PSTM=1680336365; BAIDUID=7F32D86E5969CAB87D254D58C3AC33C9:FG=1; BDUSS=2ZwcFlrbENDdWEyTGY5SWQtYXRrck11YW0wNFlMWmNHckgtcVVua09qZHFrVTlrRVFBQUFBJCQAAAAAAAAAAAEAAAABHeYpz7jT6sLk08TJvQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGoEKGRqBChkN; BDUSS_BFESS=2ZwcFlrbENDdWEyTGY5SWQtYXRrck11YW0wNFlMWmNHckgtcVVua09qZHFrVTlrRVFBQUFBJCQAAAAAAAAAAAEAAAABHeYpz7jT6sLk08TJvQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGoEKGRqBChkN; H_PS_PSSID=; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1685857756; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1685857756; delPer=0; PSINO=1; BAIDUID_BFESS=7F32D86E5969CAB87D254D58C3AC33C9:FG=1; BA_HECTOR=200120a12h2081810kala0et1i7ocff1m; ZFY=hACYb0b9dzIiQbN6jcQ1UUbl7owC3XLFvJmpgMqN:Axk:C; BCLID=8956021043898709769; BCLID_BFESS=8956021043898709769; BDSFRCVID=tB_OJexroG0ZmSbfqaZUuxPRHuweG7bTDYrEOwXPsp3LGJLVFakFEG0Pts1-dEu-S2OOogKKBeOTHn0F_2uxOjjg8UtVJeC6EG0Ptf8g0M5; BDSFRCVID_BFESS=tB_OJexroG0ZmSbfqaZUuxPRHuweG7bTDYrEOwXPsp3LGJLVFakFEG0Pts1-dEu-S2OOogKKBeOTHn0F_2uxOjjg8UtVJeC6EG0Ptf8g0M5; H_BDCLCKID_SF=tRAOoC_-tDvDqTrP-trf5DCShUFsWJvWB2Q-XPoO3KJADfOPbRLKKfk02b3NBnQf5mkf3fbgy4op8P3y0bb2DUA1y4vp0toW3eTxoUJ2-KDVeh5Gqq-KXU4ebPRi3tQ9QgbXopQ7tt5W8ncFbT7l5hKpbt-q0x-jLTnhVn0MBCK0hD89DjKKD6PVKgTa54cbb4o2WbCQ-n0M8pcN2b5oQT8lhJbaKJoKfCOtXUJ4WP5beq06-lOUWJDkXpJvQnJjt2JxaqRC3JjOsl5jDh3MKToDb-oteltHB2Oy0hvc0J5cShnkDMjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2XjQhDH-OJ6DHtJ3aQ5rtKRTffjrnhPF3Dlo3XP6-hnjy3bRzWxOt5tjHEtbG2h3CybLWbttf5q3Ry6r42-39LPO2hpRjyxv4Q4_fQ4oxJpOJ-bCL0p5aHx8K8p7vbURvL4Lg3-7XJU5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIEoC8ytC_KhCvPKITD-tFO5eT22-usbmcT2hcHMPoosIJLhqbDbR__jUQthpONWTTf0l05KfbUotoHXnJi0btQDPvxBf7p3D6WKq5TtUJMqIDzbMohqqJXXPnyKMni0DT9-pn8tpQrh459XP68bTkA5bjZKxtq3mkjbPbDfn028DKuDj-WDjjXDGRabK6aKC5bL6rJabC3fho3XU6q2bDeQN3z2lJa5j6Khf5aMUJCO-56bftb-l0vWq54WbbvLT7johRTWqR4sRjcQxonDh83KNLLKUQtHGAH2h7O5hvvER5O3M7_DMKmDloOW-TB5bbPLUQF5l8-sq0x0bOte-bQXH_E5bj2qRu8_K0M3e; H_BDCLCKID_SF_BFESS=tRAOoC_-tDvDqTrP-trf5DCShUFsWJvWB2Q-XPoO3KJADfOPbRLKKfk02b3NBnQf5mkf3fbgy4op8P3y0bb2DUA1y4vp0toW3eTxoUJ2-KDVeh5Gqq-KXU4ebPRi3tQ9QgbXopQ7tt5W8ncFbT7l5hKpbt-q0x-jLTnhVn0MBCK0hD89DjKKD6PVKgTa54cbb4o2WbCQ-n0M8pcN2b5oQT8lhJbaKJoKfCOtXUJ4WP5beq06-lOUWJDkXpJvQnJjt2JxaqRC3JjOsl5jDh3MKToDb-oteltHB2Oy0hvc0J5cShnkDMjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2XjQhDH-OJ6DHtJ3aQ5rtKRTffjrnhPF3Dlo3XP6-hnjy3bRzWxOt5tjHEtbG2h3CybLWbttf5q3Ry6r42-39LPO2hpRjyxv4Q4_fQ4oxJpOJ-bCL0p5aHx8K8p7vbURvL4Lg3-7XJU5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIEoC8ytC_KhCvPKITD-tFO5eT22-usbmcT2hcHMPoosIJLhqbDbR__jUQthpONWTTf0l05KfbUotoHXnJi0btQDPvxBf7p3D6WKq5TtUJMqIDzbMohqqJXXPnyKMni0DT9-pn8tpQrh459XP68bTkA5bjZKxtq3mkjbPbDfn028DKuDj-WDjjXDGRabK6aKC5bL6rJabC3fho3XU6q2bDeQN3z2lJa5j6Khf5aMUJCO-56bftb-l0vWq54WbbvLT7johRTWqR4sRjcQxonDh83KNLLKUQtHGAH2h7O5hvvER5O3M7_DMKmDloOW-TB5bbPLUQF5l8-sq0x0bOte-bQXH_E5bj2qRu8_K0M3e; ab_sr=1.0.1_YTA3YzI0NmQzNGI0MzNhM2ZhOWIxMzQ2MGNmNmQ3ZTk0NTliNGNkOWUzOTFmMzk2YmExOTFmMDhjNTgzZGE1MGUzZWI2ZDNlNjFjYWUyMjYxMDA5YjY1YTdjYmNlZGY1MGI2YTMwMGZiN2JkNjNhZDBmODMxNmNmOTI0N2YwMmJhMjQyOTU4MDA0NmIyNzZmNjhhODMwNGQyZWRjZDAwOWQ2ZGY2MmYwMDdhOThhYjM4MTEyMmE5Nzg5ZWJlZmE0'
}
data = {
'from': 'en', # 要翻译的语言(英文)
'to': 'zh', # 翻译后的语言(中文)
'query': 'sheep', # 要翻译的内容
'transtype': 'translang', # 翻译类型
'simple_means_flag': 3, # 简单均值标志
'sign': 731658.1034555, # 签名
'token':'9e981a17003e242b8e821ee917b020bd', # 令牌
'domain': 'common', # 领域:公共部分
'ts': 1685858937854 # 时间戳
}
然后将post请求的参数进行编码,使用urllib.request.Request方法构造一个request对象:
# post请求的参数,必须要进行编码
data = urllib.parse.urlencode(data).encode('utf-8')
# post请求的参数,是不会拼接在url后面的,而是需要放在请求对象的指定参数中
request = urllib.request.Request(url=url,data=data,headers=headers)
然后就模拟浏览器向服务器发送请求:
# 模拟浏览器向服务器发送请求
reponse = urllib.request.urlopen(request)
# 获取响应的数据
content = reponse.read().decode('utf-8')
print(content)
# 将字符串转换为json对象
import json
obj = json.loads(content)
print(obj)
# _*_ coding : utf-8 _*_
# @Time : 2023-06-04 14:21
# @Author : 光仔December
# @File : urllib百度翻译
# @Project : Python_Projects
import urllib.parse
import urllib.request
# 翻译服务的API地址
url = "https://fanyi.baidu.com/v2transapi"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.66 Safari/537.36',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Cookie': 'BIDUPSID=9ACAA09E33A14A90B3A1F09AF6429144; PSTM=1680336365; BAIDUID=7F32D86E5969CAB87D254D58C3AC33C9:FG=1; BDUSS=2ZwcFlrbENDdWEyTGY5SWQtYXRrck11YW0wNFlMWmNHckgtcVVua09qZHFrVTlrRVFBQUFBJCQAAAAAAAAAAAEAAAABHeYpz7jT6sLk08TJvQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGoEKGRqBChkN; BDUSS_BFESS=2ZwcFlrbENDdWEyTGY5SWQtYXRrck11YW0wNFlMWmNHckgtcVVua09qZHFrVTlrRVFBQUFBJCQAAAAAAAAAAAEAAAABHeYpz7jT6sLk08TJvQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGoEKGRqBChkN; H_PS_PSSID=; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1685857756; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1685857756; delPer=0; PSINO=1; BAIDUID_BFESS=7F32D86E5969CAB87D254D58C3AC33C9:FG=1; BA_HECTOR=200120a12h2081810kala0et1i7ocff1m; ZFY=hACYb0b9dzIiQbN6jcQ1UUbl7owC3XLFvJmpgMqN:Axk:C; BCLID=8956021043898709769; BCLID_BFESS=8956021043898709769; BDSFRCVID=tB_OJexroG0ZmSbfqaZUuxPRHuweG7bTDYrEOwXPsp3LGJLVFakFEG0Pts1-dEu-S2OOogKKBeOTHn0F_2uxOjjg8UtVJeC6EG0Ptf8g0M5; BDSFRCVID_BFESS=tB_OJexroG0ZmSbfqaZUuxPRHuweG7bTDYrEOwXPsp3LGJLVFakFEG0Pts1-dEu-S2OOogKKBeOTHn0F_2uxOjjg8UtVJeC6EG0Ptf8g0M5; H_BDCLCKID_SF=tRAOoC_-tDvDqTrP-trf5DCShUFsWJvWB2Q-XPoO3KJADfOPbRLKKfk02b3NBnQf5mkf3fbgy4op8P3y0bb2DUA1y4vp0toW3eTxoUJ2-KDVeh5Gqq-KXU4ebPRi3tQ9QgbXopQ7tt5W8ncFbT7l5hKpbt-q0x-jLTnhVn0MBCK0hD89DjKKD6PVKgTa54cbb4o2WbCQ-n0M8pcN2b5oQT8lhJbaKJoKfCOtXUJ4WP5beq06-lOUWJDkXpJvQnJjt2JxaqRC3JjOsl5jDh3MKToDb-oteltHB2Oy0hvc0J5cShnkDMjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2XjQhDH-OJ6DHtJ3aQ5rtKRTffjrnhPF3Dlo3XP6-hnjy3bRzWxOt5tjHEtbG2h3CybLWbttf5q3Ry6r42-39LPO2hpRjyxv4Q4_fQ4oxJpOJ-bCL0p5aHx8K8p7vbURvL4Lg3-7XJU5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIEoC8ytC_KhCvPKITD-tFO5eT22-usbmcT2hcHMPoosIJLhqbDbR__jUQthpONWTTf0l05KfbUotoHXnJi0btQDPvxBf7p3D6WKq5TtUJMqIDzbMohqqJXXPnyKMni0DT9-pn8tpQrh459XP68bTkA5bjZKxtq3mkjbPbDfn028DKuDj-WDjjXDGRabK6aKC5bL6rJabC3fho3XU6q2bDeQN3z2lJa5j6Khf5aMUJCO-56bftb-l0vWq54WbbvLT7johRTWqR4sRjcQxonDh83KNLLKUQtHGAH2h7O5hvvER5O3M7_DMKmDloOW-TB5bbPLUQF5l8-sq0x0bOte-bQXH_E5bj2qRu8_K0M3e; H_BDCLCKID_SF_BFESS=tRAOoC_-tDvDqTrP-trf5DCShUFsWJvWB2Q-XPoO3KJADfOPbRLKKfk02b3NBnQf5mkf3fbgy4op8P3y0bb2DUA1y4vp0toW3eTxoUJ2-KDVeh5Gqq-KXU4ebPRi3tQ9QgbXopQ7tt5W8ncFbT7l5hKpbt-q0x-jLTnhVn0MBCK0hD89DjKKD6PVKgTa54cbb4o2WbCQ-n0M8pcN2b5oQT8lhJbaKJoKfCOtXUJ4WP5beq06-lOUWJDkXpJvQnJjt2JxaqRC3JjOsl5jDh3MKToDb-oteltHB2Oy0hvc0J5cShnkDMjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2XjQhDH-OJ6DHtJ3aQ5rtKRTffjrnhPF3Dlo3XP6-hnjy3bRzWxOt5tjHEtbG2h3CybLWbttf5q3Ry6r42-39LPO2hpRjyxv4Q4_fQ4oxJpOJ-bCL0p5aHx8K8p7vbURvL4Lg3-7XJU5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIEoC8ytC_KhCvPKITD-tFO5eT22-usbmcT2hcHMPoosIJLhqbDbR__jUQthpONWTTf0l05KfbUotoHXnJi0btQDPvxBf7p3D6WKq5TtUJMqIDzbMohqqJXXPnyKMni0DT9-pn8tpQrh459XP68bTkA5bjZKxtq3mkjbPbDfn028DKuDj-WDjjXDGRabK6aKC5bL6rJabC3fho3XU6q2bDeQN3z2lJa5j6Khf5aMUJCO-56bftb-l0vWq54WbbvLT7johRTWqR4sRjcQxonDh83KNLLKUQtHGAH2h7O5hvvER5O3M7_DMKmDloOW-TB5bbPLUQF5l8-sq0x0bOte-bQXH_E5bj2qRu8_K0M3e; ab_sr=1.0.1_YTA3YzI0NmQzNGI0MzNhM2ZhOWIxMzQ2MGNmNmQ3ZTk0NTliNGNkOWUzOTFmMzk2YmExOTFmMDhjNTgzZGE1MGUzZWI2ZDNlNjFjYWUyMjYxMDA5YjY1YTdjYmNlZGY1MGI2YTMwMGZiN2JkNjNhZDBmODMxNmNmOTI0N2YwMmJhMjQyOTU4MDA0NmIyNzZmNjhhODMwNGQyZWRjZDAwOWQ2ZGY2MmYwMDdhOThhYjM4MTEyMmE5Nzg5ZWJlZmE0'
}
data = {
'from': 'en', # 要翻译的语言(英文)
'to': 'zh', # 翻译后的语言(中文)
'query': 'sheep', # 要翻译的内容
'transtype': 'translang', # 翻译类型
'simple_means_flag': 3, # 简单均值标志
'sign': 731658.1034555, # 签名
'token':'9e981a17003e242b8e821ee917b020bd', # 令牌
'domain': 'common', # 领域:公共部分
'ts': 1685858937854 # 时间戳
}
# post请求的参数,必须要进行编码
data = urllib.parse.urlencode(data).encode('utf-8')
# post请求的参数,是不会拼接在url后面的,而是需要放在请求对象的指定参数中
request = urllib.request.Request(url=url,data=data,headers=headers)
# 模拟浏览器向服务器发送请求
reponse = urllib.request.urlopen(request)
# 获取响应的数据
content = reponse.read().decode('utf-8')
# 将字符串转换为json对象
import json
obj = json.loads(content)
print(obj)
在Python的urllib编程中,POST请求是与GET请求相对应的一种HTTP请求方法。与GET请求不同,POST请求将请求参数作为请求体发送给服务器,而不是作为URL的一部分发送。它有几个特点:
1、POST请求通常用于向服务器提交数据,例如表单数据、文件上传等。
2、POST请求的请求体可以包含大量的数据,而不会像GET请求那样限制请求URL的长度。
3、POST请求通常需要在请求头中指定Content-Type来描述请求体的类型,例如application/x-www-form-urlencoded或multipart/form-data等。
4、在Python的urllib库中,发送POST请求需要使用urllib.request模块的urlopen()函数,并传入一个Request对象,其中包含了POST请求的URL和数据参数。
转载请注明出处:https://blog.csdn.net/acmman/article/details/131032235
参考:尚硅谷Python爬虫教程小白零基础速通教学视频