urllib.parse.urlencode转换get请求参数

浏览器地址栏搜索 刘若英
https://www.baidu.com/s?word=刘若英&tn=71069079_1_hao_pg&ie=utf-8
但是复制到文件中是这样的:
https://www.baidu.com/s?word=%E5%88%98%E8%8B%A5%E8%8B%B1&tn=71069079_1_hao_pg&ie=utf-8

这是因为浏览器对中文请求参数进行了转码
用代码访问网站所发的请求中如果有中文也必须是转码之后的。这里需要用到urllib.parse.urlencode 方法。
这个方法的作用就是将字典里面所有的键值转化为query-string格式(key=value&key=value),并且将中文转码

import urllib.request
import urllib.parse
import os

url = 'http://www.baidu.com/s?'

wd = input('请输入要搜索关键字: ')
"""
word=刘若英&tn=71069079_1_hao_pg&ie=utf-8
"""
data = {
    'word': wd,
    'tn': '71069079_1_hao_pg',
    'ie': 'utf-8'
}

query_string = urllib.parse.urlencode(data)
# 拼接获取完整url
url += query_string
# 发起请求,获取响应
response = urllib.request.urlopen(url=url)

filename = wd + '.html'

dirname = './html'

if not os.path.exists(dirname):
    os.mkdir(dirname)

filepath = dirname + '/' + filename

# 以二进制写入文件
# with open(filepath, 'wb') as fp:
#   fp.write(response.read())

# 或者以utf8编码写入文件
with open (filepath, 'w', encoding='utf8') as fp:
    fp.write(response.read().decode('utf8'))

你可能感兴趣的:(urllib.parse.urlencode转换get请求参数)