Python 网页链接中文乱码的解决

Python 网页链接中文乱码的解决


问题

在实现python网络爬虫的过程中,有时候你会发现有些链接中的中文字符会变成“乱码”。当然所有的乱码都是缺少一个合适解码编码方式。如果我们需要提取网页链接中的中文字符这么办?

例如下面这条链接:
https://baike.baidu.com/item/%E9%A2%88%E6%A4%8E

解决办法

当然现在有些网站可以在线解码,例如:

https://www.bejson.com/enc/urlencode/

在python中我们可以从urllib.parse库中导入unquote模块。

实现如下:

from urllib.parse import unquote

url = "https://baike.baidu.com/item/%E9%A2%88%E6%A4%8E"
new_url = unquote(url, 'utf-8')
print(new_url)

效果如图:

最后

希望对大家有所帮助!:-)

你可能感兴趣的:(Python)