在实现python网络爬虫的过程中,有时候你会发现有些链接中的中文字符会变成“乱码”。当然所有的乱码都是缺少一个合适解码编码方式。如果我们需要提取网页链接中的中文字符这么办?
例如下面这条链接:
https://baike.baidu.com/item/%E9%A2%88%E6%A4%8E
当然现在有些网站可以在线解码,例如:
https://www.bejson.com/enc/urlencode/
在python中我们可以从urllib.parse库中导入unquote模块。
实现如下:
from urllib.parse import unquote
url = "https://baike.baidu.com/item/%E9%A2%88%E6%A4%8E"
new_url = unquote(url, 'utf-8')
print(new_url)
效果如图:
希望对大家有所帮助!:-)