Python URL中文的编解码

 

不同的网站采用的编解码不同,在获取连接后的用于看得和用于爬取的URL是连接是不同的。

import urllib2
uni_str = u'\u559c\u9152DVD.rmvb'
uni_url = u'http://thunder.ffdy.cc/EBDA034628B5E6B16C1E79251BF0B25B06CF2C13/\u559c\u9152DVD.rmvb'
#编码, 用于发送请求
actual_url = uni_url[0:7] + urllib2.quote( uni_url[7:].encode('gbk') )
#actual_url = u'http://thunder.ffdy.cc/EBDA034628B5E6B16C1E79251BF0B25B06CF2C13/%CF%B2%BE%C6DVD.rmvb'
#解码,查看URL
urllib2.unquote(str(actual_url)).decode("gbk")
u'http://thunder.ffdy.cc/EBDA034628B5E6B16C1E79251BF0B25B06CF2C13/\u559c\u9152DVD.rmvb'

你可能感兴趣的:(python,中文,url)