python2 与python3 导入urllib 时有差别 需要注意
按照标准, URL 只允许一部分 ASCII 字符(数字字母和部分符号),其他的字符(如汉字)是不符合 URL 标准的。
所以 URL 中使用其他字符就需要进行 URL 编码。
1、获取url参数
>>> from urllib import parse
>>> url = r'https://docs.python.org/3.5/search.html?q=parse&check_keywords=yes&area=default'
>>> parseResult = parse.urlparse(url)
>>> parseResult
ParseResult(scheme='https', netloc='docs.python.org', path='/3.5/search.html', params='', query='q=parse&check_keywords=yes&area=default', fragment='')
>>> param_dict = parse.parse_qs(parseResult.query)
>>> param_dict
{'q': ['parse'], 'check_keywords': ['yes'], 'area': ['default']}
>>> q = param_dict['q'][0]
>>> q
'parse'
#注意:加号会被解码,可能有时并不是我们想要的
>>> parse.parse_qs('proxy=183.222.102.178:8080&task=XXXXX|5-3+2')
{'proxy': ['183.222.102.178:8080'], 'task': ['XXXXX|5-3 2']}
将中文进行urlencode编码使用函数
urllib.parse.quote(string, safe='/', encoding=None, errors=None)
而将编码后的字符串转为中文,则使用
urllib.parse.unquote(string, encoding='utf-8', errors='replace')
2、urlencode
>>> from urllib import parse
>>> query = {
'name': 'wal',
'age': 19,
}
>>> parse.urlencode(query)
'name=wal&age=19'
3、quote/quote_plus
>>> from urllib import parse
>>> parse.quote('a&b/c') #未编码斜线
'a%26b/c'
>>> parse.quote_plus('a&b/c') #编码了斜线
'a%26b%2Fc'
quote 除了 -._/09AZaz ,都会进行编码,参数safe是指定某字符不被urlencode,默认为'/',使用quote 包含编码斜线可使用safe=‘’
4、unquote/unquote_plus
>>>from urllib import parse
>>> parse.unquote('9+2') #不解码加号
'9+2'
>>> parse.unquote_plus('9+2') #把加号解码为空格
'9 2'