一般来说,URL只能使用英文字母、阿拉伯数字和某些标点符号,不能使用其他文字和符号。
比如,世界上有英文字母的网址"http://www.abc.com",
但是没有希腊字母的网址"http://www.aβγ.com"(读作阿尔法-贝塔-伽玛.com)。
这意味着,如果URL中有汉字,就必须编码后使用。
但是麻烦的是,RFC 1738没有规定具体的编码方法,
而是交给应用程序(浏览器)自己决定。这导致"URL编码"成为了一个混乱的领域。
1、URL编码问题
如任何查看windows系统的编码
进入cmd,输入chcp命令
可以得到活动代码936就标示当前编码是:中国-简体中文(GB2312)
url编码中的情况
例如在postman中输入网址"http://www.tongzhuo100.com/manager/solo/api/common/encode.php?name=%5c&age=a&user=%BA%FA%23"
一、网址路径中包含汉字
输入网址"http://zh.wikipedia.org/wiki/春节"
所以,结论就是,网址路劲的编码,用的是utf-8编码
二、查询字符串中包含汉子
http://www.baidu.com/s?wd=春节
所以,结论就是,查询字符串的编码,用的是操作系统的默认编码。
三、GET或者POST方法生成的URL包含汉子
例如在form表单中,get或者post请求
get和post方法的编码,用的是网页的编码。
四、ajax调用的url包含汉子
五、JavaScript函数:escape()
JavaScript语言用于编码的函数,一共有三个,最古老的一个就是escape()。虽然这个函数
现在已经不提倡使用了,但是由于历史原因,
很多地方还在使用它,所以有必要先从它讲起。
实际上,escape()不能直接用于URL编码,它的真正作用是返回一个字符的Unicode编码值。
比如"春节"的返回结果是%u6625%u8282,也就是说在Unicode字符集中,"春"是第6625个(十六进制)字符,
"节"是第8282个(十六进制)字符。
javascript:escape('春节');
"%u6625%u8282"
它的具体规则是,除了ASCII字母、数字、标点符号"@ * _ + - . /"以外,对其他所有字符进行编码。
在\u0000到\u00ff之间的符号被转成%xx的形式,其余符号被转成%uxxxx的形式。对应的解码函数是unescape()。
所以,”Hello world“的escape编码就是”hello%20world“。因为空格的Unicode的值是20(十六进制)。
首先,无论网页的原始编码是什么,一旦被JavaScript编码,就都变成为Unicod字符。(注意是十六进制的),
JavaScript函数的输入和输出,默认都是Unicode字符,这一点对下面两个函数也适用。
六、JavaScript函数:encodeURI()
encodeURI是JavaScript中真正用来对URL编码的函数。
它着眼于对整个URL进行编码,因此除了常见的符号以外,
对其他一些在网址中有特殊含义的符号"; / ? : @ & = + $ , #",也不进行编码。
编码后,它输出符号的utf-8形式,并且在每个字节前加上%。
它对应的解码函数是decodeURI()。
需要注意的是,它不对单引号'编码。
七、Javascript函数:encodeURIComponent()
最后一个Javascript编码函数是encodeURIComponent()。
与encodeURI()的区别是,它用于对URL的组成部分进行个别编码,而不用于对整个URL进行编码。
因此,"; / ? : @ & = + $ , #",这些在encodeURI()中不被编码的符号,
在encodeURIComponent()中统统会被编码。至于具体的编码方法,两者是一样。
它对应的解码函数是decodeURIComponent()。