编码那些事儿

常见编码

文本编码

常见的文本编码方法有：ANSI（多字节）的ASCII编码、GB2312、GBK、GB18030、UNICODE。
我相信有不少人都搞不拎清这几个编码有什么区别，这里就不讲故事说这些网页编码的发展历史了，我们从下面这个维恩图来解释，这几个编码的区别。

字符编码所包含的字符内容范围维恩图

字符编码	包含内容
ASCII	英文字符
GB2312	在ASCII编码内容的基础上，增加了6k+的常用汉字
GBK	在GB2312的基础上，增加了繁体字及其他各种汉字字符等
GB18030	在GBK的基础上，增加了少数民族语言系统中的字符
UNICODE	包含了世界上任何一个文字和标志

宽字节编码

宽字节也叫多字节。英文字符大小为2个字节的叫宽字节，相对的，英文字符大小为1个字节的叫窄字节。
编译器默认的中文字符占2个字节，英文字符占1个字节。
利用宽字节编码的注入，是利用单字节字符（例如引号这种符号）占宽字节的低字节部分，只要在前面增加一个高字节，就会被组成合法字符，从而绕过限制。
具体的利用，在后面写到相关漏洞攻击时具体写。

字符集	高字节范围	低字节范围
GB2312	A1 - F9	40 - 7E、A1 - FE
GBK	81 - FE	40 - EF

GB18030字符集为多字节，范围为：1字节从00到7F; 2字节高字节从81到FE，低字节从40到7E和80到FE；4字节第一三字节从81到FE，第二四字节从30到39。

UTF标准

UTF标准为面向传输的标准，解决了UNICODE如何在网络上传输的问题。
顾名思义，UTF-8就是每次8个位传输数据，UTF-16就是每此16个位传输数据。在传输过程中，从UNICODE到UTF时，需要通过一些算法和规则的转换，并不是直接的对应的。

文件BOM头

为了避免在文本文件中输入的字符与该应用本身默认的编码方式不符，从而导致重新打开新建的文本文件时出现乱码，微软公司搞了个BOM头的东西。
它会在文件开始的地方插入三个不可见的字符（即BOM），用于然后编辑器识别文件的正确编码方式。

URL编码

由于URL只能通过ASCII字符集在因特网进行发送，所以必须将URL进行URL编码。
非ASCII字符使用"%"后跟两位的十六进制数来替换，URL中的空格一般使用"+"来替换。

HTML实体编码

命名实体

格式： 以&开头，;结尾。例如，±的命名实体为±

字符编码

一般为十进制、十六进制、Unicode编码等。
格式： 以&#开头，;结尾。例如，≤的十进制字符编码为≤

JS编码

JS的四种字符编码策略：

三个八进制数字，如果不够个数，前面补0，例如“e”编码为“\145”

两个十六进制数字，如果不够个数，前面补0，例如“e”编码为“\x65”

四个十六进制数字，如果不够个数，前面补0，例如“e”编码为“\u0065”

对于一些控制字符，使用特殊的C类型的转义风格（例如\n和\r）

CSS编码

格式： 以\开头，后跟1~6位的十六进制数。例如，e可以编码为“\65”或“65”或“00065"。

复合编码

就是一个语句中有多种编码方式的内容，在浏览器解析过程中，语句解析顺序即从外向内。
例如语句：

’);”>点我呀

最里面<%=value%>在URL中出现，第二层openUrl(add.do?userName=’<%=value%>’);在JS中出现，最外层是HTML中的一部分。所以在解码时的顺序应为：HTML解码→JS解码→URL解码，编码顺序就是解码顺序的反一下。

以上编码在XSS漏洞挖掘中非常的有用，在其他注入攻击中也会用到。在前端安全方面，编码安全问题是很重要的，一开始觉得难没关系，可以慢慢深入学习，毕竟一口吃不成胖子嘛~

在线编解码工具： https://evilcos.me/lab/xssor/

序列化编码问题

Java序列化问题

PHP序列化问题

Python序列化问题

因为白小胖前面的内容看着看着去看编码绕过产生XSS了，所以后面序列化编码问题来不及写了。明天补上好啦~迫不及待想写XSS系列2333