GBK编码原理
GBK可以是一个字节编码, 也可以为两个字节编码
开头若为0x00-0x7F, 即0-7*16+15=127, 共128个字符, 跟ASCLL一样, 此时一个字节编码
当GBK为两个字节编码时, 则第一个字节是(129-254),第二个字节(64-254)
MYSQL的字符集转换过程
1. MySQL Server收到请求时将请求数据从character_set_client转换为character_set_connection;
2. 进行内部操作前将请求数据从character_set_connection转换为内部操作字符集,其确定方法如下:
· 使用每个数据字段的CHARACTER SET设定值;
· 若上述值不存在,则使用对应数据表的DEFAULT CHARACTER SET设定值(MySQL扩展,非SQL标准);
· 若上述值不存在,则使用对应数据库的DEFAULT CHARACTER SET设定值;
· 若上述值不存在,则使用character_set_server设定值。
将操作结果从内部操作字符集转换为character_set_results。
重点:宽字节注入发生的位置就是PHP发送请求到MYSQL时字符集使用character_set_client设置值进行了一次编码。
宽字节示例
攻击者编写payload:
�' or 1=1# 即url编码为 %df %27 +or+1 %3d 1 %23 %df(�) %27(')+or+1 %3d(=) 1 %23(#)
经过php中的转义函数addslashes的转义后,
�' or 1=1#变为�\' or 1=1# 编码为 %df %5c %27 +or+1 %3d 1 %23 %df(�) %5c(\) %27(')+or+1 %3d(=) 1 %23(#)
随后PHP发送请求到MYSQL时字符集使用character_set_client设置值进行了一次编码
%df(�)和%5c(\)合并, 成为一个两个字节gbk编码,即 "運" 而 %27(') %3d(=) %23(#)均小于%7F, 即为一个字节的gbk编码,和ascll一致,从而保留下来
改进, GBK转UTF-8
不少程序员有了安全意识,代码会改成这样
mysql_query
(
"SET NAMES binary'"
)
;
$
id
=
iconv
(
"gbk"
,
"utf-8"
,
$id_tmp
)
;
输入%df%27时首先经过上面提到的单引号转义变成了%df%5c%27(%5c是反斜杠\),然后%df%5c正好属于gbk的汉字编码范围,经过iconv转换到utf-8编码转换后变成了汉字“運”,从而吞掉了反斜杠使得单引号逃脱出来。
%e5%5c%27
变换过程:(e55c转为UTF-8为e98ca6)
e55c27====(addslashes)====>e55c5c5c27====(iconv)====>e98ca65c5c27
可以看到,多出了一个5c,将转义符(反斜杠)本身转义,使得后面的%27发挥了作用。
改进, UTF-8转GBK
mysql_query
(
"SET NAMES binary"
)
;
$
title
=
iconv
(
"utf-8"
,
"gbk"
,
$title_tmp
)
;
这里我们思考下“錦”这个字,它的utf-8编码是e98ca6,它的gbk编码是e55c,而上面提到过反斜杠\正好为5c。所以如果我们将title设置为:錦’,首先经过addlashes函数或GPC对单引号转义变为:錦\’,然后会经过icnov函数会对”錦”转化为gbk编码,最后就是:%e5%5c%5c%27。反斜杠被转义了(%5c%5c),从而单引号逃逸出来就会引发注入漏洞。
这个情景的大前提是先编码后转义:
e98ca6====(iconv)=====>e55c=====(addslashes)====>e55c5c
防御
对于宽字节编码,有一种最好的修补就是:
(1)使用mysql_set_charset(GBK)指定字符集
(2)使用mysql_real_escape_string进行转义
原理是,mysql_real_escape_string与addslashes的不同之处在于其会考虑当前设置的字符集,不会出现前面e5和5c拼接为一个宽字节的问题,但是这个“当前字符集”如何确定呢?
就是使用mysql_set_charset进行指定。
上述的两个条件是“与”运算的关系,少一条都不行。
参考:
https://blog.csdn.net/weixin_30345577/article/details/95128991
https://bbs.ichunqiu.com/thread-15899-1-1.html
附加知识点
在MYSQL服务器端进行数据存储时,允许在以下的级别设置字符集:
(1)服务器端字符集(character_set_server)
(2)库字符集
(3)表字符集
(4)字段字符集
优先级为:字段----->表------->库-------->服务器