MySQL 字符集

计算机中只能存储⼆进制数据,那该怎么存储字符串呢?
答:映射

比如
'a' -> 00000001 (⼗六进制:0x01)
'b' -> 00000010 (⼗六进制:0x02)
'c' -> 00000011 (⼗六进制:0x03)
'd' -> 00000100 (⼗六进制:0x04)

把上面的4种映射规则封装起来,这就是一种字符集,只是这个字符集很小,只能支持 4个小写字母。当进来一个00000101 时,它超出了这个字符集的范围,不能正常解码显示,就会出现乱码。

ASCII 字符集
收录 128个字符, 包括大小写字母,数字,空格,标点符号。由于 1个字节= 2^8 =256,所以 1个字节即可

ISO 8859-1字符集 (latin1)
收录256个字符集,在ASCII 的基础上扩充,添加和德法两国的字母,也可以使用1个字节表示, 也交 latin1

GB2312 字符集
收录汉字,拉丁字母,希腊字母,日文,耳语等字母,其中汉语6763个,其他字符682个,并且兼容ASCII 字符集。
2^16=65536
存储会变化,当字符在ASCII 中用1个自己,反之用2个字节。【即所谓的变长编码方式】

GBK字符集
GB2312 字符集的扩充,兼容GB2312 字符集。

utf8 字符集
兼容ASCII 字符集,采用变长编码方式,使用1-3个字节存储 【原本是1-4个字节的,MySQL的历史遗留问题,是utf8mb3的别名,后面出来了utf8mb4,这才是真正的utf8】
所以Mysql 的varchar2(20) , 当存储20个字母或者数字时,实际的占用空间为 201=20字节,当是20个汉字的时候,其长度为203=60字节。

PS : utf8 是 Unicode字符集的一种编码方式, 还有utf16 (2字节或者4字节), utf32 (4字节)

字符集排序规则:
字符集也是可以进行比较的, 比如 'a' 和 'b' 比较 , 'a' 和 'A'比较
规则可以有几种: 比如 'a' 'b'转换成2进制编码之后再进行比较
0000 0001 --> 0x01 --> 'a'
0000 0010 --> 0x02 --> 'b'
这里 a

比如:utf8_polish_ci 按照波兰语的规则比较

排序规则的后缀有各有含义:
_ai 不区分重音
_as 区分重音
_ci 不区分大小写 比如 utf8_general_ci 就是比较的时候不区分大小写 'a'='A'
_cs 区分大小写
_bin 以二进制方式比较

MySQL 的字符集应用有4个层级:
服务器级别 : character_set_server
数据库级别 : 创建库的时候指定的字符键,当建表的时候不指定字符集,就默认使用库的字符集。【建库不指定字符集就用character_set_server的字符集】
表级别; 建表时刻强制指定
列级别: 建表时可以强制指定 【列不强制指定字符集,默认以表的字符集为准】

PS : MySQL 不管是只修改字符集还是只修改排序规则, 另一个都会跟着相应改变。
参数:
character_set_server
utf8_general_ci

字符集本质上就是二进制或者说16进制转化映射的,当Mysql 指定了字符集,而cilent端 获取字符串信息之后,用的是另一种字符集来解码,看到的就会是乱码。
所以 下面这 3个 client相关的参数要跟 Mysql 的字符集一致,以避免出现乱码。
character_set_client
character_set_connection
character_set_results

你可能感兴趣的:(MySQL 字符集)