MySql字符集与比较规则

MySql字符集与比较规则

在MySQL8.0版本之前,默认字符集为 latin1 ,utf8字符集指向的是 utf8mb3 ,网站开发人员在数据库
设计的时候往往会将编码修改为utf8字符集。如果遗忘修改默认的编码,就会出现乱码的问题。从MySQL8.0开始,数据库的默认编码将改为 utf8mb4 ,从而避免上述乱码的问题。

查看默认使用的字符集

show variables like 'character%';
# 或者
show variables like '%char%';

1. utf8与utf8mb4

utf8 字符集表示一个字符需要使用1~4个字节,但是我们常用的一些字符使用1~3个字节就可以表示
了。而字符集表示一个字符所用的最大字节长度,在某些方面会影响系统的存储和性能,所以设计
MySQL的设计者偷偷的定义了两个概念:

  • utf8mb3(most bytes 3) :阉割过的 utf8 字符集,只使用1~3个字节表示字符。
  • utf8mb4(most bytes 4) :正宗的 utf8 字符集,使用1~4个字节表示字符。

2. 比较规则

MySQL版本一共支持41种字符集,其中的 Default collation 列表示这种字符集中一种默认
的比较规则,里面包含着该比较规则主要作用于哪种语言,比如 utf8_polish_ci 表示以波兰语的规则
比较, utf8_spanish_ci 是以西班牙语的规则比较, utf8_general_ci 是一种通用的比较规则。

后缀表示该比较规则是否区分语言中的重音、大小写。具体如下:

后缀 英文释义 描述
_ai accent insensitive 不区分重音
_as accent sensitive 区分重音
_ci case insensitive 不区分大小写
_cs case sensitive 区分大小写
_bin binary 以二进制方式比较

你可能感兴趣的:(mysql,mysql)