MySQL 字符集

MySQL 字符集

MySQL5.7默认字符集是Latin1拉丁,MySQL8默认字符集是UTF-8 (utf8mb4)

字符集级别可以分为:服务器级别、数据库级别、表级别、列级别

UTF8字符集

在 MySQL 中,“utf8” 和 “utf8mb4” 是两种字符集(字符编码)选项。

  1. utf8:
    “utf8” 是 MySQL 5.5.3 及之前版本的默认字符集,它支持最多三字节的 UTF-8 编码。尽管名字中带有 “utf8”,但实际上它并不支持所有的 Unicode 字符,包括一些特殊字符如表情符号等,因为它只支持最多三个字节的编码。

  2. utf8mb4:
    “utf8mb4” 是 MySQL 5.5.3 之后版本引入的字符集选项,也是 MySQL 5.5.3 及之后版本的默认字符集。“mb4” 代表 “most bytes 4”,也就是它支持最多四字节的 UTF-8 编码。因此,“utf8mb4” 能够完全支持 Unicode 字符集,包括表情符号等特殊字符。

对于大多数情况下,特别是需要支持表情符号、特殊符号或其他非常用字符的情况,建议使用 “utf8mb4” 字符集,以免出现字符存储和处理的问题。

如果你的 MySQL 版本是 5.5.3 或更高,一般情况下推荐使用 “utf8mb4” 字符集,特别是在创建新的数据库或表时。当然,如果已经在使用 “utf8”,也可以在需要时通过修改表的字符集来切换到 “utf8mb4”。

请注意,在 MySQL 中,“utf8” 和 “utf8mb4” 的存储方式略有不同,“utf8mb4” 的存储空间会稍微多一些,因为它支持更多的字节。所以在切换字符集时,也要注意已有数据的存储空间可能会增加。

比较规则

在 MySQL 中,字符集比较规则后缀用于指定不同的排序规则。排序规则影响字符在比较和排序时的行为,因为在不同的语言和地区,对字符的排序方式可能有所不同。MySQL 支持多种字符集比较规则后缀,常用的有以下几种:

  1. _bin:表示二进制排序,它是最快速的排序方式,直接按照字符的二进制编码进行排序。注意,这种排序方式对大小写敏感,而且不会考虑字符的语言和地区差异。

  2. _ci:表示不区分大小写的排序,它会忽略字符的大小写,进行排序。例如,“A” 和 “a” 在排序时会被认为相等。

  3. _cs:表示区分大小写的排序,它会根据字符的大小写进行排序。例如,“A” 和 “a” 在排序时会被认为不相等。

  4. _ai:表示不区分大小写的排序并且对字符进行重音处理,也称为accent-insensitive排序。例如,对于一些特定字符,如字母 “é” 和 “e” 在排序时会被认为相等。

  5. _as:表示区分大小写的排序并且对字符进行重音处理,也称为accent-sensitive排序。例如,对于一些特定字符,如字母 “é” 和 “e” 在排序时会被认为不相等。

在字符集名称后添加上述后缀,可以指定不同的排序规则。例如,“utf8mb4_general_ci” 表示使用 “utf8mb4” 字符集,并采用不区分大小写的排序规则。

请注意,不同的字符集可能支持不同的排序规则,而且不是所有字符集都支持所有的排序规则。在选择排序规则时,应根据具体的需求和数据特性选择合适的排序方式。

# 查看gbk比较规则
SHOW COLLATION LIKE 'gbk%';
# 查看utf8比较规则
SHOW COLLATION LIKE 'utf8%';
# 查看具体数据库字符集
SHOW CREATE DATABASE 数据库名;
# 修改具体数据库字符集
# 修改了数据库默认字符集比较规则后,原来已经创建的表字符集不会改变,如果需要应该再单独修改
ALTER DATABASE 数据库名 DEFAULT CHARACTER SET 'utf8' COLLATE 'utf8_general_ci';

说明

utf8_unicode_ci和utf8_general_ci对中、英文没有实质差别

utf8_general_ci校对速度快,准确度稍微差

utf8_unicode_ci准确度高,但校对速度慢

一般情况使用utf8_general_ci就够了,但如果需要用到德语、法语或者俄语,一定要用utf8_unicode_ci。

你可能感兴趣的:(数据库原理,mysql,字符集,utf8,比较规则)