高性能MySQL读书笔记 - Schema与数据类型优化

MySQL支持的数据类型非常多,选择正确的数据类型对于获得高性能至关重要。不管存储哪种类型的数据,下面几个简单原则都有助于做出更好的选择。

更小的通常更好

一般情况下,应该尽量使用可以正确存储数据的最小数据类型。更小的数据类型通常更快,因为它们占用更少的磁盘、内存和CPU缓存,并且处理时需要的CPU周期也更少。

简单就好

简单数据类型的操作通常需要更少的CPU周期。例如,整型比字符串操作代价更低,因为字符集和校对规则(排序规则)使字符串比较比整型更复杂。

尽量避免NULL

很多表都包含可为NULL(空值)的列,即使应用程序并不需要保存NULL也是如此,这是因为可为NULL是列的默认属性。通常情况下,最好知道列为NOT NULL,除非真的需要存储NULL值。

如果查询中包含可为NULL的列,对于MySQL来说更难优化,因为可为NULL的列使得索引、索引统计和值比较都更复杂。可为NULL的列会使用更多的存储空间,在MySQL里也需要特殊处理。当可为NULL 的列被索引时,每个索引记录需要一个额外的自己,在MyISAM里深圳还可能到固定大小的索引(例如只有一个整数列的索引)变成可变大小的索引。

通常把可为NULL的列改为 NOT NULL带来的性能提升比较小,所以(调优时)没有必要首先在现有schema中查找并修改掉这种情况,除非确定这会导致问题。但是,如果计划在列上建索引,就应该尽量避免设计成可为NULL的列。

整数类型

对于整数类型,可以使用 TINYINT、 SMALLINT、 MEDIUMINT、 INT、 BIGINT 等。每个整数类型都对应着不同的存储空间。

数据类型 存储(Byte)
TINYINT 1
SMALLINT 2
MEDIUMINT 3
INT 4
BIGINT 8

整数类型可以选择 UNSIGNED 属性,表示不允许负值,这样可以使得正数的上限提高一倍。举个例子,TINYINT 的存储范围是 -2-7 ~ 27 - 1,也就是 -128 ~ 127,那么 UNSIGNED INT 可以存储的范围就是 0 ~ 28 - 1,即 0 ~ 255。

MySQL可以为整数类型指定宽度,然而对大多数场景是没有意义的:它并不会限制整数类型的合法范围,它只是规定某些交互工具显示出来的字符个数。如果不显示地指定宽度,则默认为 INT(11)。有读者会误认为 INT(11) 指定整数类型的长度是 11 位,这个想法是错误的。实际上,在 Zerofill 属性中,表示当数组宽度小于 11 位时,在数字前面加 0 填满宽度。

实数类型

对于实数类型,可以使用 FLOAT、 DOUBLE、 DECIMAL 等。每个实数类型都对应着不同的存储空间。

数据类型 存储(Byte)
FLOAT 4
DOUBLE 8

FLOAT(M,D) 和 DOUBLE(M,D) 表示一共显示 M 位整数,D 位小数。
举个例子,FLOAT(5,2) 可以显示为 100.99。此外,读者还要注意的是,MySQL 保存时会进行四舍五入,因此,如果值为 100.0099, 会保存近似结果 100.01。

FLOAT 只保证 6 位有效数字的准确性,所以 FLOAT(M,D) 中,M<=6 时,数字通常是准确的。

DOUBLE 只保证 16 位有效数字的准确性,所以 DOUBLE(M,D) 中,M<=16 时,数字通常是准确的。

在使用实数类型,要重点考虑精度问题。DOUBLE 是 MySQL 内部浮点计算的类型,它比 FLOAT 有更高的精度和更大的范围,但是 FLOAT 和 DOUBLE 都是不精确的,如果要实现精确浮点运算,就需要使用 DECIMAL 类型(例如,存储财务数据)。
但在数据量比较大的时候,可以考虑使用BIGINT 代替DECIMAL ,将需要存储的货币单位根据小数的位数乘以相应的倍数即可。假设要存储财务数据精确到万分之一,则可以把所有金额乘以一万,然后将存储结果存储到BIGINT 里,这样可以同时避免浮点存储技术不精确和DECIMAL 精确计算代价高的问题。

字符串类型

MySQL支持多种字符串类型,可以使用 CHAR、 VARCHAR、 BLOB、 TEXT 等。

CHAR 类型是定长的。MySQL 会根据定义的长度分配空间。CHAR 长度可以是 0 到 255之间的值。

VARCHAR 类型用于存储可变长字符串,它更加节省空间。值得注意的是, VARCHAR 需要使用 1 或 2 个额外字节记录字符串的长度:如果列的最大长度小于或者等于255,则只使用1个字节表示,否则使用2个字节。VARCHAR 长度可以指定 0 到 65535 之间的值。

BLOB 和 TEXT 主要用来存储大文本,分别采用二进制和字符串方式存储。
实际上,它们分别属于两组不同的数据类型加载:字符串类型是 TINYTEXT、 SMALLTEXT、TEXT、MEDIUMTEXT、 LONGTEXT。
对应二进制类型是: TINYBLOB、SMALLBLOB、 BLOB 、MEDIUMBLOB、 LONGBLOB。

时间和时间类型

MySQL可以使用许多类型来保存日期和时间值,例如: YEAR、 DATE、 TIME、、 TIMESTAMP、DATETIME。

MySQL 能够存储的最小单位是秒,如果需要更精确的存储,就必须自己定义存储格式。比如可以使用BIGINT存储毫秒级别的时间戳。

DATETIME类型范围:'101-01-01 00:00:00' ~ '9999-12-31 23:59:59'。
TIMESTAMP类型范围:'1970-01-01 00:00:01'UTC ~ '2038-01-19 03:14:07' UTC

DATETIME 和 TIMESTAMP 都可以存储相同类型的数据,而 TIMESTAMP 只使用 DATETIME 一半的存储空间。通常情况下,建议优先考虑 TIMESTAMP,因为它的空间利用率更高。

MySQL schema设计

范式和反范式

对于任意给定的数据通常都有很多种表示方式,从完全的范式化到完全的反范式化,以及两者的折中。在范式化的数据库中,每个数据会出现并且仅出现异常。相反,在反范式化的数据库中,信息是冗余的,可能会存储在多个地方。

范式的优点和缺点

范式化设计schema的优点:
范式化的更新操作通常比反范式化要快
当数据比较好地范式化时,就只有很少或者没有重复数据,所以只需要修改更少的数据。
范式化的表通常更小,可以更好地放在内存里,所以执行操作会更快。

范式化设计schema的缺点是 通常需要关联。稍微复杂一些的查询语句在符合范式化的
schema上都可能需要至少一次关联,也许更多。

事实上, 完全的范式化和完全的反范式化 都是实验室里才有的东西,在真实世界中很少会这么极端的去使用。在实际应用中 经常需要混用 范式化和反范式化。

你可能感兴趣的:(高性能MySQL读书笔记 - Schema与数据类型优化)