调优的目标
MySQL
数据库整体的性能。如何定位调优问题
不过随着用户量的不断增加,以及应用程序复杂度的提升,我们很难用更快去定义数据库调优的目标,因为用户在不同时间段访问服务器遇到的瓶颈不同,用户在进行不同业务操作的时候,数据库的事务处理和**SQL
查询**都会有所不同。因此我们还需要更加精细的定位,去确定调优的目标。如何确定呢?一般情况下,有如下几种方式:
用户的反馈(主要)
用户是我们的服务对象,因此他们的反馈是最直接的。虽然他们不会直接提出技术建议,但是有些问题往往是用户第一时间发现的。我们要重视用户的反馈,找到和数据相关的问题。
日志分析(主要)
我们可以通过查看数据库日志和操作系统日志等方式找出异常情况,通过他们来定位遇到的问题。
服务器内部状况监控
在数据库的监控中,活动会话Active Session
监控是一个重要的指标。通过它,你可以清楚地了解数据库当前是否处于非常繁忙的状态,是否存在SQL
堆积等。
其他
处理活动会话监控以外,我们也可以对事物、锁等待等进行监控,这些可以帮助我们对数据库的运行状态有更前面的认识。
调优的维度和步骤
我们需要调优的对象是整个数据库管理系统,它不仅包括SQL
查询,还包括数据库的部署配置、架构等。从这个角度来说,我们思考的维度就不仅仅局限在SQL
优化上了。通过如下的步骤我们进行梳理:
第一步:选择合适的DBMS
如果对事务性处理以及安全性要求高的话,可以选择商业的数据库产品。这些数据库在事务处理和查询性能上都比较强,比如采用SQL Server
、Oracle
,那么单表存储上亿条数据是没有问题的。如果数据表设计得好,即使不采用分库分表的方式,查询效率也不差。
除此以外,你也可以采用开源的MySQL
进行存储,它有很多存储引擎可以选择,如果进行事务处理的话可以选择InnoDB
,非事务处理可以选择MyISAM
。
NoSQL
阵营包括键值型数据库、文档型数据库、搜索引擎、列式存储和图形数据库。这些数据库的优缺点和使用场景各有不同,比如列式存储数据库可以大幅度降低系统的IO
,适合于分布式文件系统,但如果数据需要频繁地增删改,那么列式存储就不太适用了。
第2步:优化表设计
选择了DBMS
之后,我们就需要进行表设计了。而数据表的设计方式也直接影响了后续的SQL
查询语句。RDBMS
中,每个对象都可以定义为一张表,表与表之间的关系代表了对象之间的关系。如果用的是MySQL
,我们还可以根据不同表的使用需求,选择不同的存储引擎。除此以外,还有一些优化的原侧何以参考:
CHAR
类型,当长度不固定时,通常采用VARCHAR
类型。 数据表的结构设计很基础,也很关键。好的表结构可以在业务发展和用户量增加的情况下依然发挥作用,不好的表结构设计会让数据表变得非常臃肿,查询效率也会降低。
第3步:优化逻辑查询
当我们建立好数据表之后,就可以对数据表进行增删改查的操作了。这时我们首先需要考虑的是逻辑查询优化。
SQL
查询优化,可以分为逻辑查询优化和物理查询优化。逻辑查询优化就是通过改变SQL
语句的内容让SQL
执行效率更高效,采用的方式是对SQL
语句进行等价变换,对查询进行重写。
SQL
的查询重写包括了子查询优化、等价谓词重写、视图重写、条件简化、连接消除和嵌套连接消除等。
第4步:优化物理查询
物理查询优化是在确定了逻辑查询优化之后,采用物理优化技术(比如索引等),通过计算代价模型对各种可能的访问路径进行估算,从而找到执行方式中代价最小的作为执行计划。在这个部分中,我们需要掌握的重点是对索引的创建和使用。
但索引不是万能的,我们需要根据实际情况来创建索引。那么都有哪些情况需要考虑呢?我们在前面几章中已经进行了细致的剖析。
SQL查询时需要对不同的数据表进行查询,因此在物理查询优化阶段也需要确定这些查询所采用的路径,具体的情况包括:
HASH
连接和合并连接。第五步:使用Redis
或Memcached
作为缓存
除了可以对SQL
本身进行优化以外,我们还可以请外援提升查询的效率。
因为数据都是存放到数据库中,我们需要从数据库层中取出数据放到内存中进行业务逻辑的操作,当用户量增大的时候,如
果频繁地进行数据查询,会消耗数据库的很多资源。如果我们将常用的数据直接放到内存中,就会大幅提升查询的效率。键值存储数据库可以帮助我们解决这个问题。
通常我们对于查询响应要求高的场景(响应时间短,吞吐量大),可以考虑内存数据库,毕竟术业有专攻。传统的RDBMS
都是将数据存储在硬盘上,而内存数据库则存放在内存中,查询起来要快得多。不过使用不同的工具,也增加了开发人员的使用成本。
第6步:库级优化
库级优化是站在数据库的维度上进行的优化策略,比如控制一个库中的数据表数量。另外,单一的数据库总会遇到各种限制,不如取长补短,利用外援的方式。通过主从架构优化我们的读写策略,通过对数据库进行垂直或者水平切分,突破单一数据库或数据表的访问限制,提升查询的性能。
优化MySQL
服务器主要从两个方面来优化,一方面是对硬件进行优化,另一方面是对**MySQL
服务的参数进行优化。这部分的内容需要较全面的知识,一般只有专业的数据库管理员**才能进行这一类的优化。对于可以定制参数的操作系统,也可以针对MySQL
进行操作系统优化。
优化服务器硬件
服务器的硬件性能直接决定着MySQL
数据库的性能。硬件的性能瓶颈直接决定MySQL
数据库的运行速度和效率。针对性能瓶颈提高硬件配置,可以提高MySQL
数据库查询、更新的速度。
MySQL
数据库性能的方法之一。内存的速度比磁盘IO
。快得多,可以通过增加系统的缓冲区容量使数据在内存中停留的时间更长,以减少磁盘I/O
。IO
能力,也就是它的寻道能力,目前的SCSI
高速旋转的是7200转/分钟
,这样的速度,一旦访问的用户量上去,磁盘的压力就会过大,如果是每天的网站Pv
(page view
)在150w
,这样的一般的配置就无法满足这样的需求了。现在SSD
盛行,在SSD
上随机访问和顺序访问性能几乎差不多,使用SSD
可以减少随机IO
带来的性能损耗。IO
,把磁盘IO
分散在多个设备上,以减少资源竞争,提高并行操作能力。MySQL
是多线程的数据库,多处理器可同时执行多个线程。优化MySQL
的参数
通过优化MySQL
的参数可以提高资源利用率,从而达到提高MySQL
服务器性能的目的。MySQL
服务的配置参数都在my.cnf
或者my.ini
文件的[mysqld]
组中。配置完参数以后,需要重新启动MySQL
服务才会生效。下面对几个对性能影响比较大的参数进行详细介绍。
innodb_buffer-pool_size
这个参数是MySQL
数据库最重要的参数之一,表示InnoDB
类型的表和索引的最大缓存。它不仅仅缓存索引数据,还会缓存表的数据。这个值越大,查询的速度就会越快。但是这个值太大会影响操作系统的性能。
key_buffer_size
表示索引缓冲区的大小。索引缓冲区是所有的线程共享。增加索引缓冲区可以得到更好处理的索引(对所有读和多重写)。当然,这个值不是越大越好,它的大小取决于内存的大小。如果这个值太大,就会导致操作系统频繁换页,也会降低系统性能。对于内存在4GB
左右的服务器该参数可设置为256M
或384M
。
table_cache
表示同时打开的表的个数。这个值越大,能够同时打开的表的个数越多。物理内存越大,设置就越大。默认为2402,调到512-1024
最佳。这个值不是越大越好,因为同时打开的表太多会影响操作系统的性能。
query_cache_size
表示查询缓冲区的大小。可以通过在MySQL
控制台观察,如果Qcache_lowmem_prunes
的值非常大,则表明经常出现缓冲不够的情况,就要增加Query_cache_size
的值;如果Qcache_hits
的值非常大,则表明查询缓冲使用非常频繁,如果该值较小反而会影响效率,那么可以考虑不用查询缓存:Qcache_free_blocks
,如果该值非常大,则表明缓冲区中碎片很多。MySQL8.0
之后失效。该参数需要和query_cache_type
配合使用。
query_cache_type
MySQL
释放query_cache_size
所配置的缓存区内存。SQL_NO_CACHE
,如SELECT SQL_NO_CACHE * FROM tbl_name
。SQL_CACHE
关键字,查询才会使用查询缓存区。使用查询缓存区可以提高查询的速度,这种方式只适用于修改操作少且经常执行相同的查询操作的情况。sort_buffer_size
表示每个需要进行排序的线程分配的缓冲区的大小。增加这个参数的值可以提高ORDER BY
或GR0UP BY
操作的速度。默认数值是2097144字节(约2MB)。对于内存在4GB左右的服务器推荐设置为6-8M,如果有100个连接,那么实际分配的总共排序缓冲区大小为100×6=600MB。
join_buffer_size=8M
表示联合查询操作所能使用的缓冲区大小,和sort_buffer_size
一样,该参数对应的分配内存也是每个连接独享。
read_buffer_size
表示每个线程连续扫描时为扫描的每个表分配的缓冲区的大小(字节)。当线程从表中连续读取记录时需要用到这个缓冲区。SET SESSION read_buffer_size=n
可以l临时设置该参数的值。默认为64K,可以设置为4M。
innodb_flush_log_at_trx_commit
表示何时将缓冲区的数据写入日志文件,并且将日志文件写入磁盘中。该参数对于InnoDB
引擎非常重要。该参数有3个值,分别为0、1和2。该参数的默认值为1。
commit
并不会触发前面的任何操作。该模式速度最快,但不太安全,mysqld
进程的崩溃会导致上一秒钟所有事务数据的丢失。(flush)
硬盘。innodb._log_buffer_size
这是InnoDB
存储引擎的事务日志所使用的缓冲区。为了提高性能,也是先将信息写入Innodb Log Buffer
中,当满足innodb_flush_log_trx_commit
参数所设置的相应条件(或者日志缓冲区写满)之后,才会将日志写到文件(或者同步到磁盘)中。
max_connections
表示允许连接到MySQL
数据库的最大数量,默认值是151。如果状态变量connection_errors_max_connections
不为零,并且一直增长,则说明不断有连接请求因数据库连接数已达到允许最大值而失败,这是可以考虑增大max_connections
的值。在Linux
平台下,性能好的服务器,支持500-1000
个连接不是难事,需要根据服务器性能进行评估设定。这个连接数不是越大越好,因为这些连接会浪费内存的资源。过多的连接可能会导致MySQL
服务器僵死。
back_log
用于控制MySQL
监听TCP
端口时设置的积压请求栈大小。如果MySQL
的连接数达到max_connections
时,新来的请求将会被存在堆栈中,以等待某一连接释放资源,该堆栈的数量即back_log
,如果等待连接的数量超过back_log
,将不被授予连接资源,将会报错。5.6.6版本之前默认值为50,之后的版本默认为50+(max_connections/5)
,对于Linux
系统推荐设置为小于512的整数,但最大不超过900。如果需要数据库在较短的时间内处理大量连接请求,可以考虑适当增大back_log
的值。
thread_cache_size
线程池缓存线程数量的大小,当客户端断开连接后将当前线程缓存起来,当在接到新的连接请求时快速响应无需创建新的线程。这尤其对那些使用短连接的应用程序来说可以极大的提高创建连接的效率。那么为了提高性能可以增大该参数的值。默认为60,可以设置为120。
wait_timeout
:
指定一个请求的最大连接时间,对于4GB
左右内存的服务器可以设置为5-10
。
interactive_timeout
:
表示服务器在关闭连接前等待行动的描述。
一个好的数据库设计方案对于数据库的性能常常会起到事半功倍的效果。合理的数据库结果不仅可以使数据占用更小的磁盘空间,而且能够使查询速度更快。数据库结构的设计需要考虑数据冗余、查询和更新的速度、字段的数据类型是否合理等多方面的内容。
拆分表:冷热数据隔离
拆分表的思路是,把1个包含很多字段的表拆分成2个或者多个相对较小的表。这样做的原因是,这些表中某些字段的操作频率很高(热数据),经常要进行查询或者更新操作,而另外一些字段的使用频率却很低(冷数据),冷热数据分离,可以减小表的宽度。如果放在一个表里面,每次查询都要读取大记录,会消耗较多的资源。
MySQL
限制每个表最多存储4096列,并且每一行数据的大小不能超过65535字节。表越宽,把表装载进内存缓冲池时所占用的内存也就越大,也会消耗更多的IO
。冷热数据分离的目的是:
IO
,保证热数据的内存缓存命中率。增加中间表
对于需要经常联合查询的表,可以建立中间表以提高查询效率。通过建立中间表,把需要经常联合查询的数据插入中间表中,然后将原来的联合查询改为对中间表的查询,以此来提高查询效率。
首先,分析经常联合查询表中的字段,然后,使用这些字段建立一个中间表,并将原来联合查询的表的数据插入中间表,最后,使用中间表来进行查询。
增加冗余字段
设计数据库表时应尽量遵循范式理论的规约,尽可能减少冗余字段,让数据库设计看起来精致、优雅。但是,合理地加入冗余字段可以提高查询速度。
表的规范化程度越高,表与表之间的关系就越多,需要连查询的情况也就越多。尤其在数据量大,而且需要频繁进行连接的时候,为了提升效率,我们也可以考虑增加冗余字段来减少连接。
优化数据类型
改进表的设计时,可以考虑优化字段的数据类型。但是,随着参与的项目越来越大、数据量也越来越多的时候,你就不能只从系统的稳定性的角度来思考问题了,还要考虑到系统整体的稳定性和效率。此时,优先选择符合存储需要的最小的数据类型。
列的字段越大,建立索引时所需要的空间也就越大,这样一页中所能存储的索引节点的数量也就越少,在遍历时所需要的**IO
次数也就越多**,索引的性能也就越差。
对整数类型数据进行优化
遇到整数类型的字可以用INT
型。这样做的理由是,INT
型数据有足够大的取值范围,不用担心数据超出取值范围的问题。
对于非负型的数据(如自增ID
、整型IP
)来说,要优先使用无符号整型UNSIGNED
来存储。因为无符号相对于有符号,同样的字节数,存储的数值范围更大。
即可以使用文本类型也可以使用整数类型的字段、要选择使用整数类型
跟文本类型数据相比,大整数往往占用更少的存储空间,因此,在存取和比对的时候,可以占用更少的内存空间。所以,在二者皆可用的情况下,尽量使用整数类型,这样可以提高查询效率。
避免使用TEXT、BLOB
数据类型
MySQL
内存临时表不支持TEXT
、BLOB
这样的大数据类型,如果查询中包含这样的数据,在排序等操作时,就不能使用内存临时表,必须使用磁盘临时表进行。并且对于这种数据,MySQL
还要进行二次查询,会使SQL
性能变得很差,但是不是说一定不能使用这样的数据类型。
如果一定要使用,建议把BLOB
或是TEXT
列分离到单独的扩展表中,查询时一定不要使用select *
,而只需要取出必要的列,不需要TEXT
列的数据时不要对该列进行查询。
避免使用ENUM
类型
修改ENUM
值需要使用ALTER
语句。ENUM
类型的ORDER BY
操作效率低,需要额外操作。使用TINYINT
来代替ENUM
类型。
使用TIMESTAMP
存储时间
TIMESTAMP
使用4字节,DATETIME
使用8个字节,同时TIMESTAMP
具有自动赋值以及自动更新的特性。
用DECIMAL
代替FLOAT
和DOUBLE
存储精确浮点数
DECIMAL
类型为精准浮点数,在计算时不会丢失精度,尤其是财务相关的金融类数据。占用空间由定义的宽度决定,每4个字节可以存储9位数字,并且小数点要占用一个字节。可用于存储比bigint
更大的整数类型。
优化插入记录的速度
插入记录时,影响插入速度的主要是索引、唯一性校验、一次插入记录条数等。根据这些情况可以分别进行优化。这里我们分为MyISAM
引擎和InnoDB
存储引擎来讲。
MyISAM
引擎的表
禁用索引
对于非空表,插入记录时,MySQL
会根据表的索引对插入的记录建立索引。如果插入大量数据,建立索就会降低插入记录的速度。为了解决这种情况,可以在插入记录之前禁用索引,数据插入完毕后再开启索引。
# 禁用索引
ALTER TABLE table_name DISABLE KEYS;
# 重新开启索引
ALTER TABLE table_name ENABLE KEYS;
若对于空表批量导入数据,则不需要进行此操作,因为MyISAM
引擎的表示在导入数据之后才建立索引的。
禁用唯一性检查
插入数据时,MySQL
会对插入的记录进行唯一性校验。这种唯一性校验会降低插入记录的速度。
# 禁用唯一性校验
SET UNIQUE_CHECKS = 0;
# 开启唯一性检查
SET UNIQUE_CHECKS = 1;
使用批量插入
插入多条记录时,可以使用一条INSERT
语句插入一条记录,也可以使用一条INSERT
语句插入多条记录。第二种情形的插入速度比第1种情形快。
使用LOAD DATA INFILE
批量导入
当需要批量导入数据时,如果能用LOAD DATA INFILE
语句,就尽量使用。因为LOAD DATA INFILE
语句导入数据的速度比INSERT
语句快。
InnoDB
引擎的表
禁用唯一性检查
禁用外键检查
插入数据之前执行禁止对外键的检查,数据插入完成之后在恢复对外键的检查。
# 禁用外键检查
SET foreign_key_checks = 0;
# 恢复外键检查
SET foreign_key_checks = 1;
禁止自动提高
插入数据之前禁止事物的自动提交,数据导入完成之后,执行恢复自动提交操作。
# 禁止自动提交
SET autocommit = 0;
# 恢复自动提交
SET autocommit = 1;
使用非空约束
在设计字段的时候,如果业务允许,建立尽量使用非空约束。这样做的好处是:
NULL
值的字段判断是否为空的开销,提高存储效率。NULL
列需要额外的空间来保存,所以要占用更多的空间。使用非空约束,就可以节省存储空间(每个字段1
个bit
)。分析表、检查表、优化表
MySQL
提供了分析表、检查表和优化表的语句。分析表主要是分析关键字的分布,检查表主要是检查表是否存在错误,优化表主要是消除删除或者更新造成的空间浪费。
分析表
# 语法
ANALYZE [LOCAL | NO_WRITF_TO_BINLOG] TABLE tb_name [, tb1_name] ....
默认的,MySQL
服务会将ANALYZE TABLE
语句写到binlog
中,以便在主从架构中,从服务能够同步数据。可以添加参数LOCAL
或者NO_WRITE_TO_BINLOG
取消将语句写到binlog
中。
使用ANALYZE TABLE
分析表的过程中,数据库系统会自动对表加一个只读锁。在分析期间,只能读取表中的记录,不能更新和插入记录。ANALYZE TABLE
语句能够分析InnoDB
和MyISAM
类型的表,但是不能作用于视图。
ANALYZE TABLE
分析后的统计结果会反应到cardinality
的值,该值统计了表中某一键所在的列不重复的值的个数。**该值越接近表中的总行数,则在表连接查询或者索引查询时,就越优先被优化器选择使用。**也就是索引列的cardinality
的值与表中数据的总条数差距越大,即使查询的时候使用了该索引作为查询条件,存储引擎实际查询的时候使用的概率就越小。
检查表
MySQL
中可以使用CHECK TABLE
语句来检查表。CHECK TABLET
语句能够检查InndDB
和MyISAM
类型的表是否存在错误。CHECK TABLE
语句在执行过程中也会给表加上只读锁。
对于MyISAM
类型的表,CHECK TABLET
语句还会更新关键字统计数据。而且,CHECK TABLE
也可以检查视图是否有错误。
# 语法
CHECK TABLE tbl_name [, tbl_name]...[option ]..
option {QUICK | FAST | MEDIUM | EXTENDED | CHANGED}
# QUICK: 不扫描行,不检查错误的连接
# FAST: 只检查没有被正确关闭的表
# CHANGED:只检查上次检查后被更改的表和没有被正确关闭的表
# MEDIUM:扫描行,以验证被删除的连接是有效的。也可以计算各行的关键字校验和,并使用计算出的校验和验证这一点
# EXTENDED:对每行的所有关键字进行一个全面的关键字查找。这可以确保表100%一致的,但是花的时间较长。
优化表
方式一:OPTIMIZE TABLE
MySQL
中使用OPTIMIZE TABLE
语句来优化表。但是,OPTILMIZE TABLE
语句只能优化表中的VARCHAR
、BLOB
或TEXT
类型的字段。一个表使用了这些字段的数据类型,若已经删除了表的一大部分数据,或者已经对含有可变长度行的表进行了很多更新,则应使用OPTIMIZE TABLE
来重新利用未使用的空间,并整理数据文件的碎片。
OPTIMIZE TABLE
语句对InnoDB
和MyISAM
类型的表都有效。该语句在执行过程中也会给表加上只读锁。
# 语法
OPTIMIZE [LOCAL | NO_WRITE_TO_BINLOG] TABLE tb1_name [, tb1_name] ...;
方式二:使用mysqlcheck
命令
mysqlcheck -o DatabaseName TableName -u root -p******
当MySQL
单表记录数过大时,数据库的CRUD
性能会明显下降,一些常见的优化措施如下:
限定查询的范围
禁止不带任何限制数据范围条件的查询语句。
读、写分离
经典的数据库拆分方案,主库负责写,从库负责读。
垂直拆分
当数据量级达到千万级以上时,有时候我们需要把一个数据库切成多份,放到不同的数据库服务器上,减少对单一数据库服务器的访问压力。
水平拆分
MySQL
数据库的限制,过大会造成修改表结构、备份、恢复都会有很大的问题。此时可以用历史数据归档(应用于日志数据),水平分表(应用于业务数据)等手段来控制数据量大小。MySQL
并发能力没有什么意义,所以水平拆分最好分库,从而达到分布式的目的。服务器语句超时处理
在MySQL8.0
中可以设置服务器语句超时的限制,单位可以达到毫秒级别。当中断的执行语句超过设置的毫秒数后,服务器将终止查询影响不大的事务或连接,然后将错误报给客户端。
# 指定该会话中SELECT语句的超时时间,默认值为0,表示没有时间限制
SET SESSION MAX_EXECUTION_TIME=2OO0;
创建全局通用表空间
MySQL8.0
使用CREATE TABLESPACE
语句来创建一个全局通用表空间。全局表空间可以被所有的数据库的表共享,而且相比于独享表空间,使用手动创建共享表空间可以节约元数据方面的内存。可以在创建表的时候,指定属于哪个表空间,也可以对已有表进行表空间修改等。
# 下面创建名为test1的共享表空间
CREATE TABLESPACE test1 ADD datafile 'test1.ibd' file_block_size=16k;
# 指定表空间
CREATE TABLE test(id int,name varchar(10))engine=innodb default charset utf8mb4 tablespace testl;
# 也可以通过ALTER TABLE语句指定表空间
alter table test tablespace test1;
# 删除共享表空间:要先删除依赖表空间的数据表,才能删除表空间,否则删除失败
DROP TABLE test;
DROP TABLESPACE test1;
隐藏索引对调优的帮助
不可见索引的特性对于性能调试非常有用。在MySQL 8.0
中,索引可以被隐藏和显示。当一个索引被隐藏时,它不会被查询优化器所使用。也就是说,管理员可以隐藏一个索引,然后观察对数据库的影响。如果数据库性能有所下降,就说明这个索引是有用的,于是将其恢复显示即可;如果数据库性能看不出变化,就说明这个索引是多余的,可以删掉了。
需要注意的是当索引被隐藏时,它的内容仍然是和正常索引一样实时更新的。如果一个索引需要长期被隐藏,那么可以将其删除,因为索引的存在会影响插入、更新和删除的性能。
数据表中的主键不能被设置为invisible
。