笔记来源:MySQL数据库教程天花板,mysql安装到mysql高级,强!硬!
节省系统资源
,以便系统可以提供更大负荷的服务。(吞吐量更大)响应的速度
。(响应速度更快)并发
访问;还有用户在进行不同业务操作的时候,数据库的事务处理和SQL查询都会有所不同。因此我们还需要更加精细的定位,去确定调优的目标。用户的反馈
(主要):用户是我们的服务对象,因此他们的反馈是最直接的。虽然他们不会直接提出技术建议,但是有些问题往往是用户第一时间发现的。我们要重视用户的反馈,找到和数据相关的问题。日志分析
(主要):我们可以通过查看数据库日志和操作系统日志等方式找出异常情况,通过它们来定位遇到的问题。活动会话
(Active Session)监控是一个重要的指标。通过它,你可以清楚地了解数据库当前是否处于非常繁忙的状态,是否存在SQL堆积等。键值型数据库
、文档型数据库
、搜索引擎
、列式存储
和图形数据库
。这些数据库的使用场景各有不同,比如列式存储数据库可以大幅度降低系统的I/O
,适合于分布式文件系统,但如果数据需要频繁地增删改,那么列式存储就不太适用了。三范式
的原则。这样可以让数据结构更加清晰规范,减少冗余字段,同时也减少了在更新,插入和删除数据时等异常情况的发生。字段可以采用数值类型就不要采用字符类型
;字符长度要尽可能设计得短一些
。针对字符类型来说,当确定字符长度固定时,就可以采用CHAR类型;当长度不固定时,通常采用VARCHAR类型。基础
,也很关键
。好的表结构可以在业务发展和用户量增加的情况下依然发挥作用,不好的表结构设计会让数据表变得非常臃肿,查询效率也会降低
。当我们建立好数据表之后,就可以对数据表进行增删改查的操作了。这时我们首先需要考虑的是逻辑查询优化。SQL查询优化,可以分为逻辑查询优化
和物理查询优化
。逻辑查询优化就是通过改变SQL语句的内容让SQL执行效率更高效,采用的方式是对SQL语句进行等价变换
,对查询进行重写
。
SQL的查询重写包括了子查询优化、等价谓词重写、视图重写、条件简化、连接消除和嵌套连接消除等。
比如我们在讲解EXISTS子查询和IN子查询的时候,会根据小表驱动大表
的原则选择适合的子查询。在WHERE子句中会尽量避免对字段进行函数运算
,它们会让字段的索引失效
。
举例:查询评论内容开头为abc的内容都有哪些,如果在WHERE子句中使用了函数,语句就会写成下面这样:
SELECT comment_id,comment_text,comment_time FROM product_comment
WHERE SUBSTRING(comment_text, 1,3)= 'abc '
采用查询重写的方式进行等价替换:
SELECT comment_id,comment_text,comment_time FROM product_comment WHERE comment_text LIKE'abc %'
索引
等),通过计算代价模型对各种可能的访问路径进行估算,从而找到执行方式中代价最小的作为执行计划
。在这个部分中,我们需要掌握的重点是对索引的创建和使用
。外援
提升查询的效率。直接放到内存
中,就会大幅提升查询的效率。Redis支持持久化
,可以让我们的数据保存在硬盘上,不过这样一来性能消耗也会比较大。而Memcached仅仅是内存存储
,不支持持久化
。主从架构
优化我们的读写策略,通过对数据库进行垂直或者水平切分
,突破单—数据库或数据表的访问限制
,提升查询的性能。读写分离
:如果读和写的业务量都很大,并且它们都在同一个数据库服务器中进行操作,那么数据库的性能就会出现瓶颈,这时为了提升系统的性能,优化用户体验,我们可以采用读写分离的方式降低主数据库的负载,比如用主数据库( master)完成写操作
,用从数据库(slave)完成读操作
。
数据分片
:对数据库分库分表
。当数据量级达到千万级以上时,有时候我们需要把一个数据库切成多份,放到不同的数据库服务器上,减少对单一数据库服务器的访问压力。如果你使用的是MySQL,就可以使用MySQL自带的分区表功能,当然你也可以考虑自己做垂直拆分(分库)
、水平拆分(分表
)、垂直+水平拆分(分库分表)
。
硬件
进行优化;另一方面是对MySQL服务的参数
进行优化。这部分的内容需要较全面的知识,一般只有专业的数据库管理员才能进行这一类的优化。对于可以定制参数的操作系统,也可以针对MySQL进行操作系统优化。配置较大的内存
。足够大的内存是提高MySQL数据库性能的方法之一。内存的速度比磁盘I/O快得多,可以通过增加系统的缓冲区容量使数据在内存中停留的时间更长,以减少磁盘I/O。配置高速磁盘系统
,以减少读盘的等待时间,提高响应速度。磁盘的I/O能力,也就是它的寻道能力,目前的ScSI高速旋转的是720转/分钟,这样的速度,一旦访问的用户量上去,磁盘的压力就会过大,如果是每天的网站pv (page view)在150w,这样的一般的配置就无法满足这样的需求了。现在SSD
盛行,在SSD上随机访问和顺序访问性能几乎差不多,使用SSD可以减少随机Io带来的性能损耗。合理分布磁盘I/O
,把磁盘I/O分散在多个设备上,以减少资源竞争,提高并行操作能力。配置多处理器
,MySQL是多线程的数据库,多处理器可同时执行多个线程。通过优化MySQL的参数可以提高资源利用率,从而达到提高MySQL服务器性能的目的。
MySQL服务的配置参数都在my.cnf
或者my.ini
文件的[mysqld]组中。配置完参数以后,需要重新启动MySQL服务才会生效。
下面对几个对性能影响比较大的参数进行详细介绍。
innodb_buffer_pool_size
:这个参数是Mysql数据库最重要的参数之一,表示InnoDB类型的表和索引的最大缓存
。它不仅仅缓存索引数据,还会缓存表的数据。这个值越大,查询的速度就会越快
。但是这个值太大会影响操作系统的性能
。 Ikey_buffer_size
:表示索引缓冲区的大小
。索引缓冲区是所有的线程共享。增加索引缓冲区可以得到更好处理的索引(对所有读和多重写)。当然,这个值不是越大越好,它的大小取决于内存的大小
。如果这个值太大,就会导致操作系统频繁换页,也会降低系统性能。对于内存在4GB 左右的服务器该参数可设置为256M或384M。table_cache
:表示同时打开的表的个数
。这个值越大,能够同时打开的表的个数越多。物理内存越大,设置就越大。默认为2402,调到512-1024最佳。这个值不是越大越好
,因为同时打开的表太多会影响操作系统的性能。query_cadhe_size
:表示查询缓冲区的大小
。
query_cache_type
的值是0时,所有的查询都不使用查询缓存区。但是query_cache_type=0并不会导致MySQL释放query_cache_size所配置的缓存区内存。
sort_bufferIsize
:表示每个需要进行排序的线程分配的缓冲区的大小。增加这个参数的值可以提高ORDERBY或GROUP BY操作的速度。默认数值是2 097144字节(约2MB)。对于内存在4GB左右的服务器推荐设置为6-8M,如果有100个连接,那么实际分配的总共排序缓冲区大小为100 × 6 = 600MB。join_buffer_size = 8M
:表示联合查询操作所能使用的缓冲区大小,和sort_buffer_size一样,该参数对应的分配内存也是每个连接独享。read_buffer_size
:表示每个线程连续扫描时为扫描的每个表分配的缓冲区的大小(字节)。当线程从表中连续读取记录时需要用到这个缓冲区。SET SESSION read_buffer_size=n可以临时设置该参数的值。默认为64K,可以设置为4M。innodb_flush_log_at_trx_commit
:表示何时将缓冲区的数据写入日志文件,并且将日志文件写入磁盘中。该参数对于innoDB引擎非常重要。该参数有3个值,分别为0、1和2。该参数的默认值为1。
innodb_log_buffer_size
:这是InnoDB存储引擎的事务日志所使用的缓冲区。为了提高性能,也是先将信息写入Innodb Log Buffer中,当满足innodb_flush_log_trx_commit参数所设置的相应条件(或者日志缓冲区写满)之后,才会将日志写到文件(或者同步到磁盘)中。max_connections
:表示允许连接到MySQL数据库的最大数量,默认值是151。如果状态变量connection_errors_max_connections 不为零,并且一直增长,则说明不断有连接请求因数据库连接数已达到允许最大值而失败,这是可以考虑增大max_connections 的值。在Linux平台下,性能好的服务器,支持500-1000个连接不是难事,需要根据服务器性能进行评估设定。这个连接数不是越大越好,因为这些连接会浪费内存的资源。过多的连接可能会导致MySQL服务器僵死。back_log
:用于控制MySQL监听TCP端口时设置的积压请求栈大小。如果MySql的连接数达到max_connections时,新来的请求将会被存在堆栈中,以等待某一连接释放资源,该堆栈的数量即back_log,如果等待连接的数量超过back_log,将不被授予连接资源,将会报错。thread_cache_size
:线程池缓存线程数量的大小,当客户端断开连接后将当前线程缓存起来,当在接到新的连接请求时快速响应无需创建新的线程。这尤其对那些使用短连接的应用程序来说可以极大的提高创建连接的效率。那么为了提高性能可以增大该参数的值。默认为60,可以设置为120。wait_timeout
:指定一个请求的最大连接时间,对于4GB左右内存的服务器可以设置为5-10。这里给出一份my.cnf的参考配置:
[mysqld]
port = 3306
serverid = 1
#避免MySQL的外部锁定,减少出错几率增强稳定性。
socket = /tmp/mysql.sockskip-locking
#禁止MySQL对外部连接进行DNS解析,使用这一选项可以消除MySQL进行DNS解析的时间。但需要注意,如果开启该选项,则所有远程主机连接授权都要使用IP地址方式,否则MySQL将无法正常处理连接请求!
skip-name-resolve
back_log = 384
key_buffer_size = 256M
max_allowed_packet = 4M
thread_stack = 256K
table_cache = 128K
sort_buffer_size = 6M
read_buffer_size = 4M
read_rnd_buffer_size=16M
join_buffer_size = 8M
myisam_sort_buffer_size = 64M
table_cache = 512
thread_cache_size = 64
query_cache_size = 64M
tmp_table_size = 256M
max_connections = 768
max_connect_errors = 10000000
wait_timeout = 10
#该参数取值为服务器逻辑CPU数量*2,在本例中,服务器有2颗物理CPU,而每颗物理CPU又支持H.T超线程,所以实际取值为4*2=8
thread_concurrency = 8
#开启该选项可以彻底关闭MySQL的TCP/IP连接方式,如果WEB服务器是以远程连接的方式访问MySQL数据库服务器则不要开启该选项!否则将无法正常连接!
skip-networking
table_cache=1024
innodb_additional_mem_pool_size=4M#默认为2M
innodb_flush_log_at_trx_commit=1
#默认为1M
innodb_log_buffer_size=2M
#你的服务器CPU有几个就设置为几。建议用默认一般为8
innodb_thread_concurrency=8
#默认为16M,调到64-256最挂
tmp_table_size=64M
thread_cache_size=120query_cache_size=32M
举例:
一个电商平台,类似京东或天猫这样的平台。刚刚上线的时候,系统运行状态良好。但是,随着入住的商家不断增多,使用系统的用户量越来越多,每天的订单数据达到了5万条以上。这个时候,系统开始出现问题,CPU 使用率不断飙升。终于,双十一或者618活动高峰的时候,CPU使用率达到99%,这实际上就意味着,系统的计算资源已经耗尽,再也无法处理任何新的订单了。换句话说,系统已经崩溃了。
这个时候,我们想到了对系统参数进行调整,一共调整3个系统参数,分别是:
InnoDB_flush_log_at_trx_commit
InnoDB_buffer_pool_size
InnoDB_buffer_pool_instances
参数InnoDB_flush_Iog_at_trx_commit
每次提交事务的时候,都把数据写入日志,并把日志写入磁盘
。这样做的好处是数据安全性最佳
,不足之处在于每次提交事务,都要进行磁盘写入的操作。在大并发的场景下,过于频繁的磁盘读写会导致CPU资源浪费,系统效率变低
。参数InnoDB_buffer_pool_size
InnoDB存储引擎使用缓存来存储索引和数据
。这个值越大,可以加载到缓存区的索引和数据量就越多,需要的磁盘读写就越少。参数InnoDB_buffer_pool_instances
可以将InnoDB的缓存区分成几个部分
,这样可以提高系统的并行处理能力
,因为可以允许多个进程同时处理不同部分的缓存区。数据冗余
、查询和更新的速度
、字段的数据类型是否合理
等多方面的内容。建立中间表
,把需要经常联合查询的数据插入中间表中
,将原来的联合查询改为对中间表的查询
,以此来提高查询效率
。举例:
学生信息表和班级表的SQL语句如下:
CREATE TABLE `class`(
`id` INT(11) NOT NULL AUTO_INCREMENT,
`className` VARCHAR(30) DEFAULT NULL,
`address` VARCHAR(40) DEFAULT NULL,
`monitor` INT NULL ,
PRIMARY KEY (`id`)
)ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;
CREATE TABLE `student` (
`id` INT(11) NOT NULL AUTO_INCREMENT,
`stuno` INT NOT NULL ,
`name` VARCHAR(20) DEFAULT NULL,
`age` INT(3) DEFAULT NULL,
`classId` INT(11) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;
现在有一个模块需要经常查询带有学生名称(name)、学生所在班级名称(className)、学生班级班长(monitor)的学生信息。根据这种情况可以创建一个temp_student表。temp_student表中存储学生名称(stu_name)、学生所在班级名称(className)和学生班级班长( monitor)信息。创建表的语句如下:
CREATE TABLE `temp_student` (
`id` INT(11) NOT NULL AUTO_INCREMENT,
`stu_name` INT NOT NULL ,
`className` VARCHAR(20) DEFAULT NULL,
`monitor` INT(3) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;
接下来,从学生信息表和班级表中查询相关信息存储到临时表中:
insert into temp_student(stu_name,className,monitor)
select s.name,c.className,c.monitor
from student as s,class as c
where s.classId = c.id
如果用户信息修改了,是不是会导致temp_student中的数据不一致的问题呢?如何同步数据呢?
- 方式1:清空数据-→重新添加数据
- 方式2:使用视图
优先选择符合存储需要的最小的数据类型
。列的字段越大
,建立索引时所需要的空间也就越大
,这样一页中所能存储的索引节点的数量也就越少
,在遍历时所需要的IO次数也就越多
,索引的性能也就越差
。UNSIGNED
来存储。因为无符号相对于有符号,同样的字节数,存储的数值范围更大。如tinyint有符号为-128-127,无符号为0-255,多出一倍的存储空间。将IP地址转换成整型数据
。4
字节,DATETIME使用8
个字节,同时TIMESTAMP具有自动赋值
以及自动更新
的特性。禁用索引
:对于非空表,插入记录时,MySQL会根据表的索引对插入的记录建立索引。如果插入大量数据,建立索引就会降低插入记录的速度。为了解决这种情况,可以在插入记录之前禁用索引
,数据插入完毕后再开启索引
。
ALTER TABLE table_name DISABLE KEYS;
ALTER TABLE table_name ENABLE KEYS;
禁用唯一性检查
:插入数据时,MySQL会对插入的记录进行唯一性校验。这种唯一性校验会降低插入记录的速度。为了降低这种情况对查询速度的影响,可以在插入记录之前禁用唯一性检查,等到记录插入完毕后再开启。
SET UNIQUE_CHECKS=0;
SET UNIQUE_CHECKS=1;
使用批量插入
:插入多条记录时,可以使用一条INSERT语句插入一条记录,也可以使用一条INSERT语句插入多条记录。
插入一条记录的INSERT语句情形如下:
insert into student values(1, 'zhangsan', 18, 1);
insert into student values(2, 'lisi', 17, 1 );
insert into student values(3, 'wangwu', 17, 1);
insert into student values(4, 'zhaoliu', 19, 1);
使用一条INSERT语句插入多条记录的情形如下:
insert into student values
(1, 'zhangsan', 18, 1),
(2, 'lisi', 17, 1),
(3, 'wangwu', 17, 1),
(4, 'zhaoliu', 19, 1);
第2种情形的插入速度要比第1种情形快
使用LOAD DATA INFILE批量导入:当需要批量导入数据时,如果能用LOAD DATAINFILE语句,就尽量使用。因为LOAD DATA INFILE语句导入数据的速度比INSERT语句快。
禁用唯一性检查:插入数据之前执行set unique_checks = 0
来禁止对唯一索引的检查,数据导入完成之后再运行set unique_checks = 1
。这个和MyISAM引擎的使用方法一样。
禁用外键检查:插入数据之前执行禁止对外键的榷查,数据插入完成之后再恢复对外键的检查。
SET foreign_key_checks=0;
SET foreign_key_checks=1;
禁止自动提交:插入数据之前禁止事务的自动提交,数据导入完成之后,执行恢复自动提交操作。
禁止自动提交的语句:set autocommit=0;
恢复自动提交的语句:set autocommit=1;
省去要对NULL值的字段判断是否为空的开销
,提高存储效率。NULL列需要额外的空间来保存
,所以要占用更多的空间。使用非空约束,就可以节省存储空间(每个字段1个bit)
。分析表主要是分析关键字的分布
优化表主要是消除删除或者更新造成的空间浪费
MySQL中提供了ANALYZE TABLE语句分析表,ANALYZE TABLE语句的基本语法如下:
ANALYZE [LOCAL | NO_WRITE_TO_BINLOG] TABLE tbl_name [,tbl_name ]...
默认的,MySQL服务会将ANALYZE TABLE语句写到binlog中,以便在主从架构中,从服务能够同步数据。可以添加参数LOCAL或者NO_WRITE_TO_BINLOG取消将语句写到binlog中。
使用ANALYZE TABLE分析表的过程中,数据库系统会自动对表加一个只读锁
。在分析期间,只能读取表中的记录,不能更新和插入记录
。
ANALYZE TABLE语句能够分析InnoDB
和MyISAM
类型的表
,但是不能作用于视图
。ANALYZE TABLE分析后的统计结果会反应到cardinality的值,该值统计了表中某一键所在的列不重复的值的个数(即字段的基数)
。该值越接近表中的总行数,则在表连接查询或者索引查询时,就越优先被优化器选择使用
。也就是索引列的cardinality的值与表中数据的总条数差距越大,即使查询的时候使用了该索引作为查询条件,存储引擎实际查询的时候使用的概率就越小。cardinality可以通过SHOW INDEX FROM表名查看。
MySQL中可以使用CHECK TABLE
语句来检查表。CHECK TABLE语句能够检查InndDB和MyISAM类型的表是否存在错误。CHECK TABLE语句在执行过程中也会给表加上只读锁
。
对于MyISAM类型的表,CHECK TABLE语句还会更新关键字统计数据。而且,CHECK TABLE也可以检查视图是否有错误,比如在视图定义中被引用的表已不存在。该语句的基本语法如下:
CHECK TABLE tbl_name [,tbl_name] ... [ option] ...
option = {QUICK | FAST | MEDIUM | EXTENDED | CHANGED}
其中,tbl_name是表名;option参数有5个取值,分别是QUICK、FAST、MEDIUM、EXTENDED和CHANGED。各个选项的意义分别是:
option只对MylSAM类型的表有效,对InnoDB类型的表无效。
该语句对于检查的表可能会产生多行信息。最后一行有一个状态的Msg_type值,Msg_text通常为OK。如果得到的不是OK,通常要对其进行修复
;是OK说明表已经是最新的了。表已经是最新的,意味着存储引擎对这张表不必进行检查。
OPTIMIZE TABLE:MySQL中使用OPTIMIZE TABLE语句来优化表。但是,OPTILMIZE TABLE语句只能优化表中的VARCHAR
、BLOB
或TEXT
类型的字段。一个表使用了这些字段的数据类型,若已经删除了表的一大部分数据,或者已经对含有可变长度行的表(含有VARCHAR、BLOB或TEXT列的表)进行了很多更新,则应使用OPTIMIZE TABLE来重新利用未使用的空间,并整理数据文件的碎片。
OPTIMIZE TABLE 语句对InnoDB和MyISAM类型的表都有效。该语句在执行过程中也会给表加上只读锁。
OPTILMIZE TABLE语句的基本语法如下:
OPTIMIZE [LOCAL / NO_WRITE_TO_BINLOG] TABLE tbl_name [, tbl_name] ...
LOCAL | NO_WRITE_TO_BINLOG关键字的意义和分析表相同,都是指定不写入二进制日志。
说明:
在多数的设置中,根本不需要运行OPTIMIZE TABLE。即使对可变长度的行进行了大量的更新,也不需要经常运行,每周一次或每月一次即可,并且只需要对特定的表运行。
禁止不带任何限制数据范围条件的查询语句
。比如:我们当用户在查询订单历史的时候,我们可以控制在一个月的范围内;当数据量级达到千万级以上时,有时候我们需要把一个数据库切成多份,放到不同的数据库服务器上,减少对单一数据库服务器的访问压力。
如果数据库中的数据表过多,可以采用垂直分库的方式,将关联的数据表部署在同一个数据库上。
如果数据表中的列过多,可以采用垂直分表的方式,将一张数据表分拆成多张数据表,把经常一起使用的列放到同一张表里。
垂直拆分的优缺点:
减少I/O次数
。此外,垂直分区可以简化表的结构
,易于维护。|主键
会出现冗余
,需要管理冗余列,并会引起JOIN操作。此外,垂直拆分会让事务变得更址复杂。水平分表是将大的数据表按照某个属性维度
分拆成不同的小表,每张小表保持相同的表结构
。比如你可以按照年份来划分,把不同年份的数据放到不同的数据表中。2017年、2018年和2019年的数据就可以分别放到三张数据表中。
水平分表仅是解决了单一表数据过大的问题
,但由于表的数据还是在同一台机器上,其实对于提升MySQL并发能力没有什么意义
,所以水平拆分最好分库
,从而达到分布式
的目的。
水平拆分能够支持非常大的数据量存储,应用端改造也少,但分片事务难以解决,跨节点Join性能较差,逻辑复杂。
《Java工程师修炼之道》的作者推荐
尽量不要对数据进行分片
,因为拆分会带来逻辑、部署、运维的各种复杂度,一般的数据表在优化得当的情况下支撑千万以下的数据量是没有太大问题的。如果实在要分片,尽量选择客户端分片架构,这样可以减少一次和中间件的网络I/O。
全局通用表空间
。全局表空间可以被所有的数据库的表共享,而且相比于独享表空间,使用手动创建共享表空间可以节约元数据方面的内存。可以在创建表的时候,指定属于哪个表空间,也可以对已有表进行表空间修改等。隐藏
和显示
。当一个索引被隐藏时,它不会被查询优化器所使用。也就是说,管理员可以隐藏一个索引,然后观察对数据库的影响。如果数据库性能有所下降,就说明这个索引是有用的,于是将其恢复显示
即可;如果数据库性能看不出变化,就说明这个索引是多余的,可以删掉了。主键不能被设置为invisible
。