MySQL大表优化

MySQL和Oracle语法

SQL语句优化

一、单表优化

除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑、部署、运维的各种复杂度。一般以整型值为主的表在千万级以下,字符串为主的表在五百万以下是没有太大问题的。事实上很多时候 MySQL 单表的性能依然有不少优化空间,甚至能正常支撑千万级以上的数据量。

二、字段

  1. 尽量使用 tinyInt、smallInt、mediumInt 作为整数类型而非 int,如果非负则加上 unSigned。
  2. varchar 的长度只分配真正需要的空间。
  3. 使用枚举或整数代替字符串类型。
  4. 尽量使用 timeStamp 而非 dateTime。
  5. 单表不要有太多字段,建议在 20 个以内。
  6. 避免使用 NULL 字段,很难查询优化且占用额外索引空间。
  7. 用整型来存 IP。

三、索引

  1. 索引并不是越多越好,要根据查询有针对性的创建,考虑在 where 和 order by 命令上涉及的列建立索引,可根据 EXPLAIN 来查看是否用了索引还是全表扫描。
  2. 应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描。
  3. 值分布很稀少的字段不适合建索引,例如”性别”这种只有两三个值的字段。
  4. 字符字段只建前缀索引。
  5. 字符字段最好不要做主键。
  6. 不用外键,由程序保证约束。
  7. 尽量不用 unique,由程序保证约束。
  8. 使用多列索引时注意顺序和查询条件保持一致,同时删除不必要的单列索引。

四、查询 SQL

  1. 可通过开启慢查询日志来找出较慢的SQL。
  2. 不用函数和触发器,在应用程序实现。
  3. sql 语句尽可能简单:一条 sql 只能在一个 cpu 运算;大语句拆小语句,减少锁时间;一条大 sql 可以堵死整个库。
  4. or 改写成 in:or 的效率是 n 级别,in 的效率是 log(n) 级别,in 的个数建议控制在 200 以内。
  5. 避免 %xxx 式查询。
  6. 少用 JOIN。
  7. 使用同类型进行比较,比如用 '123' 和 '123' 比,123 和 123 比。
  8. 列表数据不要拿全表,要使用 limit 来分页,每页数量也不要太大。

五、引擎

目前广泛使用的是MyISAM和InnoDB两种引擎:

1️⃣MyISAM

MyISAM引擎是MySQL 5.1及之前版本的默认引擎,它的特点是:

  1. 不支持行锁,读取时对需要读到的所有表加锁,写入时则对表加排它锁
  2. 不支持事务
  3. 不支持外键
  4. 不支持崩溃后的安全恢复
  5. 在表有读取查询的同时,支持往表中插入新纪录
  6. 支持BLOB和TEXT的前500个字符索引,支持全文索引
  7. 支持延迟更新索引,极大提升写入性能
  8. 对于不会进行修改的表,支持压缩表,极大减少磁盘空间占用

2️⃣InnoDB

InnoDB在MySQL 5.5后成为默认引擎,它的特点是:

  1. 支持行锁,采用MVCC来支持高并发
  2. 支持事务
  3. 支持外键
  4. 支持崩溃后的安全恢复
  5. 不支持全文索引

总体来讲,MyISAM适合select密集型的表,而InnoDB适合insert和update密集型的表。

六、系统调优参数

可以使用下面几个工具来做基准测试:

  • sysbench:一个模块化,跨平台以及多线程的性能测试工具
  • iibench-mysql:基于 Java 的 MySQL/Percona/MariaDB 索引进行插入性能测试工具
  • tpcc-mysql:Percona开发的TPC-C测试工具

具体的调优参数内容较多,具体可参考官方文档,这里介绍一些比较重要的参数:

  1. back_log:back_log值指出在MySQL暂时停止回答新请求之前的短时间内多少个请求可以被存在堆栈中。也就是说,如果MySql的连接数据达到max_connections时,新来的请求将会被存在堆栈中,以等待某一连接释放资源,该堆栈的数量即back_log,如果等待连接的数量超过back_log,将不被授予连接资源。可以从默认的50升至500

  2. wait_timeout:数据库连接闲置时间,闲置连接会占用内存资源。可以从默认的8小时减到半小时

  3. max_user_connection:最大连接数,默认为0无上限,最好设一个合理上限thread_concurrency:并发线程数,设为CPU核数的两倍

  4. skip_name_resolve:禁止对外部连接进行DNS解析,消除DNS解析时间,但需要所有远程主机用IP访问

  5. key_buffer_size:索引块的缓存大小,增加会提升索引处理速度,对MyISAM表性能影响最大。对于内存4G左右,可设为256M或384M,通过查询show status like'key_read%',保证key_reads / key_read_requests在0.1%以下最好

  6. innodb_buffer_pool_size:缓存数据块和索引块,对InnoDB表性能影响最大。通过查询show status like 'Innodb_buffer_pool_read%',保证 (Innodb_buffer_pool_read_requests– Innodb_buffer_pool_reads)/ Innodb_buffer_pool_read_requests越高越好

  7. innodb_additional_mem_pool_size:InnoDB存储引擎用来存放数据字典信息以及一些内部数据结构的内存空间大小,当数据库对象非常多的时候,适当调整该参数的大小以确保所有数据都能存放在内存中提高访问效率,当过小的时候,MySQL会记录Warning信息到数据库的错误日志中,这时就需要该调整这个参数大小

  8. innodb_log_buffer_size:InnoDB存储引擎的事务日志所使用的缓冲区,一般来说不建议超过32MB

  9. query_cache_size:缓存MySQL中的ResultSet,也就是一条SQL语句执行的结果集,所以仅仅只能针对select语句。当某个表的数据有任何任何变化,都会导致所有引用了该表的select语句在Query Cache中的缓存数据失效。所以,当我们的数据变化非常频繁的情况下,使用Query Cache可能会得不偿失。根据命中率(Qcache_hits/(Qcache_hits+Qcache_inserts)*100))进行调整,一般不建议太大,256MB可能已经差不多了,大型的配置型静态数据可适当调大。

可以通过命令show status like 'Qcache_%'查看目前系统Query catch使用大小

  1. read_buffer_size:MySql读入缓冲区大小。对表进行顺序扫描的请求将分配一个读入缓冲区,MySql会为它分配一段内存缓冲区。如果对表的顺序扫描请求非常频繁,可以通过增加该变量值以及内存缓冲区大小提高其性能

  2. sort_buffer_size:MySql执行排序使用的缓冲大小。如果想要增加ORDER BY的速度,首先看是否可以让MySQL使用索引而不是额外的排序阶段。如果不能,可以尝试增加sort_buffer_size变量的大小

  3. read_rnd_buffer_size:MySql的随机读缓冲区大小。当按任意顺序读取行时(例如,按照排序顺序),将分配一个随机读缓存区。进行排序查询时,MySql会首先扫描一遍该缓冲,以避免磁盘搜索,提高查询速度,如果需要排序大量数据,可适当调高该值。但MySql会为每个客户连接发放该缓冲空间,所以应尽量适当设置该值,以避免内存开销过大。

  4. record_buffer:每个进行一个顺序扫描的线程为其扫描的每张表分配这个大小的一个缓冲区。如果你做很多顺序扫描,可能想要增加该值

  5. thread_cache_size:保存当前没有与连接关联但是准备为后面新的连接服务的线程,可以快速响应连接的线程请求而无需创建新的

  6. table_cache:类似于thread_cache_size,但用来缓存表文件,对InnoDB效果不大,主要用于MyISAM

七、升级硬件

Scale up,根据MySQL是CPU密集型还是I/O密集型,通过提升CPU和内存、使用SSD,都能显著提升MySQL性能

八、读写分离

目前常用的优化,从库读主库写,一般不要采用双主或多主引入很多复杂性,尽量采用文中的其他方案来提高性能。同时目前很多拆分的解决方案同时也兼顾考虑了读写分离。

九、缓存

缓存可以发生在这些层次:

  1. MySQL内部:在系统调优参数介绍了相关设置
  2. 数据访问层:比如MyBatis针对SQL语句做缓存,而Hibernate可以精确到单个记录,这里缓存的对象主要是持久化对象Persistence Object
  3. 应用服务层:这里可以通过编程手段对缓存做到更精准的控制和更多的实现策略,这里缓存的对象是数据传输对象Data Transfer Object
  4. Web层:针对web页面做缓存
  5. 浏览器客户端:用户端的缓存

可以根据实际情况在一个层次或多个层次结合加入缓存。这里重点介绍下服务层的缓存实现,目前主要有两种方式:

  • 直写式(Write Through):在数据写入数据库后,同时更新缓存,维持数据库与缓存的一致性。这也是当前大多数应用缓存框架如Spring Cache的工作方式。这种实现非常简单,同步好,但效率一般。

  • 回写式(Write Back):当有数据要写入数据库时,只会更新缓存,然后异步批量的将缓存数据同步到数据库上。这种实现比较复杂,需要较多的应用逻辑,同时可能会产生数据库与缓存的不同步,但效率非常高。

十、分片原则

能不分就不分,参考单表优化。分片数量尽量少,分片尽量均匀分布在多个数据结点上。因为一个查询SQL跨分片越多,则总体性能越差,虽然要好于所有数据在一个分片的结果,只在必要的时候进行扩容,增加分片数量。

分片规则需要慎重选择做好提前规划,分片规则的选择,需要考虑数据的增长模式,数据的访问模式,分片关联性问题,以及分片扩容问题,最近的分片策略为范围分片,枚举分片,一致性Hash分片,这几种分片都有利于扩容。

尽量不要在一个事务中的SQL跨越多个分片,分布式事务一直是个不好处理的问题

查询条件尽量优化,尽量避免select * 的方式,大量数据结果集下,会消耗大量带宽和CPU资源,查询尽量避免返回大量结果集,并且尽量为频繁使用的查询语句建立索引。

通过数据冗余和表分区赖降低跨库Join的可能

这里特别强调一下分片规则的选择问题,如果某个表的数据有明显的时间特征,比如订单、交易记录等,则他们通常比较合适用时间范围分片,因为具有时效性的数据,我们往往关注其近期的数据,查询条件中往往带有时间字段进行过滤,比较好的方案是,当前活跃的数据,采用跨度比较短的时间段进行分片,而历史性的数据,则采用比较长的跨度存储。

总体上来说,分片的选择是取决于最频繁的查询SQL的条件,因为不带任何Where语句的查询SQL,会遍历所有的分片,性能相对最差,因此这种SQL越多,对系统的影响越大,所以我们要尽量避免这种SQL的产生。

十一、NoSQL

在 MySQL 上做 Sharding 是一种戴着镣铐的跳舞,事实上很多大表本身对 MySQL 这种 RDBMS 的需求并不大,并不要求 ACID,可以考虑将这些表迁移到 NoSQL,彻底解决水平扩展问题,例如:

  1. 日志类、监控类、统计类数据
  2. 非结构化或弱结构化数据
  3. 对事务要求不强,且无太多关联操作的数据

你可能感兴趣的:(MySQL大表优化)