一文带你吃透MySQL数据库!

文章目录

      • 1. 索引
      • 2. 事务
      • 3. 存储引擎
      • 4. 锁机制
      • 5. MySQL其他知识点

文章字数大约1.27万字,阅读大概需要42分钟,建议收藏后慢慢阅读!!!

1. 索引

  1. 为什么使用索引

    • 通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。
    • 可以大大加快数据的检索速度,这也是创建索引的最主要的原因。
    • 帮助服务器避免排序和临时表。
    • 将随机IO变为顺序IO。
    • 可以加速表和表之间的连接,特别是在实现数据的参考完整性方面特别有意义。
  2. 索引的分类

    • 普通索引:仅加速查询
    • 唯一索引:加速查询 + 列值唯一(可以有null)
    • 主键索引:加速查询 + 列值唯一(不可以有null)+ 表中只有一个
    • 组合索引:多列值组成一个索引,专门用于组合搜索,其效率大于索引合并
    • 全文索引:对文本的内容进行分词,进行搜索
    • 索引合并:使用多个单列索引组合搜索
    • 覆盖索引:select的数据列只用从索引中就能够取得,不必读取数据行,换句话说查询列要被所建的索引覆盖
    • 聚簇索引:表数据是和主键一起存储的,主键索引的叶结点存储行数据(包含了主键值),二级索引的叶结点存储行的主键值。使用的是B+树作为索引的存储结构,非叶子节点都是索引关键字,但非叶子节点中的关键字中不存储对应记录的具体内容或内容地址。叶子节点上的数据是主键与具体记录(数据内容)
  3. 什么时候需要/不需要创建索引

    索引最大的好处是提高查询速度,但是索引也是有缺点的,比如:

    • 需要占用物理空间,数量越大,占用空间越大;
    • 创建索引和维护索引要耗费时间,这种时间随着数据量的增加而增大;
    • 会降低表的增删改的效率,每次增删改索引,B+ 树为了维护索引有序性,需要进行动态维护。

    所以,索引不是万能钥匙,它也是根据场景来使用的。

    什么时候适用索引?

    • 字段有唯一性限制的,比如商品编码;
    • 经常用于 WHERE 查询条件的字段,这样能够提高整个表的查询速度,如果查询条件不是一个字段,可以建立联合索引。
    • 经常用于 GROUP BYORDER BY 的字段,这样在查询的时候就不需要再去做一次排序了,因为我们都已经知道了建立索引之后在 B+Tree 中的记录都是排序好的。

    什么时候不需要创建索引?

    • WHERE 条件,GROUP BYORDER BY 里用不到的字段,索引的价值是快速定位,如果起不到定位的字段通常是不需要创建索引的,因为索引是会占用物理空间的。
    • 字段中存在大量重复数据,不需要创建索引,比如性别字段,只有男女,如果数据库表中,男女的记录分布均匀,那么无论搜索哪个值都可能得到一半的数据。在这些情况下,还不如不要索引,因为 MySQL 还有一个查询优化器,查询优化器发现某个值出现在表的数据行中的百分比很高的时候,它一般会忽略索引,进行全表扫描。
    • 表数据太少的时候,不需要创建索引;
    • 经常更新的字段不用创建索引,因为索引字段频繁修改,由于要维护 B+Tree的有序性,那么需要频繁的重建索引,这个过程是会影响数据库性能的。
  4. 优化索引的方法

    • 前缀索引优化;

      ​ 前缀索引顾名思义就是使用某个字段中字符串的前几个字符建立索引。

      ​ 使用前缀索引是为了减小索引字段大小,可以增加一个索引页中存储的索引值,有效提高索引的查询速度。在一些大字符串的字段作为索引时,使用前缀索引可以帮助我们减小索引项的大小。

    • 覆盖索引优化;

      ​ 覆盖索引是指 SQL 中 query 的所有字段,在索引 B+Tree 的叶子节点上都能找得到的那些索引,从二级索引中查询得到记录,而不需要通过聚簇索引查询获得,可以避免回表的操作。

      ​ 使用覆盖索引的好处就是,不需要查询出包含整行记录的所有信息,也就减少了大量的 I/O 操作。

    • 主键索引最好是自增的;

      ​ 如果我们使用自增主键,那么每次插入的新数据就会按顺序添加到当前索引节点的位置,不需要移动已有的数据,当页面写满,就会自动开辟一个新页面。因为每次插入一条新记录,都是追加操作,不需要重新移动数据,因此这种插入数据的方法效率非常高。

      ​ 主键字段的长度不要太大,因为主键字段长度越小,意味着二级索引的叶子节点越小(二级索引的叶子节点存放的数据是主键值),这样二级索引占用的空间也就越小。

    • 防止索引失效;

      ​ 用上了索引并不意味着查询的时候会使用到索引,所以我们心里要清楚有哪些情况会导致索引失效,从而避免写出索引失效的查询语句,否则这样的查询效率是很低的。

      ​ 发生索引失效的情况:

      • 当我们使用左或者左右模糊匹配的时候,也就是 like %xx 或者 like %xx%这两种方式都会造成索引失效;
      • 当我们在查询条件中对索引列做了计算、函数、类型转换操作,这些情况下都会造成索引失效;
      • 联合索引要能正确使用需要遵循最左匹配原则,也就是按照最左优先的方式进行索引的匹配,否则就会导致索引失效。
      • 在 WHERE 子句中,如果在 OR 前的条件列是索引列,而在 OR 后的条件列不是索引列,那么索引会失效。
  5. 索引使用的注意事项

    MySQL 索引通常是被用于提高 WHERE 条件的数据行匹配时的搜索速度,在索引的使用过程中,存在一些使用细节和注意事项。

    函数,运算,否定操作符,连接条件,多个单列索引,最左前缀原则,范围查询,不会包含有NULL值的列,like 语句不要在列上使用函数和进行运算

    • 1)不要在列上使用函数,这将导致索引失效而进行全表扫描。
    • 2)尽量避免使用 != 或 not in或 等否定操作符
    • 3)多个单列索引并不是最佳选择
    • 4)复合索引的最左前缀原则
    • 5)覆盖索引的好处
    • 6)范围查询对多列查询的影响
    • 7)索引不会包含有NULL值的列
    • 8)隐式转换的影响
    • 9)like 语句的索引失效问题
  6. 索引为什么使用B+树作为索引

    主要原因:B+树只要遍历叶子节点就可以实现整棵树的遍历,而且在数据库中基于范围的查询是非常频繁的,而B树只能中序遍历所有节点,效率太低。

    B+tree的磁盘读写代价更低,B+tree的查询效率更加稳定 数据库索引采用B+树而不是B树的主要原因:B+树只要遍历叶子节点就可以实现整棵树的遍历,而且在数据库中基于范围的查询是非常频繁的,而B树只能中序遍历所有节点,效率太低。

    B+树的特点

    • 所有关键字都出现在叶子结点的链表中(稠密索引),且链表中的关键字恰好是有序的;
    • 不可能在非叶子结点命中;
    • 非叶子结点相当于是叶子结点的索引(稀疏索引),叶子结点相当于是存储(关键字)数据的数据层;
  7. 索引失效有哪些

    • 当我们使用左或者左右模糊匹配的时候,也就是 like %xx 或者 like %xx%这两种方式都会造成索引失效;
    • 当我们在查询条件中对索引列使用函数,就会导致索引失效。
    • 当我们在查询条件中对索引列进行表达式计算,也是无法走索引的。
    • MySQL 在遇到字符串和数字比较的时候,会自动把字符串转为数字,然后再进行比较。如果字符串是索引列,而条件语句中的输入参数是数字的话,那么索引列会发生隐式类型转换,由于隐式类型转换是通过 CAST 函数实现的,等同于对索引列使用了函数,所以就会导致索引失效。
    • 联合索引要能正确使用需要遵循最左匹配原则,也就是按照最左优先的方式进行索引的匹配,否则就会导致索引失效。
    • 在 WHERE 子句中,如果在 OR 前的条件列是索引列,而在 OR 后的条件列不是索引列,那么索引会失效。
  8. MyISAM和InnoDB实现B树索引方式的区别是什么

    • MyISAM,B+Tree叶节点的data域存放的是数据记录的地址,在索引检索的时候,首先按照B+Tree搜索算法搜索索引,如果指定的key存在,则取出其data域的值,然后以data域的值为地址读取相应的数据记录,这被称为“非聚簇索引”

    • InnoDB,其数据文件本身就是索引文件,相比MyISAM,索引文件和数据文件是分离的,其表数据文件本身就是按B+Tree组织的一个索引结构,树的节点data域保存了完整的数据记录,这个索引的key是数据表的主键,因此InnoDB表数据文件本身就是主索引,这被称为“聚簇索引”或者聚集索引,而其余的索引都作为辅助索引,辅助索引的data域存储相应记录主键的值而不是地址,这也是和MyISAM不同的地方。

      在根据主索引搜索时,直接找到key所在的节点即可取出数据;在根据辅助索引查找时,则需要先取出主键的值,再走一遍主索引。因此,在设计表的时候,不建议使用过长的字段为主键,也不建议使用非单调的字段作为主键,这样会造成主索引频繁分裂。

2. 事务

  1. 事务的四大特性

    1. 原子性:事务是最小的执行单位,不允许分割。事务的原子性确保动作要么全部完成,要么完全不起作用;
    2. 一致性:执行事务前后,数据库从一个一致性状态转换到另一个一致性状态。
    3. 隔离性:并发访问数据库时,一个用户的事物不被其他事务所干扰,各并发事务之间数据库是独立的;
    4. 持久性:一个事务被提交之后。它对数据库中数据的改变是持久的,即使数据库 发生故障也不应该对其有任何影响。
  2. 事务的脏读、不可重复读、幻读问题

    脏读:如果一个事务「读到」了另一个「未提交事务修改过的数据」,就意味着发生了「脏读」现象。

    幻读:在一个事务内多次查询某个符合查询条件的「记录数量」,如果出现前后两次查询到的记录数量不一样的情况,就意味着发生了「幻读」现象。

    丢弃修改:两个写事务T1 T2同时对A=0进行递增操作,结果T2覆盖T1,导致最终结果是1 而不是2,事务被覆盖

    不可重复读:在一个事务内多次读取同一个数据,如果出现前后两次读到的数据不一样的情况,就意味着发生了「不可重复读」现象。

  3. 事务的隔离级别有哪些

    1. READ_UNCOMMITTED(未提交读): 最低的隔离级别,允许读取尚未提交的数据变更,可能会导致脏读、幻读或不可重复读;
    2. READ_COMMITTED(提交读): 允许读取并发事务已经提交的数据,可以阻止脏读,但是幻读或不可重复读仍有可能发生;
    3. REPEATABLE_READ(可重复读): 对同一字段的多次读取结果都是一致的,除非数据是被本身事务自己所修改,可以阻止脏读和不可重复读,但幻读仍有可能发生;
    4. SERIALIZABLE(串行化): 最高的隔离级别,完全服从 ACID 的隔离级别。所有的事务依次逐个执行,这样事务之间就完全不可能产生干扰,也就是说,该级别可以防止脏读、不可重复读以及幻读。但是这将严重影响程序的性能。通常情况下也不会用到该级别。
    隔离级别 脏读 不可重复读 幻影读
    READ-UNCOMMITTED 未提交读
    READ-COMMITTED 提交读 ×
    REPEATABLE-READ 重复读 × ×
    SERIALIZABLE 可串行化读 × × ×

    MySQL InnoDB 存储引擎的默认支持的隔离级别是 REPEATABLE-READ(可重读)

    这里需要注意的是:与 SQL 标准不同的地方在于InnoDB 存储引擎在 REPEATABLE-READ(可重读)事务隔离级别 下使用的是Next-Key Lock 锁算法,因此可以避免幻读的产生,这与其他数据库系统(如 SQL Server)是不同的。所以 说InnoDB 存储引擎的默认支持的隔离级别是 REPEATABLE-READ(可重读) 已经可以完全保证事务的隔离性要 求,即达到了 SQL标准的SERIALIZABLE(可串行化)隔离级别。

  4. Read View的作用

    Read View 有四个重要的字段:

    • m_ids :指的是在创建 Read View 时,当前数据库中「活跃事务」的事务 id 列表,注意是一个列表,“活跃事务”指的就是,启动了但还没提交的事务
    • min_trx_id :指的是在创建 Read View 时,当前数据库中「活跃事务」中事务 id 最小的事务,也就是 m_ids 的最小值。
    • max_trx_id :这个并不是 m_ids 的最大值,而是创建 Read View 时当前数据库中应该给下一个事务的 id 值,也就是全局事务中最大的事务 id 值 + 1;
    • creator_trx_id :指的是创建该 Read View 的事务的事务 id

    对于使用 InnoDB 存储引擎的数据库表,它的聚簇索引记录中都包含下面两个隐藏列:

    • trx_id,当一个事务对某条聚簇索引记录进行改动时,就会把该事务的事务 id 记录在 trx_id 隐藏列里
    • roll_pointer,每次对某条聚簇索引记录进行改动时,都会把旧版本的记录写入到 undo 日志中,然后这个隐藏列是个指针,指向每一个旧版本记录,于是就可以通过它找到修改前的记录。

    通过「版本链」来控制并发事务访问同一个记录时的行为就叫 MVCC(多版本并发控制)。

  5. MySQL可重复读级别完全解决幻读了吗

    • 针对快照读(普通 select 语句),是通过 MVCC 方式解决了幻读,因为可重复读隔离级别下,事务执行过程中看到的数据,一直跟这个事务启动时看到的数据是一致的,即使中途有其他事务插入了一条数据,是查询不出来这条数据的,所以就很好了避免幻读问题。
    • 针对当前读(select … for update 等语句),是通过 next-key lock(记录锁+间隙锁)方式解决了幻读,因为当执行 select … for update 语句的时候,会加上 next-key lock,如果有其他事务在 next-key lock 锁范围内插入了一条记录,那么这个插入语句就会被阻塞,无法成功插入,所以就很好了避免幻读问题。

    对于「读提交」和「可重复读」隔离级别的事务来说,它们是通过 Read View 来实现的,它们的区别在于创建 Read View 的时机不同:

    • 「读提交」隔离级别是在每个 select 都会生成一个新的 Read View,也意味着,事务期间的多次读取同一条数据,前后两次读的数据可能会出现不一致,因为可能这期间另外一个事务修改了该记录,并提交了事务。
    • 「可重复读」隔离级别是启动事务时生成一个 Read View,然后整个事务期间都在用这个 Read View,这样就保证了在事务期间读到的数据都是事务启动前的记录。

    这两个隔离级别实现是通过「事务的 Read View 里的字段」和「记录中的两个隐藏列」的比对,来控制并发事务访问同一个记录时的行为,这就叫 MVCC(多版本并发控制)。

    两个发生幻读场景的例子。

    第一个例子:对于快照读, MVCC 并不能完全避免幻读现象。因为当事务 A 更新了一条事务 B 插入的记录,那么事务 A 前后两次查询的记录条目就不一样了,所以就发生幻读。

    第二个例子:对于当前读,如果事务开启后,并没有执行当前读,而是先快照读,然后这期间如果其他事务插入了一条记录,那么事务后续使用当前读进行查询的时候,就会发现两次查询的记录条目就不一样了,所以就发生幻读。

    所以,MySQL 可重复读隔离级别并没有彻底解决幻读,只是很大程度上避免了幻读现象的发生。

  6. MySQL中为什么要有事务回滚机制

    在 MySQL 中,恢复机制是通过回滚日志(undo log)实现的,所有事务进行的修改都会先记录到这个回滚日志,然后在对数据库中的对应行进行写入。 当事务已经被提交后,就无法再次回滚了。

    回滚日志作用: 1)能够在发生错误或者用户执行 ROLLBACK 时提供回滚相关的信息 2) 在整个系统发生崩溃、数据库进程直接被杀死后,当用户再次启动数据库进程时,还能够立刻通过查询回滚日志将之前未完成的事务进行回滚,这也就需要回滚日志必须先于数据持久化到磁盘上,是我们需要先写日志后写数据库的主要原因。

3. 存储引擎

  1. InnoDB介绍

    InnoDB是事务型数据库的首选引擎,支持事务安全表(ACID),支持行锁定和外键,InnoDB是默认的MySQL引擎。

    InnoDB主要特性有:

    1. InnoDB给MySQL提供了具有提交、回滚和崩溃恢复能力的事物安全(ACID兼容)存储引擎。

      InnoDB锁定在行级并且也在SELECT语句中提供一个类似Oracle的非锁定读。这些功能增加了多用户部署和性能。在SQL查询中,可以自由地将InnoDB类型的表和其他MySQL的表类型混合起来,甚至在同一个查询中也可以混合。

    2. InnoDB是为处理巨大数据量的最大性能设计。它的CPU效率可能是任何其他基于磁盘的关系型数据库引擎锁不能匹敌的。

    3. InnoDB存储引擎完全与MySQL服务器整合,InnoDB存储引擎为在主内存中缓存数据和索引而维持它自己的缓冲池。InnoDB将它的表和索引在一个逻辑表空间中,表空间可以包含数个文件(或原始磁盘文件)。这与MyISAM表不同,比如在MyISAM表中每个表被存放在分离的文件中。InnoDB表可以是任何尺寸,即使在文件尺寸被限制为2GB的操作系统上。

    4. InnoDB支持外键完整性约束,存储表中的数据时,每张表的存储都按主键顺序存放,如果没有显示在表定义时指定主键,InnoDB会为每一行生成一个6字节的ROWID,并以此作为主键。

    5. InnoDB被用在众多需要高性能的大型数据库站点上。InnoDB不创建目录,使用InnoDB时,MySQL将在MySQL数据目录下创建一个名为ibdata1的10MB大小的自动扩展数据文件,以及两个名为 ib_logfile0 和 ib_logfile1 的5MB大小的日志文件。

  2. MyISAM介绍

    MyISAM基于ISAM存储引擎,并对其进行扩展。它是在Web、数据仓储和其他应用环境下最常使用的存储引擎之一。MyISAM拥有较高的插入、查询速度,但不支持事物。

    MyISAM主要特性有:

    1. 大文件(达到63位文件长度)在支持大文件的文件系统和操作系统上被支持。
    2. 当把删除和更新及插入操作混合使用的时候,动态尺寸的行产生更少碎片。这要通过合并相邻被删除的块,以及若下一个块被删除,就扩展到下一块自动完成。
    3. 每个MyISAM表最大索引数是64,这可以通过重新编译来改变。每个索引最大的列数是16。
    4. 最大的键长度是1000字节,这也可以通过编译来改变,对于键长度超过250字节的情况,一个超过1024字节的键将被用上。
    5. BLOB和TEXT列可以被索引。
    6. NULL被允许在索引的列中,这个值占每个键的0~1个字节。
    7. 所有数字键值以高字节优先被存储以允许一个更高的索引压缩。
    8. 每个MyISAM类型的表都有一个AUTO_INCREMENT的内部列,当INSERT和UPDATE操作的时候该列被更新,同时AUTO_INCREMENT列将被刷新。所以说,MyISAM类型表的AUTO_INCREMENT列更新比InnoDB类型的AUTO_INCREMENT更快。
    9. 可以把数据文件和索引文件放在不同目录。
    10. 每个字符列可以有不同的字符集。
    11. 有VARCHAR的表可以固定或动态记录长度。
    12. VARCHAR和CHAR列可以多达64KB。
  3. MEMORY介绍

    MEMORY存储引擎将表中的数据存储到内存中,未查询和引用其他表数据提供快速访问。

    MEMORY主要特性有:

    1. MEMORY表的每个表可以有多达32个索引,每个索引16列,以及500字节的最大键长度。
    2. MEMORY存储引擎执行HASH和BTREE缩影。
    3. 可以在一个MEMORY表中有非唯一键值。
    4. MEMORY表使用一个固定的记录长度格式。
    5. MEMORY不支持BLOB或TEXT列。
    6. MEMORY支持AUTO_INCREMENT列和对可包含NULL值的列的索引。
    7. MEMORY表在所由客户端之间共享(就像其他任何非TEMPORARY表)。
    8. MEMORY表内存被存储在内存中,内存是MEMORY表和服务器在查询处理时的空闲中,创建的内部表共享。
    9. 当不再需要MEMORY表的内容时,要释放被MEMORY表使用的内存,应该执行DELETE FROM或TRUNCATE TABLE,或者删除整个表(使用DROP TABLE)。
  4. Archive介绍

    archive储存引擎的应用场景就是它的名字的缩影,主要用于归档。archive储存引擎仅支持select和insert,最出众的是插入快,查询快,占用空间小。

    文件系统存储特性

    • 以zlib对表数据进行压缩,磁盘I/O更少(几Tinnodb表在archive中只需要几百兆)
    • 数据存储在.ARZ为后缀的文件中
    • .frm文件

    功能特点

    • 只支持insert、replace和select
    • 支持行级锁和专用的缓存区,可实现高并发
    • 只允许在自增ID列上加索引
    • 支持分区,不支持事务处理
  5. 数据库引擎InnoDB与MyISAM的区别

    InnoDB

    • 是 MySQL 默认的事务型存储引擎,只有在需要它不支持的特性时,才考虑使用其它存储引擎。
    • 实现了四个标准的隔离级别,默认级别是可重复读(REPEATABLE READ)。在可重复读隔离级别下,通过多版本并发控制(MVCC)+ 间隙锁(Next-Key Locking)防止幻影读。
    • 主索引是聚簇索引,在索引中保存了数据,从而避免直接读取磁盘,因此对查询性能有很大的提升。
    • 内部做了很多优化,包括从磁盘读取数据时采用的可预测性读、能够加快读操作并且自动创建的自适应哈希索引、能够加速插入操作的插入缓冲区等。
    • 支持真正的在线热备份。其它存储引擎不支持在线热备份,要获取一致性视图需要停止对所有表的写入,而在读写混合场景中,停止写入可能也意味着停止读取。

    MyISAM

    • 设计简单,数据以紧密格式存储。对于只读数据,或者表比较小、可以容忍修复操作,则依然可以使用它。
    • 提供了大量的特性,包括压缩表、空间数据索引等。
    • 不支持事务。
    • 不支持行级锁,只能对整张表加锁,读取时会对需要读到的所有表加共享锁,写入时则对表加排它锁。但在表有读取操作的同时,也可以往表中插入新的记录,这被称为并发插入(CONCURRENT INSERT)。

    总结

    • 事务: InnoDB 是事务型的,可以使用 CommitRollback 语句。
    • 并发: MyISAM 只支持表级锁,而 InnoDB 还支持行级锁。
    • 外键: InnoDB 支持外键。
    • 备份: InnoDB 支持在线热备份。
    • 崩溃恢复: MyISAM 崩溃后发生损坏的概率比 InnoDB 高很多,而且恢复的速度也更慢。
    • 其它特性: MyISAM 支持压缩表和空间数据索引。

    适用场景: MyISAM适合: 插入不频繁,查询非常频繁,如果执行大量的SELECT,MyISAM是更好的选择, 没有事务。 InnoDB适合: 可靠性要求比较高,或者要求事务; 表更新和查询都相当的频繁, 大量的INSERT或UPDATE

4. 锁机制

  1. MySQL有哪些锁(全局锁/表级锁/行级锁)

    全局锁

    MyISAM 只支持表锁,InnoDB 支持表锁和行锁,默认为行锁。

    表级锁:开销小,加锁快,不会出现死锁。锁定粒度大,发生锁冲突的概率最高,并发量最低。

    1. 表锁:表级别的锁
    2. 元数据锁:MDL 全称为 metadata lock,即元数据锁,一般也可称为字典锁。MDL 的主要作用是为了管理数据库对象的并发访问和确保元数据一致性。
    3. 意向锁:意向锁是放置在资源层次结构的一个级别上的锁,以保护较低级别资源上的共享锁或排它锁。
    4. AUTO-INC锁:AUTO-INC 锁是特殊的表锁机制,锁不是再一个事务提交后才释放,而是再执行完插入语句后就会立即释放。

    行级锁:开销大,加锁慢,会出现死锁。锁粒度小,发生锁冲突的概率小,并发度最高。

    1. Record lock:单个行记录上的锁;
    2. Gap lock:间隙锁,锁定一个范围,不包括记录本身;
    3. Next-key lock:record+gap 锁定一个范围,包含记录本身。
    4. 插入意向锁:插入意向锁名字虽然有意向锁,但是它并不是意向锁,它是一种特殊的间隙锁,属于行级别锁。
  2. MySQL是怎么加锁的

    MySQL 行级锁的加锁规则。

    唯一索引等值查询:

    • 当查询的记录是「存在」的,在索引树上定位到这一条记录后,将该记录的索引中的 next-key lock 会退化成「记录锁」
    • 当查询的记录是「不存在」的,在索引树找到第一条大于该查询记录的记录后,将该记录的索引中的 next-key lock 会退化成「间隙锁」

    非唯一索引等值查询:

    • 当查询的记录「存在」时,由于不是唯一索引,所以肯定存在索引值相同的记录,于是非唯一索引等值查询的过程是一个扫描的过程,直到扫描到第一个不符合条件的二级索引记录就停止扫描,然后在扫描的过程中,对扫描到的二级索引记录加的是 next-key 锁,而对于第一个不符合条件的二级索引记录,该二级索引的 next-key 锁会退化成间隙锁。同时,在符合查询条件的记录的主键索引上加记录锁
    • 当查询的记录「不存在」时,扫描到第一条不符合条件的二级索引记录,该二级索引的 next-key 锁会退化成间隙锁。因为不存在满足查询条件的记录,所以不会对主键索引加锁

    非唯一索引和主键索引的范围查询的加锁规则不同之处在于:

    • 唯一索引在满足一些条件的时候,索引的 next-key lock 退化为间隙锁或者记录锁。
    • 非唯一索引范围查询,索引的 next-key lock 不会退化为间隙锁和记录锁。
  3. MySQL记录锁+间隙锁解决幻读问题

    在 MySQL 的可重复读隔离级别下,针对当前读的语句会对索引加记录锁+间隙锁,这样可以避免其他事务执行增、删、改时导致幻读的问题。

    有一点要注意的是,在执行 update、delete、select … for update 等具有加锁性质的语句,一定要检查语句是否走了索引,如果是全表扫描的话,会对每一个索引加 next-key 锁,相当于把整个表锁住了,这是挺严重的问题。

  4. 死锁的四个必要条件

    1. 互斥条件:一个资源每次只能被一个进程使用;

    2. 请求与保持条件:一个进程因请求资源而阻塞时,对已获得的资源保持不放;

    3. 不剥夺条件:进程已获得的资源,在末使用完之前,不能强行剥夺;

    4. 循环等待条件:若干进程之间形成一种头尾相接的循环等待资源关系;

  5. 如何解决MySQL死锁问题

    死锁是指两个或多个事务在同一资源上相互占用,并请求锁定对方的资源,从而导致恶性循环的现象。

    常见的解决死锁的方法

    • 如果不同程序并发存取多个表,尽量约定 以相同的顺序访问表,可以大大降低死锁机会;
    • 在同一个事务中,尽可能做到 一次锁定所需要的所有资源,减少死锁产生概率;
    • 对于非常容易产生死锁的业务部分,可以尝试使用 升级锁定颗粒度,通过 表级锁 定来减少死锁产生的概率。
  6. 数据库悲观锁和乐观锁的原理和应用场景

    悲观锁,先获取锁,再进行业务操作,一般就是利用类似 SELECT … FOR UPDATE 这样的语句,对数据加锁,避免其他事务意外修改数据。 当数据库执行SELECT … FOR UPDATE时会获取被select中的数据行的行锁,select for update获取的行锁会在当前事务结束时自动释放,因此必须在事务中使用。

    乐观锁,先进行业务操作,只在最后实际更新数据时进行检查数据是否被更新过。Java 并发包中的 AtomicFieldUpdater 类似,也是利用 CAS 机制,并不会对数据加锁,而是通过对比数据的时间戳或者版本号,来实现乐观锁需要的版本判断。

5. MySQL其他知识点

  1. MySQL的内部构造一般可以分为哪两个部分

    可以分为服务层和存储引擎层两部分,其中:

    服务层包括连接器、查询缓存、分析器、优化器、执行器等,涵盖MySQL的大多数核心服务功能,以及所有的内置函数(如日期、时间、数学和加密函数等),所有跨存储引擎的功能都在这一层实现,比如存储过程、触发器、视图等。

    存储引擎层负责数据的存储和提取。其架构模式是插件式的,支持InnoDB、MyISAM、Memory等多个存储引擎。现在最常用的存储引擎是InnoDB,它从MySQL 5.5.5版本开始成为了默认的存储引擎。

  2. undo log、redo log、binlog有什么用

    redo log是InnoDB引擎特有的,只记录该引擎中表的修改记录。binlog是MySQL的Server层实现的,会记录所有引擎对数据库的修改。

    redo log是物理日志,记录的是在具体某个数据页上做了什么修改;binlog是逻辑日志,记录的是这个语句的原始逻辑。

    redo log是循环写的,空间固定会用完;binlog是可以追加写入的,binlog文件写到一定大小后会切换到下一个,并不会覆盖以前的日志。

    补充

    1、redolog记录修改内容(哪一页发生了什么变化),写于事务开始前,用于数据未落磁盘,但数据库挂了后的数据恢复
    2、binlog记录修改SQL,写于事务提交时,可用于读写分离
    3、undolog记录修改前记录,用于回滚和多版本并发控制

  3. 什么是Buffer pool

    Innodb 存储引擎设计了一个缓冲池(*Buffer Pool*),来提高数据库的读写性能。

    • 当读取数据时,如果数据存在于 Buffer Pool 中,客户端就会直接读取 Buffer Pool 中的数据,否则再去磁盘中读取。
    • 当修改数据时,首先是修改 Buffer Pool 中数据所在的页,然后将其页设置为脏页,最后由后台线程将脏页写入到磁盘。

    缓存什么

    InnoDB 会把存储的数据划分为若干个「页」,以页作为磁盘和内存交互的基本单位,一个页的默认大小为 16KB。因此,Buffer Pool 同样需要按「页」来划分。

    在 MySQL 启动的时候,InnoDB 会为 Buffer Pool 申请一片连续的内存空间,然后按照默认的16KB的大小划分出一个个的页, Buffer Pool 中的页就叫做缓存页。此时这些缓存页都是空闲的,之后随着程序的运行,才会有磁盘上的页被缓存到 Buffer Pool 中。

    Innodb 通过三种链表来管理缓页:

    • Free List (空闲页链表),管理空闲页;
    • Flush List (脏页链表),管理脏页;
    • LRU List,管理脏页+干净页,将最近且经常查询的数据缓存在其中,而不常查询的数据就淘汰出去。;

    InnoDB 对 LRU 做了一些优化,我们熟悉的 LRU 算法通常是将最近查询的数据放到 LRU 链表的头部,而 InnoDB 做 2 点优化:

    • 将 LRU 链表 分为young 和 old 两个区域,加入缓冲池的页,优先插入 old 区域;页被访问时,才进入 young 区域,目的是为了解决预读失效的问题。
    • 当**「页被访问」且「 old 区域停留时间超过 innodb_old_blocks_time 阈值(默认为1秒)」**时,才会将页插入到 young 区域,否则还是插入到 old 区域,目的是为了解决批量数据访问,大量热数据淘汰的问题。

    可以通过调整 innodb_old_blocks_pct 参数,设置 young 区域和 old 区域比例。

  4. DROP、DELETE 与 TRUNCATE 的区别

    三种都可以表示删除,其中的细微区别之处如下:

    DROP DELETE TRUNCATE
    SQL 语句类型 DDL DML DDL
    回滚 不可回滚 可回滚 不可回滚
    删除内容 从数据库中 删除表,所有的数据行,索引和权限也会被删除 表结构还在,删除表的 全部或者一部分数据行 表结构还在,删除表中的 所有数据
    删除速度 删除速度最快 删除速度慢,需要逐行删除 删除速度快

    因此,在不再需要一张表的时候,采用 DROP;在想删除部分数据行时候,用 DELETE;在保留表而删除所有数据的时候用 TRUNCATE。

  5. SQL语法中内连接、自连接、外连接(左、右、全)、交叉连接的区别分别是什么

    1. 内连接:只有两个元素表相匹配的才能在结果集中显示。

    2. 外连接:

    • 左外连接: 左边为驱动表,驱动表的数据全部显示,匹配表的不匹配的不会显示。

    • 右外连接:右边为驱动表,驱动表的数据全部显示,匹配表的不匹配的不会显示。

    • 全外连接:连接的表中不匹配的数据全部会显示出来。

    1. 交叉连接: 笛卡尔效应,显示的结果是链接表数的乘积。
  6. MySQL中CHAR和VARCHAR的区别有哪些

    • char的长度是不可变的,用空格填充到指定长度大小,而varchar的长度是可变的。
    • char的存取数度还是要比varchar要快得多
    • char的存储方式是:对英文字符(ASCII)占用1个字节,对一个汉字占用两个字节。varchar的存储方式是:对每个英文字符占用2个字节,汉字也占用2个字节
  7. 数据库中的主键、超键、候选键、外键是什么

    • 超键:在关系中能唯一标识元组的属性集称为关系模式的超键
    • 候选键:不含有多余属性的超键称为候选键。也就是在候选键中,若再删除属性,就不是键了!
    • 主键用户选作元组标识的一个候选键程序主键
    • 外键:如果关系模式R中属性K是其它模式的主键,那么k在模式R中称为外键

    主键为候选键的子集,候选键为超键的子集,而外键的确定是相对于主键的。

  8. MySQL优化

    • 为搜索字段创建索引
    • 避免使用 Select *,列出需要查询的字段
    • 垂直分割分表
    • 选择正确的存储引擎
  9. SQL语句执行流程

    Server层按顺序执行sql的步骤为:

    1. 客户端请求->
    2. 连接器(验证用户身份,给予权限) ->
    3. 查询缓存(存在缓存则直接返回,不存在则执行后续操作)->
    4. 分析器(对SQL进行词法分析和语法分析操作) ->
    5. 优化器(主要对执行的sql优化选择最优的执行方案方法) ->
    6. 执行器(执行时会先看用户是否有执行权限,有才去使用这个引擎提供的接口)->
    7. 去引擎层获取数据返回(如果开启查询缓存则会缓存查询结果)

    简单概括:

    • 连接器:管理连接、权限验证;
    • 查询缓存:命中缓存则直接返回结果;
    • 分析器:对SQL进行词法分析、语法分析;(判断查询的SQL字段是否存在也是在这步)
    • 优化器:执行计划生成、选择索引;
    • 执行器:操作引擎、返回结果;
    • 存储引擎:存储数据、提供读写接口。
  10. 数据库三范式是什么

    1. 第一范式:强调的是列的原子性,即数据库表的每一列都是不可分割的原子数据项;
    2. 第二范式:要求实体的属性完全依赖于主关键字。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性;
    3. 第三范式:任何非主属性不依赖于其它非主属性。
  11. 对MVCC的了解

    数据库并发场景:

    1. 读-读:不存在任何问题,也不需要并发控制;
    2. 读-写:有线程安全问题,可能会造成事务隔离性问题,可能遇到脏读,幻读,不可重复读;
    3. 写-写:有线程安全问题,可能会存在更新丢失问题。

    多版本并发控制(MVCC)是一种用来解决读-写冲突的无锁并发控制,也就是为事务分配单向增长的时间戳,为每个修改保存一个版本,版本与事务时间戳关联,读操作只读该事务开始前的数据库的快照。

    MVCC 可以为数据库解决以下问题:

    1. 在并发读写数据库时,可以做到在读操作时不用阻塞写操作,写操作也不用阻塞读操作,提高了数据库并发读写的性能;
    2. 同时还可以解决脏读,幻读,不可重复读等事务隔离问题,但不能解决更新丢失问题。
  12. 主从复制中涉及到哪三个线程?

    主要涉及三个线程:binlog 线程、I/O 线程和 SQL 线程。

    1. binlog 线程 :负责将主服务器上的数据更改写入二进制日志(Binary log)中。
    2. I/O 线程 :负责从主服务器上读取二进制日志,并写入从服务器的重放日志(Relay log)中。
    3. SQL 线程 :负责读取重放日志并重放其中的 SQL 语句。
  13. 数据库如何保证持久性

    主要是利用Innodb的redo log。重写日志, 正如之前说的,MySQL是先把磁盘上的数据加载到内存中,在内存中对数据进行修改,再写回到磁盘上。如果此时突然宕机,内存中的数据就会丢失。 怎么解决这个问题? 简单啊,事务提交前直接把数据写入磁盘就行啊。 这么做有什么问题?

    • 只修改一个页面里的一个字节,就要将整个页面刷入磁盘,太浪费资源了。毕竟一个页面16kb大小,你只改其中一点点东西,就要将16kb的内容刷入磁盘,听着也不合理。
    • 毕竟一个事务里的SQL可能牵涉到多个数据页的修改,而这些数据页可能不是相邻的,也就是属于随机IO。显然操作随机IO,速度会比较慢。

    于是,决定采用redo log解决上面的问题。当做数据修改的时候,不仅在内存中操作,还会在redo log中记录这次操作。当事务提交的时候,会将redo log日志进行刷盘(redo log一部分在内存中,一部分在磁盘上)。当数据库宕机重启的时候,会将redo log中的内容恢复到数据库中,再根据undo logbinlog内容决定回滚数据还是提交数据。

    采用redo log的好处?

    其实好处就是将redo log进行刷盘比对数据页刷盘效率高,具体表现如下:

    • redo log体积小,毕竟只记录了哪一页修改了啥,因此体积小,刷盘快。
    • redo log是一直往末尾进行追加,属于顺序IO。效率显然比随机IO来的快。
  14. 数据库如何保证原子性

    主要是利用 Innodb 的undo logundo log名为回滚日志,是实现原子性的关键,当事务回滚时能够撤销所有已经成功执行的 SQL语句,他需要记录你要回滚的相应日志信息。 例如

    • 当你delete一条数据的时候,就需要记录这条数据的信息,回滚的时候,insert这条旧数据
    • 当你update一条数据的时候,就需要记录之前的旧值,回滚的时候,根据旧值执行update操作
    • 当年insert一条数据的时候,就需要这条记录的主键,回滚的时候,根据主键执行delete操作

    undo log记录了这些回滚需要的信息,当事务执行失败或调用了rollback,导致事务需要回滚,便可以利用undo log中的信息将数据回滚到修改之前的样子。

  15. 数据库如何保证一致性

    • 从数据库层面,数据库通过原子性、隔离性、持久性来保证一致性。也就是说ACID四大特性之中,C(一致性)是目的,A(原子性)、I(隔离性)、D(持久性)是手段,是为了保证一致性,数据库提供的手段。数据库必须要实现AID三大特性,才有可能实现一致性。例如,原子性无法保证,显然一致性也无法保证。
    • 从应用层面,通过代码判断数据库数据是否有效,然后决定回滚还是提交数据!
  16. 数据库高并发的解决方案

    • 在web服务框架中加入缓存。在服务器与数据库层之间加入缓存层,将高频访问的数据存入缓存中,减少数据库的读取负担。
    • 增加数据库索引,进而提高查询速度。(不过索引太多会导致速度变慢,并且数据库的写入会导致索引的更新,也会导致速度变慢)
    • 主从读写分离,让主服务器负责写,从服务器负责读。
    • 将数据库进行拆分,使得数据库的表尽可能小,提高查询的速度。
    • 使用分布式架构,分散计算压力。
  17. 数据库结构优化的手段

    • 范式优化: 比如消除冗余(节省空间。。)
    • 反范式优化:比如适当加冗余等(减少join)
    • 限定数据的范围: 务必禁止不带任何限制数据范围条件的查询语句。比如:我们当用户在查询订单历史的时候,我们可以控制在一个月的范围内。
    • 读/写分离: 经典的数据库拆分方案,主库负责写,从库负责读;
    • 拆分表:分区将数据在物理上分隔开,不同分区的数据可以制定保存在处于不同磁盘上的数据文件里。这样,当对这个表进行查询时,只需要在表分区中进行扫描,而不必进行全表扫描,明显缩短了查询时间,另外处于不同磁盘的分区也将对这个表的数据传输分散在不同的磁盘I/O,一个精心设置的分区可以将数据传输对磁盘I/O竞争均匀地分散开。对数据量大的时时表可采取此方法。可按月自动建表分区。
  18. 关系型和非关系型数据库的区别

    非关系型数据库也叫NOSQL,采用键值对的形式进行存储。

    它的读写性能很高,易于扩展,可分为内存性数据库以及文档型数据库,比如 Redis,Mongodb,HBase等等。

    合使用非关系型数据库的场景:

    • 日志系统、地理位置存储、数据量巨大、高可用
    1. 关系型数据库的优点
      • 容易理解。因为它采用了关系模型来组织数据。
      • 可以保持数据的一致性。
      • 数据更新的开销比较小。
      • 支持复杂查询(带where子句的查询)
    2. 非关系型数据库的优点
      • 不需要经过SQL层的解析,读写效率高。
      • 基于键值对,数据的扩展性很好。
      • 可以支持多种类型数据的存储,如图片,文档等等
  19. 数据库为什么要进行分库和分表

    分库与分表的目的在于,减小数据库的单库单表负担,提高查询性能,缩短查询时间。

    通过分表,可以减少数据库的单表负担,将压力分散到不同的表上,同时因为不同的表上的数据量少了,起到提高查询性能,缩短查询时间的作用,此外,可以很大的缓解表锁的问题。 分表策略可以归纳为垂直拆分和水平拆分: 水平分表:取模分表就属于随机分表,而时间维度分表则属于连续分表。 如何设计好垂直拆分,我的建议:将不常用的字段单独拆分到另外一张扩展表. 将大文本的字段单独拆分到另外一张扩展表, 将不经常修改的字段放在同一张表中,将经常改变的字段放在另一张表中。 对于海量用户场景,可以考虑取模分表,数据相对比较均匀,不容易出现热点和并发访问的瓶颈。

    库内分表,仅仅是解决了单表数据过大的问题,但并没有把单表的数据分散到不同的物理机上,因此并不能减轻 MySQL 服务器的压力,仍然存在同一个物理机上的资源竞争和瓶颈,包括 CPU、内存、磁盘 IO、网络带宽等。

    分库与分表带来的分布式困境与应对之策 数据迁移与扩容问题----一般做法是通过程序先读出数据,然后按照指定的分表策略再将数据写入到各个分表中。 分页与排序问题----需要在不同的分表中将数据进行排序并返回,并将不同分表返回的结果集进行汇总和再次排序,最后再返回给用户。

你可能感兴趣的:(笔记,数据库,mysql)