索引和锁在数据库中可以说是非常重要的知识点了,在面试中也会经常会被问到的。
本文力求简单讲清每个知识点,希望大家看完能有所收获
声明:如果没有说明具体的数据库和存储引擎,默认指的是MySQL中的InnoDB存储引擎
在之前,我对索引有以下的认知:
INSERT/UPDATE/DELETE
操作就不要建立索引了,换言之:索引会降低插入、删除、修改等维护任务的速度。看起来好像啥都知道,但面试让你说的时候可能就GG了:
首先Mysql的基本存储结构是页(记录都存在页里边):
所以说,如果我们写select * from user where username = 'Java3y'
这样没有进行任何优化的sql语句,默认会这样做:
很明显,在数据量很大的情况下这样查找会很慢!
索引做了些什么可以让我们查询加快速度呢?
其实就是将无序的数据变成有序(相对):
要找到id为8的记录简要步骤:
很明显的是:没有用索引我们是需要遍历双向链表来定位对应的页,现在通过“目录”就可以很快地定位到对应的页上了!
其实底层结构就是B+树,B+树作为树的一种实现,能够让我们很快地查找出对应的记录。
参考资料:
B+树是平衡树的一种。
平衡树:它是一棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树。
如果一棵普通的树在极端的情况下,是能退化成链表的(树的优点就不复存在了)
B+树是平衡树的一种,是不会退化成链表的,树的高度都是相对比较低的(基本符合矮矮胖胖(均衡)的结构)【这样一来我们检索的时间复杂度就是O(logn)】!从上一节的图我们也可以看见,建立索引实际上就是建立一颗B+树。
B+树删除和修改具体可参考:
除了B+树之外,还有一种常见的是哈希索引。
哈希索引就是采用一定的哈希算法,把键值换算成新的哈希值,检索时不需要类似B+树那样从根节点到叶子节点逐级查找,只需一次哈希算法即可立刻定位到相应的位置,速度非常快。
看起来哈希索引很牛逼啊,但其实哈希索引有好几个局限(根据他本质的原理可得):
参考资料:
主流的还是使用B+树索引比较多,对于哈希索引,InnoDB是自适应哈希索引的(hash索引的创建由InnoDB存储引擎引擎自动优化创建,我们干预不了)!
参考资料:
简单概括:
区别:
非聚集索引也叫做二级索引,不用纠结那么多名词,将其等价就行了~
非聚集索引在建立的时候也未必是单列的,可以多个列来创建索引。
在创建多列索引中也涉及到了一种特殊的索引-->覆盖索引
比如说:
(username,age)
,在查询数据的时候:select username , age from user where username = 'Java3y' and age = 20
。最左匹配原则:
(a)
,也可以复杂如多个列(a, b, c, d)
,即联合索引。(>、<、between、like
左匹配)等就不能进一步匹配了,后续退化为线性查找。例子:
(a, b, c, d)
,查询条件a = 1 and b = 2 and c > 3 and d = 4
,则会在每个节点依次命中a、b、c,无法命中d。不需要考虑=、in等的顺序,mysql会自动优化这些条件的顺序,以匹配尽可能多的索引列。
例子:
(a, b, c, d)
,查询条件c > 3 and b = 2 and a = 1 and d < 4
与a = 1 and c > 3 and b = 2 and d < 4
等顺序都是可以的,MySQL会自动优化为a = 1 and b = 2 and c > 3 and d < 4
,依次命中a、b、c。索引在数据库中是一个非常重要的知识点!上面谈的其实就是索引最基本的东西,要创建出好的索引要顾及到很多的方面:
(>,<,BETWEEN,LIKE)
就停止匹配。COUNT(DISTINCT col) / COUNT(*)
。表示字段不重复的比率,比率越大我们扫描的记录数就越少。FROM_UNIXTIME(create_time) = '2016-06-06'
就不能使用索引,原因很简单,B+树中存储的都是数据表中的字段值,但是进行检索时,需要把所有元素都应用函数才能比较,显然这样的代价太大。所以语句要写成 : create_time = UNIX_TIMESTAMP('2016-06-06')
。参考资料:
在mysql中的锁看起来是很复杂的,因为有一大堆的东西和名词:
排它锁--写锁--X锁,共享锁--读锁--S锁,两种类型的行锁
表锁,页锁,行锁,间隙锁,
意向排它锁(意向锁:为了避免每一行的检索是否行占用,先读取意向锁,只要占用一行就有意向锁),意向共享锁,
乐观锁(思想),悲观锁(行的排他锁),死锁。
这些名词有的博客又直接写锁的英文的简写--->X锁,S锁,IS锁,IX锁,MMVC...
锁的相关知识又跟存储引擎,索引,事务的隔离级别都是关联的....
这就给初学数据库锁的人带来不少的麻烦~~~于是我下面就简单整理一下数据库锁的知识点,希望大家看完会有所帮助。
不少人在开发的时候,应该很少会注意到这些锁的问题,也很少会给程序加锁(除了库存这些对数量准确性要求极高的情况下)
一般也就听过常说的乐观锁和悲观锁,了解过基本的含义之后就没了~~~
定心丸:即使我们不会这些锁知识,我们的程序在一般情况下还是可以跑得好好的。因为这些锁数据库隐式帮我们加了
UPDATE、DELETE、INSERT
语句,InnoDB会自动给涉及数据集加排他锁(X)SELECT
前,会自动给涉及的所有表加读锁,在执行更新操作(UPDATE、DELETE、INSERT
等)前,会自动给涉及的表加写锁,这个过程并不需要用户干预只会在某些特定的场景下才需要手动加锁,学习数据库锁知识就是为了:
首先,从锁的粒度,我们可以分成两大类:
不同的存储引擎支持的锁粒度是不一样的:
InnoDB只有通过索引条件检索数据才使用行级锁,否则,InnoDB将使用表锁
表锁下又分为两种模式:
从上面已经看到了:读锁和写锁是互斥的,读写操作是串行。
max_write_lock_count
和low-priority-updates
值得注意的是:
The LOCAL modifier enables nonconflicting INSERT statements (concurrent inserts) by other sessions to execute while the lock is held. (See Section 8.11.3, “Concurrent Inserts”.) However, READ LOCAL cannot be used if you are going to manipulate the database using processes external to the server while you hold the lock. For InnoDB tables, READ LOCAL is the same as READ
concurrent_insert
来指定哪种模式,在MyISAM中它默认是:如果MyISAM表中没有空洞(即表的中间没有被删除的行),MyISAM允许在一个进程读表的同时,另一个进程从表尾插入记录。参考资料:
上边简单讲解了表锁的相关知识,我们使用Mysql一般是使用InnoDB存储引擎的。InnoDB和MyISAM有两个本质的区别:
从上面也说了:我们是很少手动加表锁的。表锁对我们程序员来说几乎是透明的,即使InnoDB不走索引,加的表锁也是自动的!
我们应该更加关注行锁的内容,因为InnoDB一大特性就是支持行锁!
InnoDB实现了以下两种类型的行锁。
看完上面的有没有发现,在一开始所说的:X锁,S锁,读锁,写锁,共享锁,排它锁其实总共就两个锁,只不过它们有多个名字罢了~~~
Intention locks do not block anything except full table requests (for example, LOCK TABLES ... WRITE). The main purpose of intention locks is to show that someone is locking a row, or going to lock a row in the table.
另外,为了允许行锁和表锁共存,实现多粒度锁机制,InnoDB还有两种内部使用的意向锁(Intention Locks),这两种意向锁都是表锁:
参考资料:
数据库事务有不同的隔离级别,不同的隔离级别对锁的使用是不同的,锁的应用最终导致不同事务的隔离级别
MVCC(Multi-Version Concurrency Control)多版本并发控制,可以简单地认为:MVCC就是行级锁的一个变种(升级版)。
在表锁中我们读写是阻塞的,基于提升并发性能的考虑,MVCC一般读写是不阻塞的(所以说MVCC很多情况下避免了加锁的操作)
快照有两个级别:
Read committed
隔离级别Repeatable read
隔离级别(mysql默认隔离级别)这里注意mvcc在这两个隔离级别起作用,
Read uncommitted是直接读取二叉树根节点数据,此数据是磁盘的内存备份缓存
Read committed是读取内存备份缓存,发生其他事务变更数据时,会把目前版本记录到undo记录,Read committed此时读取undo记录的版本数据
Repeatable
直接取undo记录的指定版本数据,和其他事务直接隔离。
我们在初学的时候已经知道,事务的隔离级别有4种:
Read uncommitted
会出现的现象--->脏读:一个事务读取到另外一个事务未提交的数据
Read committed
避免脏读的做法其实很简单:
但Read committed
出现的现象--->不可重复读:一个事务读取到另外一个事务已经提交的数据,也就是说一个事务可以看到其他事务所做的修改
上面也说了,Read committed
是语句级别的快照!每次读取的都是当前最新的版本!
Repeatable read
避免不可重复读是事务级别的快照!每次读取的都是当前事务的版本,即使被修改了,也只会读取当前事务版本的数据。
呃...如果还是不太清楚,我们来看看InnoDB的MVCC是怎么样的吧(摘抄《高性能MySQL》)
至于虚读(幻读):是指在一个事务内读取到了别的事务插入的数据,导致前后读取不一致。
Repeatable read
隔离级别加上GAP间隙锁已经处理了幻读了。参考资料:
扩展阅读:
无论是Read committed
还是Repeatable read
隔离级别,都是为了解决读写冲突的问题。
单纯在Repeatable read
隔离级别下我们来考虑一个问题:
此时,用户李四的操作就丢失掉了:
(ps:暂时没有想到比较好的例子来说明更新丢失的问题,虽然上面的例子也是更新丢失,但一定程度上是可接受的..不知道有没有人能想到不可接受的更新丢失例子呢...)
解决的方法:
- 乐观锁是一种思想,具体实现是,表中有一个版本字段,第一次读的时候,获取到这个字段。处理完业务逻辑开始更新的时候,需要再次查看该字段的值是否和第一次的一样。如果一样更新,反之拒绝。之所以叫乐观,因为这个模式没有从数据库加锁,等到更新的时候再判断是否可以更新。
- 悲观锁是数据库层面加锁,都会阻塞去等待锁。
所以,按照上面的例子。我们使用悲观锁的话其实很简单(手动加行锁就行了):
select * from xxxx for update
在select 语句后边加了 for update
相当于加了排它锁(写锁),加了写锁以后,其他的事务就不能对它修改了!需要等待当前事务修改完之后才可以修改.
select ... for update
,李四就无法对该条记录修改了~乐观锁不是数据库层面上的锁,是需要自己手动去加的锁。一般我们添加一个版本字段来实现:
具体过程是这样的:
张三select * from table
--->会查询出记录出来,同时会有一个version字段
李四select * from table
--->会查询出记录出来,同时会有一个version字段
李四对这条记录做修改:update A set Name=lisi,version=version+1 where ID=#{id} and version=#{version}
,判断之前查询到的version与现在的数据的version进行比较,同时会更新version字段
此时数据库记录如下:
张三也对这条记录修改:update A set Name=lisi,version=version+1 where ID=#{id} and version=#{version}
,但失败了!因为当前数据库中的版本跟查询出来的版本不一致!
参考资料:
当我们用范围条件检索数据而不是相等条件检索数据,并请求共享或排他锁时,InnoDB会给符合范围条件的已有数据记录的索引项加锁;对于键值在条件范围内但并不存在的记录,叫做“间隙(GAP)”。InnoDB也会对这个“间隙”加锁,这种锁机制就是所谓的间隙锁。
值得注意的是:间隙锁只会在Repeatable read
隔离级别下使用~
例子:假如emp表中只有101条记录,其empid的值分别是1,2,...,100,101
Select * from emp where empid > 100 for update;
上面是一个范围查询,InnoDB不仅会对符合条件的empid值为101的记录加锁,也会对empid大于101(这些记录并不存在)的“间隙”加锁。
InnoDB使用间隙锁的目的有两个:
Repeatable read
隔离级别下再通过GAP锁即可避免了幻读)并发的问题就少不了死锁,在MySQL中同样会存在死锁的问题。
但一般来说MySQL通过回滚帮我们解决了不少死锁的问题了,但死锁是无法完全避免的,可以通过以下的经验参考,来尽可能少遇到死锁:
死锁举例:事务1占用了行1到10,去操作行11阻塞(锁住了行1),这时事务2占用行11到20,去操作后行1阻塞(锁住了行11)
参考资料:
上面说了一大堆关于MySQL数据库锁的东西,现在来简单总结一下。
表锁其实我们程序员是很少关心它的:
现在我们大多数使用MySQL都是使用InnoDB,InnoDB支持行锁:
在默认的情况下,select
是不加任何行锁的~事务可以通过以下语句显示给记录集加共享锁或排他锁。
SELECT * FROM table_name WHERE ... LOCK IN SHARE MODE
。SELECT * FROM table_name WHERE ... FOR UPDATE
。InnoDB基于行锁还实现了MVCC多版本并发控制,MVCC在隔离级别下的Read committed
和Repeatable read
下工作。MVCC能够实现读写不阻塞!
InnoDB实现的Repeatable read
隔离级别配合GAP间隙锁已经避免了幻读!
参考资料:
本文主要介绍了数据库中的两个比较重要的知识点:索引和锁。他俩可以说息息相关的,锁会涉及到很多关于索引的知识~
我个人比较重视对整体知识点的把控,一些细节的地方可能就没有去编写了。在每一个知识点下都会有很多的内容,有兴趣的同学可以在我给出的链接中继续阅读学习。当然了,如果有比较好的文章和资料也不妨在评论区分享一下哈~
我只是在学习的过程中,把自己遇到的问题写出来,整理出来,希望可以对大家有帮助。如果文章有错的地方,希望大家可以在评论区指正,一起学习交流~
问题:
如果增加修改字段,会影响查询吗--->
inodb有隔离级别,修改字段相当于一个事务,默认可重复读,会建立使用行的排他锁,但是有MVCC支持并发多版本控制读取老的事务数据----->此想法是错误的,此想法适合DMC,而DDL是不能回滚,没有事务标识,没有存储undo log,所以DDL会锁表阻塞查询,
因为现在做过的优化 之前是从ddl开始到ddl结束都会锁表的,现在有些ddl操作 是不堵塞的 但是在最后一步 他会去修改数据库的元数据 这个时候 会出现短暂的锁的情况, 比如说你加个字段 这个是在整个过程中 不锁的 如果你洗那个说一开始表没有主键 你去加一个主键 这个是从开始 一直锁到执行结束的 但是修改元数据 只是在这个过程做完之后 修改了一个数据而已
联合索引 a b c,如果a区分度小,b和c区分度大,那建立abc还是bac效果好呢---->b c a
mysql如何保证原子性的---->原子性 要么全部提交,要么全部不提交,有回滚操作,这里主要说明下1.保证提交持久性,和2.提交失败回滚操作
1.使用mysql的indb引擎的redo日志,他是执行事务后,提交事务前记载,记载方式分3种(主线程每秒从redo缓存记录磁盘,提交事务时,缓存空间满时),
宕机时,没有写入磁盘,启动后会根据redo日志重新写入磁盘保证提交持久性
2.事务回滚,事务提交失败回滚时,找到undo日志数据回滚,undo日志实在执行事务之前生成。
总结:
记录undo日志(记录上一个版本),执行事务,记录redo日志,提交事务,写入磁盘
提交事务宕机,根据redo日志进行补偿重试写入磁盘(事务的持久性),
如果事务提交反馈失败,根据undo日志回滚到上一个版本
undo:撤销,也就是取消之前的操作
redo:重做,重新执行一遍之前的操作
undu日志 T1(事务序列号) A(字段) 5(值)
redo日志 T1 A =16
--------------------------------------------------------------------------------------------------------------
undo日志用于记录事务开始前的状态,用于事务失败时的回滚操作;redo日志记录事务执行后的状态,用来恢复未写入data file的已成功事务更新的数据。例如某一事务的事务序号为T1,其对数据X进行修改,设X的原值是5,修改后的值为15,那么Undo日志为
梳理下事务执行的各个阶段:
(1)写undo日志到log buffer;
(2)执行事务,并写redo日志到log buffer;
(3)如果innodb_flush_log_at_trx_commit=1,则将redo日志写到log file,并刷新落盘。
(4)提交事务。
---------------------------------------------------------------------------------------------------------------------------------
其中重做日志和回滚日志与事务操作息息相关,二进制日志也与事务操作有一定的关系,这三种日志,对理解MySQL中的事务操作有着重要的意义。
mysql 扩容如何优雅同步数据---->
binlog日志,增量日志重播,数据库的基于时间点的还原。
1.全量同步:扫描需要复制的表的数据进行重新分布,
2.增量同步:根据binlog基于时间增量同步,
3.停写切换(支持读):不可能一直保持增量同步,听写再说难免,可以找个低峰,停1s就可以。
重要:MySQL中的六种日志文件_淡淡的倔强的博客-CSDN博客_mysql日志文件
mysql 的undolog,redolog,binlog深入理解---->
MySQL日志系统:redo log、binlog、undo log 区别与作用_JobShow裁员加班实况-微信小程序-CSDN博客_binlog redolog undolog区别
MyISAM与InnoDB 的区别---->
MyISAM与InnoDB 的区别(9个不同点)_张花生的博客-CSDN博客_innodb和myisam的区别
innodb四大特性---->
innodb引擎的4大特性 - h_s - 博客园