2-InnoDB存储引擎

1.InnoDB的版本

MySQL 5.1 → InnoDB 1.0X

MySQL 5.5 → InnoDB 1.1X

MySQL 5.6 → InnoDB 1.2X

2-InnoDB存储引擎_第1张图片

2.InnoDB体系架构

InnoDB存储引擎有多个内存块,可以认为这些内存块组成了一个大的内存池,负责如下工作:

  • 维护所有进程/线程需要访问的多个内部数据结构。
  • 缓存磁盘上的数据,方便快速地读取,同时在对磁盘文件的数据修改之前在这里缓存。
  • 重做日志(redo log)缓冲。

......

2-InnoDB存储引擎_第2张图片

​ 后台线程的主要作用是负责刷新内存池中的数据,保证缓冲池中的内存缓存的是最近的数据。此外将已修改的数据文件刷新到磁盘文件,同时保证在数据库发生异常的情况下,InnoDB能恢复到正常运行状态。

①后台线程

  • Master Thread:非常核心的后台线程,主要负责将缓冲池中的数据异步刷新到磁盘,保证数据的一致性。包括脏页的刷新、合并插入缓冲(INSERT BUFFER)、UNDO页的回收等。

  • IO Thread:InnoDB中大量使用了AIO(Async IO)来处理写IO请求,IO Thread的工作主要是负责这些IO请求的回调(call back)处理。

    1.0版本之前,有4个IO Thread:write、read、insert buffer、log IO thread。

    1.0.x版本开始,read thread 和 write thread分别增大到了4个,分别使用innodb_read_io_threads和innodb_write_io_threads参数进行设置。

  • Purge Thread:回收已经使用并分配的undo页。(该功能1.1前是在master thread中完成的。1.1开始独立到单独的线程中进行。1.1只支持1个purge thread,1.2开始支持多个)
  • Page Cleaner Thread:1.2.x引入的。作用是将之前版本中脏页的刷新操作都放入到单独的线程中来完成,减轻Master Thread的工作及对于用户查询线程的阻塞。

②内存

2-InnoDB存储引擎_第3张图片
  • 缓冲池:一块内存区域,通过内存的速度来弥补磁盘速度较慢对数据库性能的影响。

    读取:从磁盘读到的页放在缓冲池中(将页“FIX”在缓冲池中),下次读取相同页时,称该页在缓冲池被命中,直接读取该页。

    修改:首先修改在缓冲池中的页,再以一定的频率刷新到磁盘上(不是每次页发生更新时触发)。

    1.0.x版本开始,允许有多个缓冲池实例,每个页根据哈希值平均分配到不同缓冲池实例中。

  • LRU List、Free List 和 Flush List:

    缓冲池中的页默认大小为16KB。

    缓冲池通过LRU(Last Recent Used,最近最少使用)算法进行管理。 最频繁使用的页在LRU列表的前端,当缓冲池不能存放新读取到的页时,将首先释放LRU列表中尾端的页。InnoDB对传统的LRU做了一些优惠,LRU列表中加入了midpoint位置。新读取到的页,虽然是最新访问的页,但并不是直接放入LRU列表的首部,而是放入到LRU列表的midpoint位置。midpoint位置通过innodb_old_bolcks_pct控制(百分比)。到mid位置后多久才会被加入到LRU列表的热端,通过innodb_old_bolcks_time设置。

    1.0.x版本开始支持压缩也的功能。对于非16KB的页,通过unzip_LRU列表进行管理。通过show engine innodb status 观察,LRU len 包含 unzip_LRU len。

    LRU列表中的页被修改后,称该页为脏页,即缓冲池中的页和磁盘上的页的数据产生了不一致。这时数据库会通过checkpoint机制将脏页刷新回磁盘,而Flush列表中的页即为脏页列表。脏页既存在于LRU列表中,也存在于Flush列表中。LRU用来管理缓冲池中的页的可用性,Flush用来管理将页刷新回磁盘,二者互不影响。

  • 重做日志缓冲:

    InnoDB存储引擎先将重做日志信息放入到这个缓冲区,然后按一定频率将其刷新到重做日志文件。默认大小为8M,可通过innodb_log_buffer_size控制。

    将重做日志缓冲中的内容刷新到磁盘的重做日志文件中的情况:

    1)Master Thread 每一秒将重做日志缓冲刷新到重做日志文件。

    2)每个事务提交时会将重做日志缓冲刷新到重做日志文件。

    3)当重做日志缓冲池剩余空间小于1/2时,会将重做日志缓冲刷新到重做日志文件。

  • 额外的内存池:每个缓冲池中的帧缓冲还有对应的缓冲控制对象(记录了一些诸如LRU、锁、等待信息)的内存需要从额外内存池中申请。因此当申请了很大的InnoDB缓冲池时,也应考虑相应的增加这个值。

3.Checkpoint技术

倘若每次一个页发生变化,就将新页的版本刷新到磁盘,那么这个开心是非常大的。为了避免发生数据丢失问题,事务数据库系统普遍采用了write ahead log 策略,即:当事务提交时,先写重做日志,再修改页。当宕机而导致数据丢失时,通过重做日志来完成数据的恢复,这也是ACID中D(Durability 持久性)的要求。

Checkpoint技术的目的是解决以下几个问题:

  • 缩短数据库的恢复时间。(宕机时,只需要对Checkpoint后的重做日志进行恢复)
  • 缓冲池不够用时,将脏页刷新到磁盘。(缓冲池不够用时,会根据LRU算法溢出页,若次页为脏页,需要强制执行Checkpoint,将脏页刷回磁盘)
  • 重做日志不可用时,刷新脏页。(事务数据库系统对重做日志的设计都是循环使用的,并不让其无限增大。)

InnoDB是通过LSN(Log Sequence Number)来标记版本的。LSN是8字节的数字,单位是字节。每个页、重做日志、Checkpoint中都有LSN。

InnoDB有两种CheckPoint:

  • Sharp Checkpoint;(发生在数据库关闭时将所有的脏页都刷新回磁盘)
  • Fuzzy Checkpoint;(只刷新一部分脏页)

发生Fuzzy Checkpoint的几种情况:

  • Master Thread Checkpoint;
  • FLUSH_LRU_LIST Checkpoint;
  • Async/Sync Flush Checkpoint;(重做日志文件不可用的情况)
  • Dirty Page too much Checkpoint;

4.Master Thread工作方式

①1.0.x之前的Master Thread

具有最高的线程优先级别。内部由多个循环组成:主循环(loop)、后台循环(background loop)、刷新循环(flush loop)、暂停循环(suspend loop)。

伪代码:

void master_thread() {
    goto loop;
    loop:
    for(int i = 0; i < 10; i++) {
        thread_sleep(1) //sleep 1 second  
        //每秒一次的操作包括以下几点
        //1-1日志缓冲刷新到磁盘,即使这个事务还没有提交(总是)
        do log buffer flush to disk 
         //判断前一秒内发生的IO次数是否小于5次
        if(last_one_second_ios < 5) 
            //1-2合并插入缓冲(可能)
            do merger at most 5 insert buffer  
        //缓冲池中脏页的比例超过了配置文件设置的阈值
        if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct) 
            //1-3至多刷新100个InnoDB的缓冲池中的脏页到磁盘(可能)
            do buffer pool flush 100 dirty page 
        if(no user activity)
            //1-4如果当前没有用户活动,则切换到background loop(可能)
            goto backgroud loop 
    }
    //每10秒的操作包括以下几点
    //判断过去10秒之内磁盘的IO操作是否小于200次
    if(last_ten_second_ios < 200)
        //10-1刷新100个脏页到磁盘(可能的情况下)
        do buffer pool flush 100 dirty page
    //10-2合并至多5个插入缓冲(总是)
    do merge at most 5 insert buffer
    //10-3将日志缓冲刷新到磁盘(总是)
    do log buffer flush to disk
    //10-4删除无用的undo页,最多尝试回收20个undo页(总是)
    do full purge
    //10-5刷新100个或者10个脏页到磁盘(总是)
    //缓冲池中的脏页比例超过70%
    if(buf_get_modified_ratio_pct > 70%) 
        //刷新100个脏页
        do buffer pool flush 100 dirty page
    else 
        //刷新10个脏页到磁盘
        buffer pool flush 10 dirty page
    goto loop 
    background loop:
        //删除无用的undo页(总是)
        do full purge
        //合并20个插入缓冲(总是)
        do merge 20 insert buffer
        if not idle:
            //跳回到主循环(总是)
            goto loop;
        else:
            //不断刷新100个页直到符合条件(可能,跳转到flush loop中完成)
            goto flush loop
    flush loop:
        //不断刷新100个页
        do buffer pool flush 100 dirty page
        if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct)
            goto flush loop
        //切换到suspend loop,将Master Thread挂起,等待事件的发生
        goto suspend loop
    suspend loop:
        suspend_thread()
        waiting event
        goto loop;
}

②1.2.x之前的Master Thread

提供了参数innodb_io_capacity,用来标识磁盘IO的吞吐量,默认值为200。

提供了参数innodb_adaptive_flushing(自适应地刷新),该值影响每秒刷新脏页的数量。

提供了innodb_purge_batch_size,可以控制每次full purge回收的undo页的数量,默认值为20。

伪代码

void master_thread() {
    goto loop;
    loop:
    for(int i = 0; i < 10; i++) {
        thread_sleep(1) //sleep 1 second  
        //每秒一次的操作包括以下几点
        //1-1日志缓冲刷新到磁盘,即使这个事务还没有提交(总是)
        do log buffer flush to disk 
         //判断前一秒内发生的IO次数是否小于5%
        if(last_one_second_ios < 5% innodb_io_capacity) 
            //1-2合并插入缓冲(可能)
            do merger 5% innodb_io_capacity insert buffer  
        //缓冲池中脏页的比例超过了配置文件设置的阈值
        if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct) 
            //1-3至多刷新innodb_io_capacity个InnoDB的缓冲池中的脏页到磁盘(可能)
            do buffer pool flush 100% innodb_io_capacity dirty page 
        //启用自适应刷新
        else if enable adaptive flush
            //刷新期望数量的脏页
            do buffer pool flush desired amount dirty page
        if(no user activity)
            //1-4如果当前没有用户活动,则切换到background loop(可能)
            goto backgroud loop 
    }
    //每10秒的操作包括以下几点
    //判断过去10秒之内磁盘的IO操作是否小于innodb_io_capacity次
    if(last_ten_second_ios < innodb_io_capacity)
        //10-1刷新innodb_io_capacity个脏页到磁盘(可能的情况下)
        do buffer pool flush 100% innodb_io_capacity dirty page
    //10-2合并至多5% innodb_io_capacity个插入缓冲(总是)
    do merge 5% innodb_io_capacity insert buffer 
    //10-3将日志缓冲刷新到磁盘(总是)
    do log buffer flush to disk
    //10-4删除无用的undo页,最多尝试回收innodb_purge_batch_size个undo页(总是)
    do full purge
    //10-5刷新innodb_io_capacity个或者10% innodb_io_capacity个脏页到磁盘(总是)
    //缓冲池中的脏页比例超过70%
    if(buf_get_modified_ratio_pct > 70%) 
        //刷新innodb_io_capacity个脏页
        do buffer pool flush 100% innodb_io_capacity dirty page
    else 
        //刷新10%的脏页到磁盘
        buffer pool flush 10% innodb_io_capacity dirty page
    goto loop 
    background loop:
        //删除无用的undo页(总是)
        do full purge
        //合并innodb_io_capacity个插入缓冲(总是)
        do merge 100% innodb_io_capacity insert buffer 
        if not idle:
            //跳回到主循环(总是)
            goto loop;
        else:
            //不断刷新innodb_io_capacity个页直到符合条件(可能,跳转到flush loop中完成)
            goto flush loop
    flush loop:
        //不断刷新innodb_io_capacity个页
        do buffer pool flush 100% innodb_io_capacity dirty page
        if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct)
            goto flush loop
        //切换到suspend loop,将Master Thread挂起,等待事件的发生
        goto suspend loop
    suspend loop:
        suspend_thread()
        waiting event
        goto loop;
}

③1.2.x的Master Thread

伪代码

if InnoDB is idle
    //之前版本中每10秒的操作
    srv_master_do_idle_tasks();
else 
    //之前版本中每秒的操作
    srv_master_do_active_tasks();

对于刷新脏页的操作,从Master Thread线程分离到一个单独的Page Cleaner Thread,从而减轻了Master Thread的工作。

5.InnoDB关键特性

InnoDB存储引擎的关键特性包括:

  • 插入缓冲(insert buffer)
  • 两次写(double write)
  • 自适应哈希索引(adaptive hash index)
  • 异步IO(Async IO)
  • 刷新邻接页(flush neighbor page)

①插入缓冲

1)Insert Buffer

插入聚集索引(Primary key)一般是顺序的,不需要磁盘的随机读取,因此这类情况下的插入操作,速度是非常快的。(并不是所有的主键插入都是顺序的,如UUID这样的就不是)

insert buffer,是非聚集索引(辅助索引、UUID为主键等)的插入或更新操作,并不是每一次直接插入到索引页中,而是先判断非聚集索引页是否在缓冲池中,若在,直接插入;若不在,则先放入到一个 insert buffer对象中,再以一定的频率和情况进行insert buffer和辅助索引页子节点的merge(合并)操作,这时通常能将多个插入合并到一个操作中(因为在一个索引页中),这就大大提高了对于非聚集索引插入的性能。

insert buffer的使用需要同时满足以下两个条件:

  • 索引是辅助索引(secondary index)
  • 索引不是唯一(unique)的

修改 IBUF_POOL_SIZE_PER_MAX_SIZE可以对插入缓冲的大小进行控制,比如将值改为3(默认为2),则最大只能使用1/3的缓冲池内存。

2)Change Buffer

1.0.x版本开始引入,可将其视为Insert Buffer的升级。从这个版本开始,InnoDB存储引擎可以对DML操作——insert、delete、update都进行缓冲,他们分别是Insert Buffer、 Delete Buffer、Purge Buffer。

和之前Insert Buffer一样,Change Buffer适用的对象依然是非唯一的辅助索引。

对一条记录进行update操作可能分为两个过程:

  • 将记录标记为已删除;
  • 真正将记录删除。

Delete Buffer对应update操作的第一个过程,Purge Buffer对应update操作的第二个过程。

提供参数innodb_change_buffering,可选值:inserts、deletes、purges、changes、all、none。

changes表示启用inserts和deletes,all表示启用所有,none表示都不启用。默认为all。

1.2.x开始,可通过innodb_change_buffer_max_size来控制Change Buffer最大使用内存数量:

默认值为25,表示最多使用1/4的缓冲池内存空间,该参数最大有效值为50。

3)Insert Buffer的内部实现

MySQL 4.1之前的版本中每张表一颗Insert Buffer B+树。现在的版本中,全局只有一颗Insert Buffer B+树。

②两次写

如果Insert Buffer带给InnoDB的是性能上的提升,那么 doublewrite(两次写)带给InnoDB的是数据页的可靠性。

2-InnoDB存储引擎_第4张图片

doublewrite由两部分组成:

  • 内存中的doublewrite buffer,大小为2M。
  • 物理磁盘上共享表空间中连续的128个页,即2个区(extent),大小同样为2M。

在对缓冲池的脏页进行刷新时,:通过memcpy函数将脏页先复制到内存中的doublewrite buffer,之后通过doublewrite buffer再分两次,每次1MB顺序地写入共享表空间的物理磁盘上,然后马上调用fsync函数,同步磁盘,避免缓冲写带来的问题。

在这个过程中,因为doublewrite 页是连续的,因此这个过程是顺序写的,开销并不是很大。

在完成doublewrite 页的写入后,再将doublewrite buffer中的页写入各个表空间文件中,此时的写入则是离散的。

③自适应哈希索引

B+ 树的查找次数取决于B+ 树的高度,在生产环境中,B+树的高度一般为34层,故需要34次查询。

InnoDB会监控对表上各索引页的查询,如果观察到建立哈希索引可以带来速度提升,则建立哈希索引,称之为自适应哈希索引(Adaptive Hash Index, AHI)。

AHI有一个要求,对这个页的连续访问模式必须是一样的。例如 where a=xx 和 where a=xx and b=xxx,如果两个访问交替查询,那么不会构造AHI。

AHI还有如下要求:

  • 以该模式访问了100次
  • 页通过该模式访问了N次,其中N=页中记录*1/16
  • 只能用来搜索等值的查询,对于其他查找类型,如范围查找,是不能使用哈希索引的。

④异步IO

异步IO可以进行IO Merge操作,就是将多个IO合并为1个IO,这样可以提高IOPS的性能。例如用户需要访问页的(space, page_no)为:(8,6)、(8,7)、(8,8),每个页大小为16KB,同步IO需要进行3次IO操作,而AIO会判断到这三个页是连续的,因此AIO底层会发送一个IO请求,从(8,6)开始,读取48KB的页。

⑤刷新邻接页

工作原理:当刷新一个脏页时,InnoDB会检测该页所在区(extent)的所有页,如果是脏页,那么一起进行刷新。

这样做的好处是通过AIO可以将多个IO写入操作合并为一个IO操作,该机制在传统机械磁盘下有着显著的优势

可通过innodb_flush_neighbors来控制是否启用该特性。

6.启动、关闭与恢复

innodb_fast_shutdown影响着表的存储引擎为InnoDB的行为。该值可取值为0、1、2,默认值为1.

  • 0 表示在MySQL数据库关闭时,InnoDB需要完成所有的full purge 和merge insert buffer,并且将所有的脏页刷新回磁盘。这需要一些时间,甚至需要几个小时来完成。如果在进行InnoDB升级时,必须将这个参数调为0,然后再关闭数据库。
  • 1 表示不需要完成上述的full purge 和 merge insert buffer操作,但是缓冲池中的一些数据脏页还是会刷新回磁盘。
  • 表示不完成 full purge 和 merge insert buffer操作,也不将缓冲池中的数据脏页刷新回磁盘,而是将日志都写入日志文件。这样不会有任何事务的丢失,但是下次MySQL数据库启动时,会进行恢复操作(recovery)。

innodb_force_recovery影响了整个InnoDB存储引擎恢复的状况。该参数值默认为0。

  • 0 代表当发生需要恢复时,进行所有的恢复操作,当不能进行有效恢复时,如数据页发生了corruption,MySQL数据库可能发生宕机(crash),并把错误写入错误日志中去。
  • 1 忽略检查到的corrupt页。
  • 2 阻止Master Thread线程的运行,如Master Thread线程需要进行full purge操作,而这会导致crash。
  • 3 不进行事务的回滚操作。
  • 4 不进行插入缓冲的合并操作。
  • 5 不查看撤销日志(undo log),InnoDB存储引擎会将未提交的事务视为已提交。
  • 6 不进行前滚的操作。

你可能感兴趣的:(2-InnoDB存储引擎)