2-InnoDB存储引擎

1.InnoDB的版本

MySQL 5.1 → InnoDB 1.0X

MySQL 5.5 → InnoDB 1.1X

MySQL 5.6 → InnoDB 1.2X

2.InnoDB体系架构

InnoDB存储引擎有多个内存块，可以认为这些内存块组成了一个大的内存池，负责如下工作：

维护所有进程/线程需要访问的多个内部数据结构。
缓存磁盘上的数据，方便快速地读取，同时在对磁盘文件的数据修改之前在这里缓存。
重做日志（redo log）缓冲。

......

后台线程的主要作用是负责刷新内存池中的数据，保证缓冲池中的内存缓存的是最近的数据。此外将已修改的数据文件刷新到磁盘文件，同时保证在数据库发生异常的情况下，InnoDB能恢复到正常运行状态。

①后台线程

Master Thread：非常核心的后台线程，主要负责将缓冲池中的数据异步刷新到磁盘，保证数据的一致性。包括脏页的刷新、合并插入缓冲（INSERT BUFFER）、UNDO页的回收等。
IO Thread：InnoDB中大量使用了AIO（Async IO）来处理写IO请求，IO Thread的工作主要是负责这些IO请求的回调（call back）处理。

1.0版本之前，有4个IO Thread：write、read、insert buffer、log IO thread。

1.0.x版本开始，read thread 和 write thread分别增大到了4个，分别使用innodb_read_io_threads和innodb_write_io_threads参数进行设置。

Purge Thread：回收已经使用并分配的undo页。（该功能1.1前是在master thread中完成的。1.1开始独立到单独的线程中进行。1.1只支持1个purge thread，1.2开始支持多个）
Page Cleaner Thread：1.2.x引入的。作用是将之前版本中脏页的刷新操作都放入到单独的线程中来完成，减轻Master Thread的工作及对于用户查询线程的阻塞。

②内存

缓冲池：一块内存区域，通过内存的速度来弥补磁盘速度较慢对数据库性能的影响。

读取：从磁盘读到的页放在缓冲池中（将页“FIX”在缓冲池中），下次读取相同页时，称该页在缓冲池被命中，直接读取该页。

修改：首先修改在缓冲池中的页，再以一定的频率刷新到磁盘上（不是每次页发生更新时触发）。

1.0.x版本开始，允许有多个缓冲池实例，每个页根据哈希值平均分配到不同缓冲池实例中。
LRU List、Free List 和 Flush List：

缓冲池中的页默认大小为16KB。

缓冲池通过LRU（Last Recent Used，最近最少使用）算法进行管理。最频繁使用的页在LRU列表的前端，当缓冲池不能存放新读取到的页时，将首先释放LRU列表中尾端的页。InnoDB对传统的LRU做了一些优惠，LRU列表中加入了midpoint位置。新读取到的页，虽然是最新访问的页，但并不是直接放入LRU列表的首部，而是放入到LRU列表的midpoint位置。midpoint位置通过innodb_old_bolcks_pct控制（百分比）。到mid位置后多久才会被加入到LRU列表的热端，通过innodb_old_bolcks_time设置。

1.0.x版本开始支持压缩也的功能。对于非16KB的页，通过unzip_LRU列表进行管理。通过show engine innodb status 观察，LRU len 包含 unzip_LRU len。

LRU列表中的页被修改后，称该页为脏页，即缓冲池中的页和磁盘上的页的数据产生了不一致。这时数据库会通过checkpoint机制将脏页刷新回磁盘，而Flush列表中的页即为脏页列表。脏页既存在于LRU列表中，也存在于Flush列表中。LRU用来管理缓冲池中的页的可用性，Flush用来管理将页刷新回磁盘，二者互不影响。
重做日志缓冲：

InnoDB存储引擎先将重做日志信息放入到这个缓冲区，然后按一定频率将其刷新到重做日志文件。默认大小为8M，可通过innodb_log_buffer_size控制。

将重做日志缓冲中的内容刷新到磁盘的重做日志文件中的情况：

1）Master Thread 每一秒将重做日志缓冲刷新到重做日志文件。

2）每个事务提交时会将重做日志缓冲刷新到重做日志文件。

3）当重做日志缓冲池剩余空间小于1/2时，会将重做日志缓冲刷新到重做日志文件。
额外的内存池：每个缓冲池中的帧缓冲还有对应的缓冲控制对象（记录了一些诸如LRU、锁、等待信息）的内存需要从额外内存池中申请。因此当申请了很大的InnoDB缓冲池时，也应考虑相应的增加这个值。

3.Checkpoint技术

倘若每次一个页发生变化，就将新页的版本刷新到磁盘，那么这个开心是非常大的。为了避免发生数据丢失问题，事务数据库系统普遍采用了write ahead log 策略，即：当事务提交时，先写重做日志，再修改页。当宕机而导致数据丢失时，通过重做日志来完成数据的恢复，这也是ACID中D（Durability 持久性）的要求。

Checkpoint技术的目的是解决以下几个问题：

缩短数据库的恢复时间。（宕机时，只需要对Checkpoint后的重做日志进行恢复）
缓冲池不够用时，将脏页刷新到磁盘。（缓冲池不够用时，会根据LRU算法溢出页，若次页为脏页，需要强制执行Checkpoint，将脏页刷回磁盘）
重做日志不可用时，刷新脏页。（事务数据库系统对重做日志的设计都是循环使用的，并不让其无限增大。）

InnoDB是通过LSN（Log Sequence Number）来标记版本的。LSN是8字节的数字，单位是字节。每个页、重做日志、Checkpoint中都有LSN。

InnoDB有两种CheckPoint：

Sharp Checkpoint；（发生在数据库关闭时将所有的脏页都刷新回磁盘）
Fuzzy Checkpoint；（只刷新一部分脏页）

发生Fuzzy Checkpoint的几种情况：

Master Thread Checkpoint；
FLUSH_LRU_LIST Checkpoint；
Async/Sync Flush Checkpoint；（重做日志文件不可用的情况）
Dirty Page too much Checkpoint；

4.Master Thread工作方式

①1.0.x之前的Master Thread

具有最高的线程优先级别。内部由多个循环组成：主循环（loop）、后台循环（background loop）、刷新循环（flush loop）、暂停循环（suspend loop）。

伪代码：

void master_thread() {
    goto loop;
    loop:
    for(int i = 0; i < 10; i++) {
        thread_sleep(1) //sleep 1 second  
        //每秒一次的操作包括以下几点
        //1-1日志缓冲刷新到磁盘，即使这个事务还没有提交（总是）
        do log buffer flush to disk 
         //判断前一秒内发生的IO次数是否小于5次
        if(last_one_second_ios < 5) 
            //1-2合并插入缓冲（可能）
            do merger at most 5 insert buffer  
        //缓冲池中脏页的比例超过了配置文件设置的阈值
        if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct) 
            //1-3至多刷新100个InnoDB的缓冲池中的脏页到磁盘（可能）
            do buffer pool flush 100 dirty page 
        if(no user activity)
            //1-4如果当前没有用户活动，则切换到background loop（可能）
            goto backgroud loop 
    }
    //每10秒的操作包括以下几点
    //判断过去10秒之内磁盘的IO操作是否小于200次
    if(last_ten_second_ios < 200)
        //10-1刷新100个脏页到磁盘（可能的情况下）
        do buffer pool flush 100 dirty page
    //10-2合并至多5个插入缓冲（总是）
    do merge at most 5 insert buffer
    //10-3将日志缓冲刷新到磁盘（总是）
    do log buffer flush to disk
    //10-4删除无用的undo页，最多尝试回收20个undo页（总是）
    do full purge
    //10-5刷新100个或者10个脏页到磁盘（总是）
    //缓冲池中的脏页比例超过70%
    if(buf_get_modified_ratio_pct > 70%) 
        //刷新100个脏页
        do buffer pool flush 100 dirty page
    else 
        //刷新10个脏页到磁盘
        buffer pool flush 10 dirty page
    goto loop 
    background loop:
        //删除无用的undo页（总是）
        do full purge
        //合并20个插入缓冲（总是）
        do merge 20 insert buffer
        if not idle:
            //跳回到主循环（总是）
            goto loop;
        else:
            //不断刷新100个页直到符合条件（可能，跳转到flush loop中完成）
            goto flush loop
    flush loop:
        //不断刷新100个页
        do buffer pool flush 100 dirty page
        if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct)
            goto flush loop
        //切换到suspend loop，将Master Thread挂起，等待事件的发生
        goto suspend loop
    suspend loop:
        suspend_thread()
        waiting event
        goto loop;
}

②1.2.x之前的Master Thread

提供了参数innodb_io_capacity，用来标识磁盘IO的吞吐量，默认值为200。

提供了参数innodb_adaptive_flushing（自适应地刷新），该值影响每秒刷新脏页的数量。

提供了innodb_purge_batch_size，可以控制每次full purge回收的undo页的数量，默认值为20。

伪代码

void master_thread() {
    goto loop;
    loop:
    for(int i = 0; i < 10; i++) {
        thread_sleep(1) //sleep 1 second  
        //每秒一次的操作包括以下几点
        //1-1日志缓冲刷新到磁盘，即使这个事务还没有提交（总是）
        do log buffer flush to disk 
         //判断前一秒内发生的IO次数是否小于5%
        if(last_one_second_ios < 5% innodb_io_capacity) 
            //1-2合并插入缓冲（可能）
            do merger 5% innodb_io_capacity insert buffer  
        //缓冲池中脏页的比例超过了配置文件设置的阈值
        if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct) 
            //1-3至多刷新innodb_io_capacity个InnoDB的缓冲池中的脏页到磁盘（可能）
            do buffer pool flush 100% innodb_io_capacity dirty page 
        //启用自适应刷新
        else if enable adaptive flush
            //刷新期望数量的脏页
            do buffer pool flush desired amount dirty page
        if(no user activity)
            //1-4如果当前没有用户活动，则切换到background loop（可能）
            goto backgroud loop 
    }
    //每10秒的操作包括以下几点
    //判断过去10秒之内磁盘的IO操作是否小于innodb_io_capacity次
    if(last_ten_second_ios < innodb_io_capacity)
        //10-1刷新innodb_io_capacity个脏页到磁盘（可能的情况下）
        do buffer pool flush 100% innodb_io_capacity dirty page
    //10-2合并至多5% innodb_io_capacity个插入缓冲（总是）
    do merge 5% innodb_io_capacity insert buffer 
    //10-3将日志缓冲刷新到磁盘（总是）
    do log buffer flush to disk
    //10-4删除无用的undo页，最多尝试回收innodb_purge_batch_size个undo页（总是）
    do full purge
    //10-5刷新innodb_io_capacity个或者10% innodb_io_capacity个脏页到磁盘（总是）
    //缓冲池中的脏页比例超过70%
    if(buf_get_modified_ratio_pct > 70%) 
        //刷新innodb_io_capacity个脏页
        do buffer pool flush 100% innodb_io_capacity dirty page
    else 
        //刷新10%的脏页到磁盘
        buffer pool flush 10% innodb_io_capacity dirty page
    goto loop 
    background loop:
        //删除无用的undo页（总是）
        do full purge
        //合并innodb_io_capacity个插入缓冲（总是）
        do merge 100% innodb_io_capacity insert buffer 
        if not idle:
            //跳回到主循环（总是）
            goto loop;
        else:
            //不断刷新innodb_io_capacity个页直到符合条件（可能，跳转到flush loop中完成）
            goto flush loop
    flush loop:
        //不断刷新innodb_io_capacity个页
        do buffer pool flush 100% innodb_io_capacity dirty page
        if(buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct)
            goto flush loop
        //切换到suspend loop，将Master Thread挂起，等待事件的发生
        goto suspend loop
    suspend loop:
        suspend_thread()
        waiting event
        goto loop;
}

③1.2.x的Master Thread

伪代码

if InnoDB is idle
    //之前版本中每10秒的操作
    srv_master_do_idle_tasks();
else 
    //之前版本中每秒的操作
    srv_master_do_active_tasks();

对于刷新脏页的操作，从Master Thread线程分离到一个单独的Page Cleaner Thread，从而减轻了Master Thread的工作。

5.InnoDB关键特性

InnoDB存储引擎的关键特性包括：

插入缓冲（insert buffer）
两次写（double write）
自适应哈希索引（adaptive hash index）
异步IO（Async IO）
刷新邻接页（flush neighbor page）

①插入缓冲

1）Insert Buffer

插入聚集索引（Primary key）一般是顺序的，不需要磁盘的随机读取，因此这类情况下的插入操作，速度是非常快的。（并不是所有的主键插入都是顺序的，如UUID这样的就不是）

insert buffer，是非聚集索引（辅助索引、UUID为主键等）的插入或更新操作，并不是每一次直接插入到索引页中，而是先判断非聚集索引页是否在缓冲池中，若在，直接插入；若不在，则先放入到一个 insert buffer对象中，再以一定的频率和情况进行insert buffer和辅助索引页子节点的merge（合并）操作，这时通常能将多个插入合并到一个操作中（因为在一个索引页中），这就大大提高了对于非聚集索引插入的性能。

insert buffer的使用需要同时满足以下两个条件：

索引是辅助索引（secondary index）
索引不是唯一（unique）的

修改 IBUF_POOL_SIZE_PER_MAX_SIZE可以对插入缓冲的大小进行控制，比如将值改为3（默认为2），则最大只能使用1/3的缓冲池内存。

2）Change Buffer

1.0.x版本开始引入，可将其视为Insert Buffer的升级。从这个版本开始，InnoDB存储引擎可以对DML操作——insert、delete、update都进行缓冲，他们分别是Insert Buffer、 Delete Buffer、Purge Buffer。

和之前Insert Buffer一样，Change Buffer适用的对象依然是非唯一的辅助索引。

对一条记录进行update操作可能分为两个过程：

将记录标记为已删除；
真正将记录删除。

Delete Buffer对应update操作的第一个过程，Purge Buffer对应update操作的第二个过程。

提供参数innodb_change_buffering，可选值：inserts、deletes、purges、changes、all、none。

changes表示启用inserts和deletes，all表示启用所有，none表示都不启用。默认为all。

1.2.x开始，可通过innodb_change_buffer_max_size来控制Change Buffer最大使用内存数量：

默认值为25，表示最多使用1/4的缓冲池内存空间，该参数最大有效值为50。

3）Insert Buffer的内部实现

MySQL 4.1之前的版本中每张表一颗Insert Buffer B+树。现在的版本中，全局只有一颗Insert Buffer B+树。

②两次写

如果Insert Buffer带给InnoDB的是性能上的提升，那么 doublewrite（两次写）带给InnoDB的是数据页的可靠性。

doublewrite由两部分组成：

内存中的doublewrite buffer，大小为2M。
物理磁盘上共享表空间中连续的128个页，即2个区（extent），大小同样为2M。

在对缓冲池的脏页进行刷新时，：通过memcpy函数将脏页先复制到内存中的doublewrite buffer，之后通过doublewrite buffer再分两次，每次1MB顺序地写入共享表空间的物理磁盘上，然后马上调用fsync函数，同步磁盘，避免缓冲写带来的问题。

在这个过程中，因为doublewrite 页是连续的，因此这个过程是顺序写的，开销并不是很大。

在完成doublewrite 页的写入后，再将doublewrite buffer中的页写入各个表空间文件中，此时的写入则是离散的。

③自适应哈希索引

B+ 树的查找次数取决于B+ 树的高度，在生产环境中，B+树的高度一般为3_{4层，故需要3}4次查询。

InnoDB会监控对表上各索引页的查询，如果观察到建立哈希索引可以带来速度提升，则建立哈希索引，称之为自适应哈希索引（Adaptive Hash Index， AHI）。

AHI有一个要求，对这个页的连续访问模式必须是一样的。例如 where a=xx 和 where a=xx and b=xxx，如果两个访问交替查询，那么不会构造AHI。

AHI还有如下要求：

以该模式访问了100次
页通过该模式访问了N次，其中N=页中记录*1/16
只能用来搜索等值的查询，对于其他查找类型，如范围查找，是不能使用哈希索引的。

④异步IO

异步IO可以进行IO Merge操作，就是将多个IO合并为1个IO，这样可以提高IOPS的性能。例如用户需要访问页的（space， page_no）为：（8,6）、（8,7）、（8,8），每个页大小为16KB，同步IO需要进行3次IO操作，而AIO会判断到这三个页是连续的，因此AIO底层会发送一个IO请求，从（8,6）开始，读取48KB的页。

⑤刷新邻接页

工作原理：当刷新一个脏页时，InnoDB会检测该页所在区（extent）的所有页，如果是脏页，那么一起进行刷新。

这样做的好处是通过AIO可以将多个IO写入操作合并为一个IO操作，该机制在传统机械磁盘下有着显著的优势

可通过innodb_flush_neighbors来控制是否启用该特性。

6.启动、关闭与恢复

innodb_fast_shutdown影响着表的存储引擎为InnoDB的行为。该值可取值为0、1、2，默认值为1.

0 表示在MySQL数据库关闭时，InnoDB需要完成所有的full purge 和merge insert buffer，并且将所有的脏页刷新回磁盘。这需要一些时间，甚至需要几个小时来完成。如果在进行InnoDB升级时，必须将这个参数调为0，然后再关闭数据库。
1 表示不需要完成上述的full purge 和 merge insert buffer操作，但是缓冲池中的一些数据脏页还是会刷新回磁盘。
表示不完成 full purge 和 merge insert buffer操作，也不将缓冲池中的数据脏页刷新回磁盘，而是将日志都写入日志文件。这样不会有任何事务的丢失，但是下次MySQL数据库启动时，会进行恢复操作（recovery）。

innodb_force_recovery影响了整个InnoDB存储引擎恢复的状况。该参数值默认为0。

0 代表当发生需要恢复时，进行所有的恢复操作，当不能进行有效恢复时，如数据页发生了corruption，MySQL数据库可能发生宕机（crash），并把错误写入错误日志中去。
1 忽略检查到的corrupt页。
2 阻止Master Thread线程的运行，如Master Thread线程需要进行full purge操作，而这会导致crash。
3 不进行事务的回滚操作。
4 不进行插入缓冲的合并操作。
5 不查看撤销日志（undo log），InnoDB存储引擎会将未提交的事务视为已提交。
6 不进行前滚的操作。