数据库系统是基于文件系统的,其性能和设备读写的机制有密切的关系。
和数据库性能密切相关的文件I/O操作的三个操作:
open 打开文件
write 写文件
fdatasync flush操作(将文件缓存刷到磁盘上)。
一、Open操作
open("test.file",O_WRONLY|O_APPDENT|O_SYNC))
系统调用Open会为该进程一个文件描述符fd。这里使用了O_WRONLY|O_APPDENT|O_SYNC打开文件:
二、Write操作
write(fd,buf,6)
在使用open打开文件获得文件描述符之后,我们就可以调用write函数来写入数据了,write会根据前面的open参数不同,而表现不同。
三、Flush阶段
fdatasync(fd) == -1
write操作后,我们还调用了fdatasync来确保文件数据flush到了disk上。fdatasync返回成功后,那么可以认为数据已经写到了磁盘上。像这样的flush的函数还有fsync、sync。
忽略文件打开的过程,通常我们会说“写文件”有两个阶段,一个是调用write我们称为写数据阶段(其实是受open的参数影响),调用fsync(或者fdatasync)我们称为flush阶段。
Linux上的块设备的操作可以分为两类:
第一类是使用C标准库中的fopen/fread/fwrite 系列的函数,我们可以称其为 buffered I/O。
具体的I/O path如下
Application<->Library Buffer<->Operation System Cache<->File System/Volume Manager<->Device
library buffer是标准库提供的用户空间的buffer,可以通过setvbuf改变其大小。
第二类是使用Linux的系统调用的open/read/write 系列的函数,我们可以称其为 non-buffered I/O。
I/O Path
Application<-> Operation System Cache <->File System/Volume Manager<->Device
此外,我们可以通过设置open的O_DIRECT 标志来实现Direct I/O (或者叫Raw I/O ),即绕过OS Cache,直接读取Device ( that's what we want^o^ ), 等于将OS cache换成自己管理的cache。
不过,Linus在邮件列表中建议不这么做,而是使用posix_fadvice, madvice。中表明Direct I/O比buffered I/O的性能高很多。
在MySQL中,参数Innodb_flush_method(Linux)可以设定为:Fdatasync、O_DSYNC、O_DIRECT。
我们看看这个三个参数是如何影响程序MySQL对日志和数据文件的操作:
Open log | Flush log | Open datafile | Flush data | |
Fdatasync | fsync() | fsync() | ||
O_DSYNC | O_SYNC | fsync() | ||
O_DIRECT | fsync() | O_DIRECT |
Fsync() |
fdatasync被认为是安全的,因为在MySQL总会调用fsync来flush数据。使用O_DSYNC是有些风险的,有些OS会忽略该参数O_SYNC 。
我们看到O_DIRECT和fdatasync和很类似,但是它会使用O_DIRECT
来打开数据文件。有数据表明,如果是大量随机写入操作,O_DIRECT
会提升效率。但是顺序写入和读取效率都会降低。所以使用O_DIRECT需要谨慎。
mysql innodb 对应相关参数:
innodb_flush_method有三个值,分别是fdatasync,O_DSYNC和O_DIRECT,其中fdatasync是默认值。
它们控制了InnoDB刷新日志和数据的模式。
fdatasync:InnoDB使用fsync()函数去更新日志和数据文件。
O_DSYNC:InnoDB使用O_SYNC模式打开并更新日志文件,用fsync()函数去更新数据文件。
O_DIRECT:InnoDB使用O_DIRECT模式打开数据文件,用fsync()函数去更新日志和数据文件。
我们看到O_DIRECT和fdatasync和很类似,但是它会使用O_DIRECT
来打开数据文件。有数据表明,如果是大量随机写入操作,O_DIRECT
会提升效率。但是顺序写入和读取效率都会降低。所以使用O_DIRECT需要谨慎。