Linux内核2.6开始引入了全新的IO调度子系统。Linux内核提供了CFQ(默认), deadline和noop三种IO调度器。
CFQ实现了一种QoS的IO调度算法。该算法为每一个进程分配一个时间窗口,在该时间窗口内,允许进程发出IO请求。通过时间窗口在不同进程间的移动,保证了对于所有进程而言都有公平的发出IO请求的机会。同时CFQ也实现了进程的优先级控制,可保证高优先级进程可以获得更长的时间窗口。
CFQ适用于系统中存在多任务I/O请求的情况,通过在多进程中轮换,保证了系统I/O请求整体的低延迟。但是,对于只有少数进程存在大量密集的I/O请求的情况,会出现明显的I/O性能下降。
Linux系统中可以通过cat /sys/block/.../queue/scheduler进行查看。
root@src-yinzh:~$cat /sys/block/sda/queue/scheduler
noop deadline [cfq]
可以使用echo 调度算法 >/sys/block/磁盘名/queue/scheduler进行修改磁盘IO调度算法时。
root@src-yinzh:~$echo "noop" > /sys/block/sda/queue/scheduler
root@src-yinzh:~$cat /sys/block/sda/queue/scheduler
[noop] deadline cfq
root@src-yinzh:~$ls /sys/block/sda/queue/iosched/
back_seek_max fifo_expire_async group_idle quantum slice_async_rq slice_sync
back_seek_penalty fifo_expire_sync low_latency slice_async slice_idle
slice_idle:如果一个进程在自己的时间窗口里,经过slice_idle时间都没有发射I/O请求,则调度选择下一个程序。
Quantum:该参数控制在一个时间窗口内可以发射的I/O请求的最大数目。
low_latency:对于I/O请求延时非常重要的任务,可以打开低延迟模式来降低I/O请求的延时。
NOOP调度器十分简单,其只拥有一个等待队列,每当来一个新的请求,仅仅是按先来先处理的思路将请求插入到等待队列的尾部。
其应用环境主要有以下两种:一是物理设备中包含了自己的I/O调度程序,比如SCSI的TCQ;二是寻道时间可以忽略不计的设备,比如SSD、PCI-E Flash卡等。
DEADLINE调度算法主要针对I/O请求的延时而设计,每个I/O请求都被附加一个最后执行期限。该算法维护两类队列,一是按照扇区排序的读写请求队列;二是按照过期时间排序的读写请求队列。如果当前没有I/O请求过期,则会按照扇区顺序执行I/O请求;如果发现过期的I/O请求,则会处理按照过期时间排序的队列,直到所有过期请求都被发射为止。在处理请求时,该算法会优先考虑读请求。
当系统中存在的I/O请求进程数量比较少时,与CFQ算法相比,DEADLINE算法可以提供较高的I/O吞吐率。
root@src-yinzh:~$ls /sys/block/sda/queue/iosched/
fifo_batch front_merges read_expire write_expire writes_starved
writes_starved:该参数控制当读写队列均不为空时,发射多少个读请求后,允许发射写请求。
read_expire:参数控制读请求的过期时间,单位毫秒。
write_expire:参数控制写请求的过期时间,单位毫秒。
[root@localhost ~]# df -h
文件系统 容量 已用 可用 已用%% 挂载点
/dev/sda1 97G 44G 48G 48% /
tmpfs 24G 0 24G 0% /dev/shm
/dev/sda3 720G 480G 204G 71% /data
[root@localhost ~]# cat /sys/block/sda/queue/scheduler
noop anticipatory deadline [cfq]
[root@localhost ~]# dmesg |grep -i scheduler
io scheduler noop registered
io scheduler anticipatory registered
io scheduler deadline registered
io scheduler cfq registered (default)
[root@localhost ~]#
针对MYSQL数据库服务器的IO调度算法优化设置:
1.CFQ使用于IO大小非常均匀的场景
2.比较复杂的OLTP环境最好使用DeadLine算法
3.IO性能不是瓶颈的时候可以使用Noop算法
4.Anticipatory适合大数据顺序顺序存储的文件服务器,如ftp server和web server,不适合数据库环境,DB服务器不要使用这种算法。
5.固态硬盘比如SSD、Fusion IO上,最简单的NOOP反而可能是最好的算法,因为其他三个算法的优化是基于缩短寻道时间的,而固态硬盘没有所谓的寻道时间且IO响应时间非常短。
实测LSI IO卡,用noop算法性能最佳。