通用块层

概述

在块设备上的操作，涉及内核中的多个组成部分，如图1所示。假设一个进程使用系统
调用read()读取磁盘上的文件。下面步骤是内核响应进程读请求的步骤;

linux-kernel-bio.png

系统调用read()会触发相应的VFS(Virtual Filesystem Switch)函数，传递的参数
有文件描述符和文件偏移量。
VFS确定请求的数据是否已经在内存缓冲区中;若数据不在内存中，确定如何执行读操作。
假设内核必须从块设备上读取数据，这样内核就必须确定数据在物理设备上的位置。这由映射层(Mapping Layer)来完成,主要执行两步
1. 内核确定该文件所在的文件系统的块大小，并根据文件块的大小计算所请求数据的长度。本质上，文件被看作拆分成许多块，因此内核确定请求数据所在的块号（文件开始位置的相对索引）。
2. 接下来，映射层调用一个具体的文件系统的函数，它访问文件的磁盘节点，然后根据逻辑块号确定所请求数据在磁盘上的位置。事实上，磁盘也被看作分成许多块，因此内核必须确定存放所请求数据的块对应的号（磁盘或分区开始位置的相对索引）。由于一个文件可能存储在磁盘上的不连续块中，因此存放在磁盘索引节点中的数据结构将每个文件块号映射为一个逻辑块号。
内核可以对块设备发出读请求。内核利用通用块层(generic block layer)启动I/O操作来传送所请求的数据。一般而言， 每个I/O操作只针对磁盘上一组连续的块。由于请求的数据不必位于相邻的块中，所以通用块层可能启动几次I/O操作。每次I/O操作是由一个“块I/O”(简单block io 即bio)的结构来描述，它收集底层组件需要的所有信息以满足所发出的请求。
通用块层为所有的块设备提供了一个抽象的视图，因而隐藏了硬件块设备间的差异性。几乎所有的块设备都是磁盘。所以通用块层也提供了一些数据结构来描述“磁盘”或"磁盘分区"
通用块层的下面“I/O调度程序”根据预定义的内核策略将待处理的I/O数据传送请求进行归类。调度程序的作用是把物理介质上相邻的数据请求聚集在一起。
-最后，块设备驱动程序向磁盘控制器的三件接口发送适当的命令。从而进行实际的数据传送。

对于(1)、(2)两个步骤，在Linux虚拟文件系统中，我们讨论了VFS(Virtual Filesystem Switch)主要数据结构和操作，结合相关系统调用(如sys_read()、sys_write()等) 的源码，我们不难理解VFS层相关的操作和实现。

块设备中的数据存储涉及了许多内核的组件；每个组件采用不同长度的块来管理磁盘数据：

硬件块设备控制器采用称为扇区的固定长度的块来传递数据。因此，I/O调度程序和块驱动程序必须管理数据扇区。
虚拟文件系统、映射层和文件系统将磁盘数据存放在称为块的逻辑单元中。一个块对应文件系统中一个最小的磁盘存储单元。
块设备驱动程序应该能够处理数据的段:一个段就是一个内存页或内存内的一部分，它们包括磁盘上物理相邻的数据块。
磁盘高速缓存作用于磁盘数据的页上,每页正好装在一个页框中。
通用块层将所有的上层和下层的组件组合在一起，因此它了解数据的扇区、块、段以及页。
注:但是，如果从原始块设备文件进行读访问，映射层就不调用具体文件系统的方法，而是把块设备文件中的偏移量转换成磁盘或在对应该设备文件的磁盘分区中的位置。
即使有许多不同的数据块，它们通常也是共享相同的物理RAM单元。例如：图2显示了一个具有4K的页的构造。上层内核组件将页看成是由4个1K字节组成的块缓冲区。块设备驱动程序正在传送页中的后3个块，因此这3块被插入到涵盖了后3K字节的段中。硬盘控制器将段看成由6个512字节的扇区组成。

page-disk-layout.png

通用块层

通用块层是一个内核组件，它处理来自系统中的所有块设备发出的请求。

BIO结构

通用块层的核心数据结构是一个称为BIO的描述符，它描述了块设备的IO操作。每个bio结构都包含一个磁盘存储区标识符（存储区中的起始扇区和扇区数目）和一个或多个描述符与IO操作相关的内存区的段。bio由struct bio 数据结构描述，源代码如下：
struct bio
https://github.com/sparrowzoo/linux/blob/master/include/linux/blk_types.h

bio中的每个段是一个由bio_vec数据结构描述的
源代码如下:
https://github.com/sparrowzoo/linux/blob/master/include/linux/bvec.h
在块IO操作期间，bio描述符的内容一直保持更新。例如，果块设备驱动程序在一次分散-聚集DMA操作中不能完成全部的数据传送，那么bio中的bi_idx字段会不断更新来指向待传送的第一个段。

struct bvec_iter {
    sector_t        bi_sector;  /* device address in 512 byte
                           sectors */
    unsigned int        bi_size;    /* residual I/O count */

    unsigned int        bi_idx;     /* current index into bvl_vec */

    unsigned int            bi_bvec_done;   /* number of bytes completed in
                           current bvec */
};

为了从索引bi_idx指向的当前段开始不断重复bio中的段，设备驱动程序可以执行宏bio_for_each_segment。
当通用块层启动一次新的IO操作时，调用bio_alloc函数分配一个新的bio结构。通常，bio结构是由slab分配器分配的。但是，当内存不足时，内核也会使用一个备用的bio小内存池。内核也为bio_vec结构分配内存池。毕竟，分配一个bio结构而不能分配其中的段描述符也是没有什么意义的。相应地bio_put函数减少bio中中引用计数器bi_cnt的值，如果该值小于0，则释放bio结构以及相关的bio_vec结构。

磁盘和磁盘分区的表示
磁盘是一个由通用块层处理的逻辑块设备。通常一个磁盘对应一个硬件块设备，例如硬盘、软盘或光盘。但是，磁盘也可以是一个虚拟设备，它建立在几个物理磁盘分区之上或一些RAM专用页中的内存页上。在任何情形中，借助通用块层提供的服务。上层内核组件可以以同样的方式工作在所有磁盘上。

磁盘由gendisk对象描述源码注释
https://github.com/sparrowzoo/linux/blob/master/include/linux/genhd.h

块设备操作源码注释
https://github.com/sparrowzoo/linux/blob/master/include/linux/blkdev.h

通常硬盘被划分成几个逻辑分区。每块块设备文件要么代表整个磁盘，要么代表磁盘中的某一个分区。例如，一个主设备号为3、次设备号为0的设备文件/dev/had代表的可能是一个主IDE磁盘；该磁盘中的前两个分区分别由设备文件/dev/hda1和/dev/hda2代表，它们的主设备号都是3，而次设备号分别为1和2。一般而言，磁盘中的分区是由连续的次设备号来区分的。
如果将一个磁盘分成了几个分区，那么其分区表保存在hd_struct结构数组中，该数的地址存放在gendisk对象的part (struct disk_part_tbl __rcu *part_tbl; 源码版本不一致)字段中。通过磁盘内分区的相对索引对该数组进行索引。hd_struct数据结构如下:

struct disk_part_tbl {
    struct rcu_head rcu_head;
    int len;
    struct hd_struct __rcu *last_lookup;
    struct hd_struct __rcu *part[];
};

struct hd_struct {
    sector_t start_sect;
    /*
     * nr_sects is protected by sequence counter. One might extend a
     * partition while IO is happening to it and update of nr_sects
     * can be non-atomic on 32bit machines with 64bit sector_t.
     */
    sector_t nr_sects;
    seqcount_t nr_sects_seq;
    sector_t alignment_offset;
    unsigned int discard_alignment;
    struct device __dev;
    struct kobject *holder_dir;
    int policy, partno;
    struct partition_meta_info *info;
#ifdef CONFIG_FAIL_MAKE_REQUEST
    int make_it_fail;
#endif
    unsigned long stamp;
    atomic_t in_flight[2];
#ifdef  CONFIG_SMP
    struct disk_stats __percpu *dkstats;
#else
    struct disk_stats dkstats;
#endif
    struct percpu_ref ref;
    struct rcu_head rcu_head;
};

当内核发现系统中一个新的磁盘时（在启动阶段，或将一个可移动介质插入到一个驱动器中时，或在运行期附加一个外置磁盘时），就调用alloc_disk()函数，该函数分配并初始化一个新的gendisk对象。如果新磁盘被分成了几个分区，那么alloc_disk还会分配并初始化一个适当的hd_struct类型的数组。然后，内核调用add_disk()函数将gendisk对象插入到通用块层的数据结构中。

提交请求
我们介绍一下当向通用块层提交一个IO操作请求时，内核所执行的步骤顺序。我们假定(因为上文提到一个IO,如果数据不相邻会被拆成多个请求)被请求的数据块在磁盘上是相邻的，并且内核已经知道了它们的物理位置。

第一步是执行bio_alloc函数分配一个新的bio描述符。然后通过设置一些字段值来初始化bio描述符（bi_sector\bi_size\bi_bdev\bi_io_vec\bi_rw\bi_end_io）
一旦bio描述符被进行了适当的初始化，内核就调用generaic_make_request函数，该函数是通用块层的主要入口点。
1. 获取与块设备相关的请求队列
2. 调用blk_partition_remap()函数
至此，能用块层 IO调度程序以及设备驱动程序将忘记磁盘分区的存在，直接作用于整个磁盘。
1. 调用q_make_request_fn方法将bio请求插入到请求队列中。

通用块层

概述

相关概念

通用块层

你可能感兴趣的:(通用块层)