linux内核奇遇记之md源代码解读之六

linux内核奇遇记之md源代码解读之六
转载请注明出处:http://blog.csdn.net/liumangxiong
raid10的run函数与raid5的run函数最大区别在于setup_conf,那就直接深入核心:
3540 static struct r10conf *setup_conf(struct mddev *mddev)
3541 {
3542         struct r10conf *conf = NULL;
3543         int err = -EINVAL;
3544         struct geom geo;
3545         int copies;
3546 
3547         copies = setup_geo(&geo, mddev, geo_new);
3548 
3549         if (copies == -2) {
3550                 printk(KERN_ERR "md/raid10:%s: chunk size must be "
3551                        "at least PAGE_SIZE(%ld) and be a power of 2.\n",
3552                        mdname(mddev), PAGE_SIZE);
3553                 goto out;
3554         }
3555 
3556         if (copies < 2 || copies > mddev->raid_disks) {
3557                 printk(KERN_ERR "md/raid10:%s: unsupported raid10 layout: 0x%8x\n",
3558                        mdname(mddev), mddev->new_layout);
3559                 goto out;
3560         }
3561 
3562         err = -ENOMEM;
3563         conf = kzalloc(sizeof(struct r10conf), GFP_KERNEL);
3564         if (!conf)
3565                 goto out;
3566 
3567         /* FIXME calc properly */
3568         conf->mirrors = kzalloc(sizeof(struct raid10_info)*(mddev->raid_disks +
3569                                                             max(0,-mddev->delta_disks)),
3570                                 GFP_KERNEL);
3571         if (!conf->mirrors)
3572                 goto out;
3573 
3574         conf->tmppage = alloc_page(GFP_KERNEL);
3575         if (!conf->tmppage)
3576                 goto out;
3577 
3578         conf->geo = geo;
3579         conf->copies = copies;
3580         conf->r10bio_pool = mempool_create(NR_RAID10_BIOS, r10bio_pool_alloc,
3581                                            r10bio_pool_free, conf);
3582         if (!conf->r10bio_pool)
3583                 goto out;
3584 
3585         calc_sectors(conf, mddev->dev_sectors);
3586         if (mddev->reshape_position == MaxSector) {
3587                 conf->prev = conf->geo;
3588                 conf->reshape_progress = MaxSector;
3589         } else {
3590                 if (setup_geo(&conf->prev, mddev, geo_old) != conf->copies) {
3591                         err = -EINVAL;
3592                         goto out;
3593                 }
3594                 conf->reshape_progress = mddev->reshape_position;
3595                 if (conf->prev.far_offset)
3596                         conf->prev.stride = 1 << conf->prev.chunk_shift;
3597                 else
3598                         /* far_copies must be 1 */
3599                         conf->prev.stride = conf->dev_sectors;
3600         }
3601         spin_lock_init(&conf->device_lock);
3602         INIT_LIST_HEAD(&conf->retry_list);
3603 
3604         spin_lock_init(&conf->resync_lock);
3605         init_waitqueue_head(&conf->wait_barrier);
3606 
3607         conf->thread = md_register_thread(raid10d, mddev, "raid10");
3608         if (!conf->thread)
3609                 goto out;
3610 
3611         conf->mddev = mddev;
3612         return conf;

3547行,设置raid10布局,这个函数代码很简单,但意义很重要,特别是在处理读写流程里要对这个布局十分清楚。看setup_geo函数:
3498 enum geo_type {geo_new, geo_old, geo_start};
3499 static int setup_geo(struct geom *geo, struct mddev *mddev, enum geo_type new)
3500 {
3501         int nc, fc, fo;
3502         int layout, chunk, disks;
3503         switch (new) {
3504         case geo_old:
3505                 layout = mddev->layout;
3506                 chunk = mddev->chunk_sectors;
3507                 disks = mddev->raid_disks - mddev->delta_disks;
3508                 break;
3509         case geo_new:
3510                 layout = mddev->new_layout;
3511                 chunk = mddev->new_chunk_sectors;
3512                 disks = mddev->raid_disks;
3513                 break;
3514         default: /* avoid 'may be unused' warnings */
3515         case geo_start: /* new when starting reshape - raid_disks not
3516                          * updated yet. */
3517                 layout = mddev->new_layout;
3518                 chunk = mddev->new_chunk_sectors;
3519                 disks = mddev->raid_disks + mddev->delta_disks;
3520                 break;
3521         }
3522         if (layout >> 18)
3523                 return -1;
3524         if (chunk < (PAGE_SIZE >> 9) ||
3525             !is_power_of_2(chunk))
3526                 return -2;
3527         nc = layout & 255;
3528         fc = (layout >> 8) & 255;
3529         fo = layout & (1<<16);
3530         geo->raid_disks = disks;
3531         geo->near_copies = nc;
3532         geo->far_copies = fc;
3533         geo->far_offset = fo;
3534         geo->far_set_size = (layout & (1<<17)) ? disks / fc : disks;
3535         geo->chunk_mask = chunk - 1;
3536         geo->chunk_shift = ffz(~chunk);
3537         return nc*fc;
3538 }

raid10有近拷贝和远拷贝的设置,简单地说,近拷贝就是组成raid1的镜像磁盘数,远拷贝就是每个磁盘划分为几部分存镜像数据。
3503行,这里传进来的参数是geo_new,转到3509行。
3510行,raid10的layout,默认是0x102,即near_copies=2, far_copies=1。
3511行,chunk size。
3512行,数据盘个数。
3522-3526行,参数合法性检查。
3527行,计算near_copies。
3528行,计算far_copies。
3529行,计算far_offset。
3537行,返回拷贝数。
从上面的代码可以知道,raid10每一份可以有nc*fc份拷贝,但实际应用中考虑到磁盘的利用率,一般采用nc=2, fc=1。
回到setup_conf函数中,
3563行,申请struct r10conf内存空间。
3568行,申请struct raid10_info内存空间。
3574行,申请一个page页,用于读磁盘的临时空间。
3579行,设置数据拷贝数。
3580行,创建struct r10bio内存池,那为什么要有这样一个新的bio呢?原因是raid10大多数情况下io流分二个步骤,例如写同一份数据到两个磁盘,重建时先读数据再把数据写到另一个磁盘上,所以需要一个大的bio来跟踪io流过程。
3585行,计算磁盘实际用于阵列条带的扇区数和阵列存放远拷贝的跨度大小。假设我们用整个磁盘空间创建阵列raid10,但是由于每个磁盘空间大小有差别,阵列会按最小的磁盘空间来创建,这里实际用于阵列的磁盘空间将小于磁盘空间。再次,如果磁盘空间不是整数倍条块大小,这时多余部分还会被空闲出来。同样地,如果raid10远拷贝为2,这时磁盘条块数不能整除3,那么又有一部分磁盘空间空闲出来。正是因为如此,conf->dev_sectors会小于等于mddev->dev_sectors。理解了这些,那么看calc_sectors函数就容易了:
3468 static void calc_sectors(struct r10conf *conf, sector_t size)
3469 {
3470         /* Calculate the number of sectors-per-device that will
3471          * actually be used, and set conf->dev_sectors and
3472          * conf->stride
3473          */
3474 
3475         size = size >> conf->geo.chunk_shift;
3476         sector_div(size, conf->geo.far_copies);
3477         size = size * conf->geo.raid_disks;
3478         sector_div(size, conf->geo.near_copies);
3479         /* 'size' is now the number of chunks in the array */
3480         /* calculate "used chunks per device" */
3481         size = size * conf->copies;
3482 
3483         /* We need to round up when dividing by raid_disks to
3484          * get the stride size.
3485          */
3486         size = DIV_ROUND_UP_SECTOR_T(size, conf->geo.raid_disks);
3487 
3488         conf->dev_sectors = size << conf->geo.chunk_shift;
3489 
3490         if (conf->geo.far_offset)
3491                 conf->geo.stride = 1 << conf->geo.chunk_shift;
3492         else {
3493                 sector_div(size, conf->geo.far_copies);
3494                 conf->geo.stride = size << conf->geo.chunk_shift;
3495         }
3496 }

3470行,计算每个磁盘实际使用扇区数,并设置conf->dev_sectors和conf->stride。stride是什么意思呢?大步,跨幅。就是同一磁盘上每个far_copies之间的距离,这里有两个可能,一是远拷贝数据间隔存放,一是远拷贝数据相邻存放。conf->geo.far_offset不为0时表示相邻存放,为0时表示间隔存放,间隔多远呢?就由conf->geo.stride决定。
3475行,函数传入参数size为磁盘空间大小,这里转换为条块数。
3476行,除以远拷贝数,转换为单份数据空间大小。
3477-3478行,乘以数据盘数,再除以近拷贝数,转换为总数据空间大小(没有拷贝)。
3481行,乘以拷贝数,可用阵列空间大小。
3486行,除以数据盘数,每个磁盘用于阵列的实际使用空间大小。
3488行,乘以条块大小,单位由条块数转换为扇区数。
这里为什么又乘又除的呢?这就好比有一张长方形的纸,我们要用这张纸分出四个最大的正方形出来,那么就选个角按45度折起来,然后把之外的部分裁掉。
3490行,远拷贝是相邻存放的,那么跨幅就是一个条块。
3493行,远拷贝是间隔存放的,那么跨幅就是磁盘实际使用空间大小size除以远拷贝数。

再次返回到setup_conf函数中。
3586行,没有reshape操作,reshape等于MaxSector。
3601-3611行,conf初始化。
3607行,创建raid10d主线程。
这样setup_conf函数就结束了,run函数剩余部分都是按步就班。
小结一下,各种级别阵列运行函数建立与磁盘之间的关联,建立数据流通道,申请数据流所需要的资源。不同的是,由于阵列级别差异,阵列与磁盘之间关联不一样,申请资源也不一样。
阵列已经运行起来了,那么第一件事情就是同步了。下一节开始介绍阵列同步。
转载请注明出处:http://blog.csdn.net/liumangxiong

你可能感兴趣的:(linux内核奇遇记之md源代码解读之六)