浅析armlinux-paging_init()->free_area_init_core()函数

    //----------------------------------------

    //1.mm/Numa.c->free_area_init_node()

    void __init free_area_init_node(int nid, pg_data_t *pgdat, struct page *pmap,

     unsigned long *zones_size, unsigned long zone_start_paddr,

     unsigned long *zholes_size)

    {

     free_area_init_core(0, &contig_page_data, &mem_map, zones_size,

     zone_start_paddr, zholes_size, pmap);

    }

    //----------------------------------------

    //2.mm/Page_alloc.c->free_area_init_core()

    void __init free_area_init_core(int nid, pg_data_t *pgdat, struct page **gmap,

     unsigned long *zones_size, unsigned long zone_start_paddr,

     unsigned long *zholes_size, struct page *lmem_map)

    {

     unsigned long i, j;

     unsigned long map_size;

     unsigned long totalpages, offset, realtotalpages;

     const unsigned long zone_required_alignment = 1UL (MAX_ORDER-1);

     if (zone_start_paddr & ~PAGE_MASK)//zone_start_paddr一定是要页对齐的

     BUG();

     totalpages = 0;

    //#define MAX_NR_ZONES 3

    //累加所有zone大小到totalpages

     for (i = 0; i MAX_NR_ZONES; i++) {

     unsigned long size = zones_size;

     totalpages += size;

     }

     realtotalpages = totalpages;

     if (zholes_size)

     for (i = 0; i MAX_NR_ZONES; i++)

     realtotalpages -= zholes_size;//挖掉每一个zone内部的holes空间

     printk("On node %d totalpages: %lu\n", nid, realtotalpages);

    //每一个4k物理页都对应一个mem_map_t来管理

     map_size = (totalpages + 1)*sizeof(struct page);

    //多申请1个sizeof(struct page),因为可能会调整掉第一个sizeof(struct page)大小空间的前几个字节

     if (lmem_map == (struct page *)0) {

    lmem_map = (struct page *) alloc_bootmem_node(pgdat, map_size);

    //将申请到的map_size大小的空间起始地址lmem_map进行sizeof(mem_map_t)字节对齐调整,其对齐基址为PAGE_OFFSET

    lmem_map = (struct page *)(PAGE_OFFSET + MAP_ALIGN((unsigned long)lmem_map - PAGE_OFFSET));

     }

     *gmap = pgdat->node_mem_map = lmem_map;//存储到mem_map中,之后mem_map=lmem_map

     pgdat->node_size = totalpages;

     pgdat->node_start_paddr = zone_start_paddr;

     pgdat->node_start_mapnr = (lmem_map - mem_map);//lmem_map和mem_map相对距离,距离多少个mem_map_t

     pgdat->nr_zones = 0;

     offset = lmem_map - mem_map;

     for (j = 0; j MAX_NR_ZONES; j++) {

     zone_t *zone = pgdat->node_zones + j;

     unsigned long mask;

     unsigned long size, realsize;

     zone_table[nid * MAX_NR_ZONES + j] = zone;

     realsize = size = zones_size[j];

     if (zholes_size)

     realsize -= zholes_size[j];

    //打印输出内容如下:

    //On node 0 totalpages: 8192

    //zone(0): 8192 pages.

    //zone(1): 0 pages.

    //zone(2): 0 pages.

     printk("zone(%lu): %lu pages.\n", j, size);

     zone->size = size;

     zone->name = zone_names[j];

    //zone_names[0]="DMA"

    //zone_names[1]="Normal"

    //zone_names[2]="HighMem"

    //zone只是内核为了管理方便做的一种逻辑上的划分,并不存在这种物理硬件单元[gliethttp]

     zone->lock = SPIN_LOCK_UNLOCKED;

     zone->zone_pgdat = pgdat;

     zone->free_pages = 0;

     zone->need_balance = 0;

     if (!size)

     continue;

    //用于进程睡眠在当前页上的waitqueue个数

     zone->wait_table_size = wait_table_size(size);

     zone->wait_table_shift =

     BITS_PER_LONG - wait_table_bits(zone->wait_table_size);

    //申请zone->wait_table_size*sizeof(wait_queue_head_t)个字节连续数据

     zone->wait_table = (wait_queue_head_t *)

     alloc_bootmem_node(pgdat, zone->wait_table_size

     * sizeof(wait_queue_head_t));

    //初始化wait_table中wait_queue_head表项

     for(i = 0; i zone->wait_table_size; ++i)

     init_waitqueue_head(zone->wait_table + i);

     pgdat->nr_zones = j+1;//记录当前zone的下一个zone号

    //static int zone_balance_ratio[MAX_NR_ZONES] __initdata = { 128, 128, 128, };

    //static int zone_balance_min[MAX_NR_ZONES] __initdata = { 20 , 20, 20, };

    //static int zone_balance_max[MAX_NR_ZONES] __initdata = { 255, 255, 255, };

     mask = (realsize / zone_balance_ratio[j]);

     if (mask zone_balance_min[j])

     mask = zone_balance_min[j];

     else if (mask > zone_balance_max[j])

     mask = zone_balance_max[j];

    //系统中空闲物理页数绝对不要少于pages_min

    //该zone区内存最底限,到达该值时,分配器将同步调用kswapd,

    //让其将内核中的某些页交换到外存,从而保证系统中有足够的空闲页块.

     zone->pages_min = mask;

    //当系统中空闲物理页数少于pages_low时,开始强化交换

     zone->pages_low = mask*2;

    //当空闲物理页数少于pages_high时,启动后台交换;而当空闲物理页数大于pages_high时,内核交换守护进程什么也不做

     zone->pages_high = mask*3;//该zone区内存临界值

    //管理每个4k页的数据结构mem_map_t的起始地址zone->zone_mem_map

     zone->zone_mem_map = mem_map + offset;

     zone->zone_start_mapnr = offset;//lmem_map和mem_map相对距离,距离多少个mem_map_t

     zone->zone_start_paddr = zone_start_paddr;//该zone的起始地址

    //该zone_start_paddr应该是2^9,即:512页对齐,即:512*4k=2M字节对齐

     if ((zone_start_paddr >> PAGE_SHIFT) & (zone_required_alignment-1))

     printk("BUG: wrong zone alignment, it will crash\n");

     for (i = 0; i size; i++) {

     struct page *page = mem_map + offset + i;

    //对每一个4k页对应的mem_map_t管理结构进行如下相同的初始化

     set_page_zone(page, nid * MAX_NR_ZONES + j);//设置flag的zone标志区

     set_page_count(page, 0);//设置使用本页的用户数目为0

     SetPageReserved(page);//设置本页flag为PG_reserved,由系统保留使用

     INIT_LIST_HEAD(&page->list);//初始化list的头和屁股使其都指向自己

     if (j != ZONE_HIGHMEM)

     set_page_address(page, __va(zone_start_paddr));//对于我的armlinux版本,此为空

     zone_start_paddr += PAGE_SIZE;//因为上一句没有,所以此举也无用

     }

     offset += size;

     for (i = 0; ; i++) {

    //linux的物理页分配采用链表和位图结合的方法.linux内核定义了一个称为free_area的数组,

    //该数组的每一项描述某一种页块的信息

    //zone->free_area[0]--2^0=1页空闲链表

    //zone->free_area[1]--2^1=2页空闲链表

    //zone->free_area[2]--2^2=4页空闲链表

    //...

    //zone->free_area[9]--2^9=512页空闲链表

    //数组free_area的每项包含三个元素:next、prev和map.指针next、prev用于将物理页块结构mem_map_t连结成一个双向链表;

    //而map则是记录这种页块组分配情况的位图,例如,位图的第N位为1,表明第N个页块是空闲的.从图中也可以看到,

    //用来记录页块组分配情况的位图大小各不相同,显然页块越小,位图越大.free_area数组的大小为10或12(可调),

    //因此它管理的最小内存块的大小是1页(4K),最大内存块的大小是512页(2M)或2048页(8M).

    //页分配代码使用向量表free_area来分配和回收物理页

     unsigned long bitmap_size;

     INIT_LIST_HEAD(&zone->free_area.free_list);//初始化free_area的链表

     if (i == MAX_ORDER-1) {

     zone->free_area.map = NULL;

    //我的armlinux,MAX_ORDER=10,所以一共2^9=512个页,所以kmalloc最多申请512个连续页=512*4k=2M

     break;

     }

    //对于Buddy(伙伴)算法,采用模型:index >> (i+1);[i为order值,index一般是"size-1"]

    //所以Buddy管理的内存总大小为size-1,记得在念高中的时候有这样一道数学题

    //s=1/2+1/4+1/8+...1/2^n的值是多少,怎么计算呢?先将等式两端分别乘上2,即:

    //2s=1+1/2+1/4+...1/2^(n+1)=逼近1+s,所以s=逼近1,但永远都达不到1.

    //所以从这个角度我们可以看到Buddy的算法中,不论MAX_ORDER有多大10,10000...,甚至无穷,也不会把size-1切割到0

    //size-1数据穷尽,当然这还要考虑小于1字节时已经不存在意义的问题,

    //但是MAX_ORDER已经有很强的伸缩性了[gliethttp 2007-08-05]

    //free_area[0].map位图大小=((size-1)/ 2)/8=(size-1) >> (0+1+3)

    //free_area[1].map位图大小=((size-1)/ 4)/8=(size-1) >> (1+1+3)

    //...

    //free_area[9].map位图大小=((size-1)/1024)/8=(size-1) >> (9+1+3)

     bitmap_size = (size-1) >> (i+4);

    //因为所有bitmap的操作都是long类型4字节操作,所以需要将bitmap_size调整成>=先前bitmap_size的4倍数

    //可以假想bitmap_size&0x03=1,出现零头,怎么办,显然我们不能不管,所以

    //#define LONG_ALIGN(x) (((x)+(sizeof(long))-1)&~((sizeof(long))-1))

    //(1+3)&~3这样对齐到了上边界,

    //但是为什么要传递bitmap_size+1进行调整呢,这是为了,当bitmap_size&0x03=0时,它还要进行

    //(0+1+3)&~3,这样就到了下一个对齐单元,但明明已经对齐了,为什么还要加,我想这可能和统一的风格和舒适度有关系吧!

    //所以调整后的bitmap_size肯定大于先前为调整的bitmap_size,1~4字节之间

     bitmap_size = LONG_ALIGN(bitmap_size+1);

     zone->free_area.map = //返回32字节对齐后的bitmap_size大小虚拟地址空间首地址

    //请参考《浅析armlinux-setup_arch()->alloc_bootmem_low_pages()函数5-1》[http://gliethttp.cublog.cn]

     (unsigned long *) alloc_bootmem_node(pgdat, bitmap_size);

     }

     }

     build_zonelists(pgdat);//将zone登记到zonelist中

    }

    //----------------------------------------

    //3.

    #define PAGES_PER_WAITQUEUE 256

    static inline unsigned long wait_table_size(unsigned long pages)

    {unsigned long size = 1;

     pages /= PAGES_PER_WAITQUEUE;//8192/256=32

     while (size pages)

     size = 1;//计算上边界

     size = min(size, 4096UL);//权衡一个用来进程睡眠wait queue的合理大小

     return size;

    }

    //----------------------------------------

    //4.

    static inline unsigned long wait_table_bits(unsigned long size)

    {

    //fft[find first zero in word]从低位开始找到第一个0的位置

    //所以这里是查找size中第一个出现1的位置

     return ffz(~size);

    }

    //----------------------------------------

    //5.

    static inline void set_page_zone(struct page *page, unsigned long zone_num)

    {

     page->flags &= ~(~0UL ZONE_SHIFT);//清0高8位

     page->flags |= zone_num ZONE_SHIFT;//将zone_num送到高8位

    }

    //----------------------------------------

    //6.include/linux/Mm.h->SetPageReserved()

    #define SetPageReserved(page) set_bit(PG_reserved, &(page)->flags)

    //arch/arm/lib/setbit.S->set_bit()

    ENTRY(set_bit)

     and r2, r0, #7//r0在字节内的移位量0~7

     mov r3, #1

     mov r3, r3, lsl r2//将计算偏移后结果存入r3

     save_and_disable_irqs ip, r2//禁用中断,同时ip=cpsr

     ldrb r2, [r1, r0, lsr #3]//读取第r0位对应字节处的字节数据,即:r1+r0/8

     orr r2, r2, r3//相应位置1

     strb r2, [r1, r0, lsr #3]//回写

     restore_irqs ip

     RETINSTR(mov,pc,lr)

    //----------------------------------------

    //7.mm/Page_alloc.c->build_zonelists()

    static inline void build_zonelists(pg_data_t *pgdat)

    {int i, j, k;

    //#define GFP_ZONEMASK 0x0f

     for (i = 0; i = GFP_ZONEMASK; i++) {

     zonelist_t *zonelist;

     zone_t *zone;

     zonelist = pgdat->node_zonelists + i;

    //对memset的理解可参见《浅析armlinux-__arch_clear_user内存拷贝函数之3》[http://gliethttp.cublog.cn]

     memset(zonelist, 0, sizeof(*zonelist));

     j = 0;

    //#define ZONE_DMA 0

    //#define ZONE_NORMAL 1

    //#define ZONE_HIGHMEM 2

    //所以GFP_ZONEMASK的所有i值,都被0x3掩掉

     k = ZONE_NORMAL;

     if (i & __GFP_HIGHMEM)

     k = ZONE_HIGHMEM;

     if (i & __GFP_DMA)

     k = ZONE_DMA;

     switch (k) {//我的armlinux版本只提供3种zone

     default:

     BUG();

     case ZONE_HIGHMEM:

     zone = pgdat->node_zones + ZONE_HIGHMEM;

     if (zone->size) {

    #ifndef CONFIG_HIGHMEM

     BUG();

    #endif

     zonelist->zones[j++] = zone;//将ZONE_HIGHMEM对应的node填入表中

     }

     case ZONE_NORMAL:

     zone = pgdat->node_zones + ZONE_NORMAL;

     if (zone->size)

     zonelist->zones[j++] = zone;//将ZONE_NORMAL对应的node填入表中

     case ZONE_DMA:

     zone = pgdat->node_zones + ZONE_DMA;

     if (zone->size)

     zonelist->zones[j++] = zone;//将ZONE_DMA对应的node填入表中

     }

     zonelist->zones[j++] = NULL;//给node链表追加结尾

     }

    }

转载出处: http://blog.chinaunix.net/u1/38994/showart_354178.html

你可能感兴趣的:(linux内核)