摘要:linux刚刚加电启动时,如何从实模式进入保护模式?启动分页机制的前提是什么?如何保证分页机制之前和之后通过实地址和虚拟地址都能访问到同一个物理地址呢?内核页表是如何进行初始化的?用户进程不能访问内核的数据是在初始化的哪个阶段决定的?这些内容,都牵扯到linu的进程页表和内核页表,以及内核页表的初始化。本文也主要为你解答这些疑问.
本文来源:进程页表和内核页表:页表的初始化
关键数据结构:
PAGE_OFFSET: 0xc000000
进程地址空间以0xc0000000(由宏PAGE_OFFSET定义)分割成两个部分,进程运行在用户态,产生的地址小于0xc0000000;进程运行在核心态,产生的地址大于0xc0000000.但是,在某些情况下,内核为了访问数据必须访问用户态线性地址空间。
进程地址空间,其中的内核态部分对于所有的进程都是一样的,等于主内核页全局目录的相应表项。
内核维护着自己的页表,驻留在所谓的主内核页全局目录中。我们将在此处解释:内核如何初始化自己的页表。
1)第一阶段:内核镜像刚刚装入内存,CPU处于实模式,分页功能尚未开启,内核创建一个有限的地址空间,128K,仅仅将内核装入RAM并初始化核心数据。
2)第二阶段:内核充分利用剩余的RAM建立页表,下面,我们将详细讨论这个页表的建立过程。
2.1临时内核页表
关键数据结构:
swapper_pg_dir:临时页全局目录对应的虚拟地址。
pg0:第一个页所在的物理地址
临时页全局目录在编译内核过程中静态初始化,而临时页全局目录存放在swapper_pg_dir之中。临时页表从pg0变量处开始存放。这里,我们假设内核使用的段,临时页表和128KB的内存初始化数据可以存放在前8M的RAM之中。为了映射这8M,我们需要用到2个页表。
开启分页的首要任务是确保实模式和保护模式下都能对前8M进行寻址(参考其中有关控制寄存器CR3的部分)。就是说,从0x0000000到0x007fffff的线性地址,从0xc0000000到0xc07fffff均可映射到物理地址范围:0x00000000到0x007fffff。
是startup_32()来初始化的。它的等价代码(这段代码见于2.4.0内核,2.6内核以后不是这样)如下:
98 movl $swapper_pg_dir-__PAGE_OFFSET,%eax
99 movl %eax,%cr3 /* set the page table pointer.. */
100 movl %cr0,%eax
101 orl $0x80000000,%eax
102 movl %eax,%cr0 /* ..and set paging (PG) bit */
* 0和0x300设置位pg0的物理地址,1和0x301设置成pg1的地址
* 四项的present、R/W,U/S置位
* 四项的accessed、dirty、pcd和pagesize位置零
2.2RAM小于896M时候的最终内核页表
关键数据结构:
关键函数:
宏__pa和__va分别进行相应区域的物理地址和线性地址之间的转换:位于内核空间的转换
由内核页表所提供的最终映射必须把从0xc0000000开始的线性地址映射到从0开始的物理地址。其中宏__pa和__va分别进行相应区域的物理地址和线性地址之间的转换。
主内核全局目仍然在swapee_page_dir变量中,它由paging_init()函数进行初始化:
444 void __init paging_init(void)
445 {
446 pagetable_init();
447
448 __asm__( "movl %%ecx,%%cr3\n" ::"c"(__pa(swapper_pg_dir)));
449
450 #if CONFIG_X86_PAE
451 /*
452 * We will bail out later - printk doesnt work right now so
453 * the user would just see a hanging kernel.
454 */
455 if (cpu_has_pae)
456 set_in_cr4(X86_CR4_PAE);
457 #endif
458
459 __flush_tlb_all();
460
461 #ifdef CONFIG_HIGHMEM
462 kmap_init();
463 #endif
464 {
465 unsigned long zones_size[MAX_NR_ZONES] = {0, 0, 0};
466 unsigned int max_dma, high, low;
467
468 max_dma = virt_to_phys((char *)MAX_DMA_ADDRESS) >> PAGE_SHIFT;
469 low = max_low_pfn;
470 high = highend_pfn;
471
472 if (low < max_dma)
473 zones_size[ZONE_DMA] = low;
474 else {
475 zones_size[ZONE_DMA] = max_dma;
476 zones_size[ZONE_NORMAL] = low - max_dma;
477 #ifdef CONFIG_HIGHMEM
478 zones_size[ZONE_HIGHMEM] = high - low;
479 #endif
480 }
481 free_area_init(zones_size);
482 }
483 return;
484 }
1)使用pagetable_init()建立页表项
2)将swapper_pg_dir的物理地址写入cr3
3)如果CPU编译内核的时候支持PAE,则将CR4控制寄存器的PAE置位
4)调用__flush_tlb_all()使得所有的TLB无效
pagetable_init()执行的操作依赖于RAM容量和CPU模型,对全局目录的初始化代码等价如下:
314 static void __init pagetable_init (void)
315 {
316 unsigned long vaddr, end;
317 pgd_t *pgd, *pgd_base;
318 int i, j, k;
319 pmd_t *pmd;
320 pte_t *pte;
321
322 /*
323 * This can be zero as well - no problem, in that case we exit
324 * the loops anyway due to the PTRS_PER_* conditions.
325 */
326 end = (unsigned long)__va(max_low_pfn*PAGE_SIZE);
327
328 pgd_base = swapper_pg_dir;
329 #if CONFIG_X86_PAE
330 for (i = 0; i < PTRS_PER_PGD; i++) {
331 pgd = pgd_base + i;
332 __pgd_clear(pgd);
333 }
334 #endif
335 i = __pgd_offset(PAGE_OFFSET);
336 pgd = pgd_base + i;
337
338 for (; i < PTRS_PER_PGD; pgd++, i++) {
339 vaddr = i*PGDIR_SIZE;
340 if (end && (vaddr >= end))
341 break;
342 #if CONFIG_X86_PAE
343 pmd = (pmd_t *) alloc_bootmem_low_pages(PAGE_SIZE);
344 set_pgd(pgd, __pgd(__pa(pmd) + 0x1));
345 #else
346 pmd = (pmd_t *)pgd;
347 #endif
348 if (pmd != pmd_offset(pgd, 0))
349 BUG();
350 for (j = 0; j < PTRS_PER_PMD; pmd++, j++) {
351 vaddr = i*PGDIR_SIZE + j*PMD_SIZE;
352 if (end && (vaddr >= end))
353 break;
354 if (cpu_has_pse) {
355 unsigned long __pe;
356
357 set_in_cr4(X86_CR4_PSE);
358 boot_cpu_data.wp_works_ok = 1;
359 __pe = _KERNPG_TABLE + _PAGE_PSE + __pa(vaddr);
360 /* Make it "global" too if supported */
361 if (cpu_has_pge) {
362 set_in_cr4(X86_CR4_PGE);
363 __pe += _PAGE_GLOBAL;
364 }
365 set_pmd(pmd, __pmd(__pe));
366 continue;
367 }
368
369 pte = (pte_t *) alloc_bootmem_low_pages(PAGE_SIZE);
370 set_pmd(pmd, __pmd(_KERNPG_TABLE + __pa(pte)));
371
372 if (pte != pte_offset(pmd, 0))
373 BUG();
374
375 for (k = 0; k < PTRS_PER_PTE; pte++, k++) {
376 vaddr = i*PGDIR_SIZE + j*PMD_SIZE + k*PAGE_SIZE;
377 if (end && (vaddr >= end))
378 break;
379 *pte = mk_pte_phys(__pa(vaddr), PAGE_KERNEL);
380 }
381 }
382 }
383
384 /*
385 * Fixed mappings, only the page table structure has to be
386 * created - mappings will be set by set_fixmap():
387 */
388 vaddr = __fix_to_virt(__end_of_fixed_addresses - 1) & PMD_MASK;
389 fixrange_init(vaddr, 0, pgd_base);
390
391 #if CONFIG_HIGHMEM
392 /*
393 * Permanent kmaps:
394 */
395 vaddr = PKMAP_BASE;
396 fixrange_init(vaddr, vaddr + PAGE_SIZE*LAST_PKMAP, pgd_base);
397
398 pgd = swapper_pg_dir + __pgd_offset(vaddr);
399 pmd = pmd_offset(pgd, vaddr);
400 pte = pte_offset(pmd, vaddr);
401 pkmap_page_table = pte;
402 #endif
403
404 #if CONFIG_X86_PAE
405 /*
406 * Add low memory identity-mappings - SMP needs it when
407 * starting up on an AP from real-mode. In the non-PAE
408 * case we already have these mappings through head.S.
409 * All user-space mappings are explicitly cleared after
410 * SMP startup.
411 */
412 pgd_base[0] = pgd_base[USER_PTRS_PER_PGD];
413 #endif
414 }
2.3当RAM在896M和4096M之间的最终内核页表
这种情况下,并不把RAM全部映射到内核地址空间。linux在初始化阶段将把一个具有896MB的窗口映射到内核线性地址空间。如果一个程序需要对896M以上的地址进行寻址,那么就必须把线性地址映射到对应的RAM,这意味这修改某些页表项的值。内核使用与前一种情况相同的代码来初始化页全局目录。
2.4当RAM大于4096MB时候的最终内核页表
此时,线性地址只有1G和RAM大于1G,此处的映射就可能涉及到PAE和高端内存,详细可以参考高端内存。此时,linux仅仅映射前896M的RAM,剩下的不进行映射(剩下的就用于存放用户数据了)。与前两种的主要差异在于,此时,采用三级分页模型,代码如下: