1. 如前文所述,为了执行一个程序,首先do_execve建立数据结构,并将一些数据从用户空间拷贝到内核空间,然后调用search_binary_handler加载可执行文件映像。
int do_execve(char * filename, char __user *__user *argv, char __user *__user *envp, struct pt_regs * regs)2. search_binary_handler()寻找对应的handler。对于elf 文件,即是load_elf_binary。
int search_binary_handler(struct linux_binprm *bprm,struct pt_regs *regs)3. load_elf_binary()读取可执行文件头文件信息,进行简单的一致性检测,分配用户模式的页表,设置栈的起始地址,加载可执行文件映像到内存;然后调用create_elf_tables(); 最后调用start_thread(),执行_start函数开始的代码。
static int load_elf_binary(struct linux_binprm *bprm, struct pt_regs *regs)
4. create_elf_tables()将参数指针,环境变量数组指针压入用户模式的栈。
static int create_elf_tables(struct linux_binprm *bprm, struct elfhdr *exec, unsigned long load_addr, unsigned long interp_load_addr)值得注意的是,create_elf_tables()很可能会在压栈前调整栈指针。比如,在支持超线程的体系结构里面,通过随机化初始栈指针,可以减少进程间在L1上的竞争。如下所示,随机化初始栈指针的页内偏移量,并使得栈指针保持16字节对齐(该示例代码来自嵌入式linux内核,而非通用linux。通用linux的随机空间为8M字节[1])。
unsigned long arch_align_stack(unsigned long sp) { if (!(current->personality & ADDR_NO_RANDOMIZE) && randomize_va_space) sp -= get_random_int() % 8192; return sp & ~0xf; }
在某些体系结构中,首先要完成从逻辑地址到物理地址的转换,然后才能去cache中查找该物理地址是否已经在cache当中。这样,cache命中的代价较高。一种常用的技巧是,在L1中,逻辑地址索引-物理地址比较(virtually indexed, physically tagged)[2]。思路是,利用逻辑地址与物理地址的页内偏移一样的特点,用页内偏移进行索引,页号通过TLB转换成物理页号进行tag比较。这样,可以不经转换,就先索引,从而加快速度。这样,如果两个逻辑地址的块页内偏移一样,它们索引的cache行也就一样,所以需要随机化页内偏移来减少L1的竞争。其缺点是,L1的set大小,不能超过页的大小。换言之:
L1的大小 <= 相联度 * 块的大小 * 页的大小
void start_thread(struct pt_regs *regs, unsigned long new_ip, unsigned long new_sp) { set_user_gs(regs, 0); regs->fs = 0; set_fs(USER_DS); regs->ds = __USER_DS; regs->es = __USER_DS; regs->ss = __USER_DS; regs->cs = __USER_CS; regs->ip = new_ip; regs->sp = new_sp; /* * Free the old FP and other extended state */ free_thread_xstate(current); }
参考:
[1] http://en.wikipedia.org/wiki/Address_space_layout_randomization
[2] Computer Architecture: A Quantitative Approach, Fourth Edition. Page 291-292.