以下资料全部来自Adam的diploma thesis (http://os.inf.tu-dresden.de/papers_ps/adam-diplom.pdf),如果你有时间,可以多多看看他的毕业论文,应该理解的更清楚。 L4Linux是基于Fiasco微内核的跟普通Linux二进制完全兼容的Linux内核,目前的版本的是Linux-2.6.25,L4Linux-2.0.x, L4Linux-2.2.x和L4Linux-2.4.x已经不再维护。L4Linux是运行Fiasco用户空间的一个进程,由很多线程组成。而Native Linux则是运行在内核空间,如果不考虑kernel thread的话,那么Native Linux就相当于一个运行在内核空间的大进程,它实现了从处理器调度、内存管理到设备管理等所有一个操作系统的必备的功能。 L4Linux也是一个Task(Process),由很多L4的线程组成,每一个线程完成一定的功能,如下: 1)Linux Server Thread,这个线程的功能就是执行Linux kernel code。它是一个idle loop,等待处理来自Linux用户进程的系统调用,Exceptions和Page Faults。所以Linux Server Thread也是所有L4Linux User Process的Pager。 2)Interrupt Threads。在L4家族系列中,所有的Interrupt都被转成同步的IPC消息,然后这些消息被发送到某个被Attach的线程,这个线程就叫Interrupt Thread,多个Interrupt被attach到某一个Thread是可行的,这个取决与L4Linux编译时候的设置。Hardware Interrupt是有优先级的,所以L4Linux通过赋予Interrupt Thread不同的优先级(软件优先级)来模拟硬件优先级,具体是如何模拟做到的是由Fiasco的中断管理服务器(omega)完成的。 Interrupt Thread的优先级高于Linux Server Thread,这样可以确保较快的中断相应。 3)Signal Thread. 在Native Linux中,Signal通常是在Process返回到User Mode之前进行处理,所以在Singal发送和接受的过程中,有内核的参与。但是L4Linux Server和普通的L4Linux User process之间并不存在互斥关系,理论上,它们可以并行。为了模拟L4Linux Server和L4Linux User Process之间的这种关系,引入了Signal Thread的概念,Signal Thread位于L4Linux User Process的空间,当有Signal发生时,可以迫使L4Linux User Process放弃执行,进入L4Linux Server。 4)System Call Emulation. 在X86Linux中,"int 0x80"会产生一个Trap,然后进入内核,执行相关的System Call,但是在L4中,“int 0x80“将会产生一个Exception,然后终止该程序,等待Exception Handler处理。V2和X.0只允许Local Thread Exception Handler,然后把这段代码map到每一个L4Linux User Process的空间。如果采取这种方式,可能需要修改glibc的一些代码。如果采用这种方式,进行系统调用时需要保存Process State,并且发送“system call“消息给L4Linux Server,执行完毕以后,重新载入Process State,继续执行。X.2允许非Native Thread Exception Handler执行,所以可以避免一个共享Exception Handler库,还有一次Kernel Entry(IPC)。另外的方法是修改glibc中关于System Call执行部分的代码。 5)Scheduling 在Linux系统中,存在两个scheduler,一个是L4的,固定优先级+Robin,调度所有的L4 Thread;一个是L4Linux Server,调度所有的L4Linux User Process。设计的目标是让L4Linux User Process看起来似乎是L4Linux Server调度的。 6) Memory 前面说过,L4Linux Server是所有的L4Linux User Process的Pager,负责管理所有的L4Linux内部并可以把内存map到L4Linux User Process的地址空间去,L4Linux也需要管理shadow page table,它不用去直接访问物理页表。 7) Time Accounting Linux可以记录每个Linux User Process在用户空间的驻留时间,比如time命令,可以获取Linux User Process的执行时间长度,Native Linux通过在Timer Interrupt Handler中更新counter来完成,这样,每个Linux User Process就可以从前后两次Switch或者Counnter的时间差来计算总的运行时间。在L4Linux中,因为Timer Interrupt Handler是由单独的线程来完成的,所以需要通过其他办法,比如记录上次Schedulding的Process,这样,两次Process的时间差也可以作为当前Process的TimeAccounting。 8) Linux Threads Linux可以运行多个Linux User Process(比如fork)在同一个Address Space,但是在L4Linux中,每一个L4Linux User Process都运行在一个单独的Address Space,相当于L4的一个Task。 以上8个方面是L4Linux移植过程中特别需要关注的问题,也是理解L4Linux的基础,我认为任何Linux-Like的操作系统到L4系统的移植都可以采用如上的基本策略或者其中的某几个。L4跟Linux是完全不同的两种操作系统类型,从基本概念到实现方式上面都有太多的不同,L4到Linux的差距远远大于Minix/Unix/Partikle到Linux的差距。我的意思是说,虽然L4,Minix都是微内核,有一些基本的概念相同,如IPC,但是其余的比如内存管理,进程调度等方面,存在太多的不同。这些方法也是从L4Linux-2.0.x,L4Linux-2.2.x,L4Linux-2.4.x到L4Linux-2.6.x所遵循的基本原则。 在上面所说的8点之中,有2个问题需要注意,其中有一个是关于Signal的问题,在V2和X.0的L4 API中, l4_thread_ex_regs是不允许修改当前Address Space之外的线程的,这给Signal的实现就带来了一点麻烦,因为不管是Signal的最终完成是需要内核的参与,都需要迫使L4Linux User Process切换到L4Linux Server去执行,在Native Linux下面,内核可以抢占用户进程,但是在L4Linux下面,如何使得一个User Process切换到另一个User Process,假如没有一个可以跨越Address Space进行线程修改的系统调用,Signal的实现只能依靠上面的那种方式,用一个单独的线程作为Signal Thread,去监听是否有新的Signal,如果有,Switch到L4Linux Server。当前,在L4Linux实现的时候,Fiasco不支持X.2API,但是对内核作了一些修改,提供了可以跨越Address Space的类l4_thread_ex_regs系统调用, l4_inter_task_ex_regs。 另一个问题是关于Exception和System Call的问题。在V2和X.0的API中,L4通过一个Thread Local Interrupt Descriptor来处理Exception和System Call,但是这些Thread Local Interrupt Descriptor实际上是L4 Kernel的一部分,L4 Kernel提供一个IDT(interrupt descriptor table),然后一旦发生系统调用,L4 Kernel会把这个IDT map到L4 Thread的地址空间,这个过程被称为“Exception Handler Installation",很显然,这个过程是需要改变privilege level的,而且需要执行一部分Exception Related的内核代码。很显然,如果我们仍然采取以前的策略,对于每一个Linux所触发的Exception或者System Call都采用L4 Kernel来处理,肯定会有较大的performance loss,这里会改进的余地。 V.2API提供了一种机制,称为"Exception IPC“, Exception IPC的本质含义就是可以把Exception Handler的代码放在用户空间,而且Exception Handler Thread可以在任意位置,一般有Exception发生,一个tagged IPC可以到以前指定的Exception Handler,IPC是synchronous,所以可以终止当前线程的执行,去执行Exception Handler,执行完毕,Exception Handler IPC返回的时候,继续执行以前的代码。这么作的好处是显而易见的,执行一个Exception或者System Call的时候,不需要切换完成真正的kernel space<->user space的切换,虽然中间有一个IPC存在,但是L4的IPC是Fast IPC,所需时间应该远远小于privilege switch的时间。 但是在这个过程中,还有一个问题,就是我们需要从Exception Triggering Thread到Exception Handler发送一定的消息,X.2API提供了一种机制,UTCB(User Thread Control Block),用于传送Thread Control的消息从Exception Triggering Thread到Exception Handler。在这种情况下,每次只能最多传递2个参数的short IPC是不够的,需要Long IPC把UTCB搬过去。Exception IPC是目前L4Linux处理Exception, System Call以及Interrupt的一个比较有效的方式,因为a)避免在当前的Thread中包含Handler代码b)避免L4Linux Server和L4Linux User Process贡献Handler c)避免Addtional Kernel Entry。 其他的从L4Linux User Process进入L4Linux Server的方法就是Page Fault,很显然,因为Pager是L4Linux Server,所以一旦Page Fault发生,就可以迫使L4Linux User process到L4Linux Server的切换,但是一般发生Page Fault的时候,kernel只是记录发生Page Fault的地址,并不记录发生Page Fault Thread的状态,所以要通过Page Fault的方式实现Signal, Interrupt, exception的处理,就要去修改Microkerne,即对所有的Exception进行类似Page Fault的处理,这样得不偿失(Microkernel对PageFault的处理是个例外), 相对前面的方法,这种方式更为复杂。 采用Exception IPC也有一定的缺点,因为UTCB会记录当前Thread State有关的所有Register,所以对于相关Register较少的IA-32而言,这种方式较好,但是对于IA-64的很多的Register来说,Copy所有的Register Value是一项比较费时间的工作(我不清楚IA-64和IA-32的区别,不做评论), 而且Thread State相关的Register其实不是很多,所以Copy All也是没有必要的(从这里看出来,X.2可能还会继续update,至少UTCB不是很完美)。另:在PowerPC,IA64等平台下面,Kernel Entry很快(40Cycle,约相当于),所以是不是需要这么介意Kernel Entry的问题,本身也是个问题。但是不管怎么说,目前的L4Linux就是使用Exception IPC来解决Linux Exception问题的。 前面说过,L4Linux Server同L4Linux User Process都是运行在L4用户空间的普通进程,他们之间的关系从优先级来讲,是平等的;但是Native Linux Kernel跟Linux User Process之间的关系就是上下级关系了,他们的运行是非此即彼的,而且Native Linux Kernel最终决定那个Linux User Process进行调度。因此,要模拟这种decision关系是一个很值得讨论的话题。对于uniprocess来讲,只能有一个L4Linux Server,而且L4Linux server和众多的L4Linux User Process也只能有一个运行;对于SMP系统来讲(Fiasco目前不支持SMP),每一个processor可以对应一个L4Linux Server,然后这些L4Linux Server可以决定其余的L4Linux User Process的运行,因为Fiasco不支持SMP,所以我认为目前的L4Linux支持SMP应该是模拟的,不是实质上的双核。而且本质上的L4Linux User Process也不是由L4Linux Server来调度的,但是为了模拟这种调度形式,必须对Scheduler进行修改,而且每一个L4Linux Server可以阻塞L4Linux User Process的运行。所有的L4Linux User Process都具有同样的静态优先级,这个似乎是由Fiasco决定的,因为Fiasco只是支持静态优先级,不支持动态优先级,而Native Linux是支持动态优先级的。 这部分要说明的是L4Linux的具体实现。 |