http://blog.csdn.net/pottichu/article/details/4261228
核心数据结构初始化--内核引导第一部分
start_kernel()中调用了一系列初始化函数,以完成kernel本身的设置。 这些动作有的是公共的,有的则是需要配置的才会执行的。
在start_kernel()函数中,
至此start_kernel()结束,基本的核心环境已经建立起来了。
对于I386平台
i386平台上的内核启动过程与此基本相同,所不同的主要是实现方式。
对于2.4.x版内核
2.4.x中变化比较大,但基本过程没变,变动的是各个数据结构的具体实现,比如Cache。
|
外设初始化--内核引导第二部分
init()函数作为核心线程,首先锁定内核(仅对SMP机器有效),然后调用 do_basic_setup()完成外设及其驱动程序的加载和初始化。过程如下:
至此do_basic_setup()函数返回init(),在释放启动内存段(free_initmem())并给内核解锁以后,init()打开 /dev/console设备,重定向stdin、stdout和stderr到控制台,最后,搜索文件系统中的init程序(或者由init=命令行参 数指定的程序),并使用 execve()系统调用加载执行init程序。
init()函数到此结束,内核的引导部分也到此结束了,这个由start_kernel()创建的第一个线程已经成为一个用户模式下的进程了。此时系统中存在着六个运行实体:
对于I386平台
基本相同。
对于2.4.x版内核
这一部分的启动过程在2.4.x内核中简化了不少,缺省的独立初始化过程只剩下网络 (sock_init())和创建事件管理核心线程,而其他所需要的初始化都使用__initcall()宏 包含在do_initcalls()函数中启动执行。
|
init进程和inittab引导指令
init进程是系统所有进程的起点,内核在完成核内引导以后,即在本线程(进程)空 间内加载init程序,它的进程号是1。
init程序需要读取/etc/inittab文件作为其行为指针,inittab是以行为单位的描述性(非执行性)文本,每一个指令行都具有以下格式:
id:runlevel:action:process其中id为入口标识符,runlevel为运行级别,action为动作代号,process为具体的执行程序。
id一般要求4个字符以内,对于getty或其他login程序项,要求id与tty的编号相同,否则getty程序将不能正常工作。
runlevel是init所处于的运行级别的标识,一般使用0-6以及S或s。0、1、6运行级别被系统保留,0作为shutdown动作,1作为重启 至单用户模式,6为重启;S和s意义相同,表示单用户模式,且无需inittab文件,因此也不在inittab中出现,实际上,进入单用户模式时, init直接在控制台(/dev/console)上运行/sbin/sulogin。
在一般的系统实现中,都使用了2、3、4、5几个级别,在Redhat系统中,2表示无NFS支持的多用户模式,3表示完全多用户模式(也是最常用的级 别),4保留给用户自定义,5表示XDM图形登录方式。7-9级别也是可以使用的,传统的Unix系统没有定义这几个级别。runlevel可以是并列的 多个值,以匹配多个运行级别,对大多数action来说,仅当runlevel与当前运行级别匹配成功才会执行。
initdefault是一个特殊的action值,用于标识缺省的启动级别;当init由核心激活 以后,它将读取inittab中的initdefault项,取得其中的runlevel,并作为当前的运行级 别。如果没有inittab文件,或者其中没有initdefault项,init将在控制台上请求输入 runlevel。
sysinit、boot、bootwait等action将在系统启动时无条件运行,而忽略其中的runlevel,其余的action(不含initdefault)都与某个runlevel相关。各个action的定义在inittab的man手册中有详细的描述。
在Redhat系统中,一般情况下inittab都会有如下几项:
id:3:initdefault: #表示当前缺省运行级别为3--完全多任务模式; si::sysinit:/etc/rc.d/rc.sysinit #启动时自动执行/etc/rc.d/rc.sysinit脚本 l3:3:wait:/etc/rc.d/rc 3 #当运行级别为3时,以3为参数运行/etc/rc.d/rc脚本,init将等待其返回 0:12345:respawn:/sbin/mingetty tty0 #在1-5各个级别上以tty0为参数执行/sbin/mingetty程序,打开tty0终端用于 #用户登录,如果进程退出则再次运行mingetty程序 x:5:respawn:/usr/bin/X11/xdm -nodaemon #在5级别上运行xdm程序,提供xdm图形方式登录界面,并在退出时重新执行 |
|
rc启动脚本
上一节已经提到init进程将启动运行rc脚本,这一节将介绍rc脚本具体的工作。
一般情况下,rc启动脚本都位于/etc/rc.d目录下,rc.sysinit中最常见的动作就是激活交换分区,检查磁盘,加载硬件模块,这些动作无论 哪个运行级别都是需要优先执行的。仅当rc.sysinit执行完以后init才会执行其他的boot或bootwait动作。
如果没有其他boot、bootwait动作,在运行级别3下,/etc/rc.d/rc将会得到执行,命令行参数为3,即执行 /etc/rc.d/rc3.d/目录下的所有文件。rc3.d下的文件都是指向/etc/rc.d/init.d/目录下各个Shell脚本的符号连 接,而这些脚本一般能接受start、stop、restart、status等参数。rc脚本以start参数启动所有以S开头的脚本,在此之前,如果 相应的脚本也存在K打头的链接,而且已经处于运行态了(以/var/lock/subsys/下的文件作为标志),则将首先启动K开头的脚本,以stop 作为参数停止这些已经启动了的服务,然后再重新运行。显然,这样做的直接目的就是当init改变运行级别时,所有相关的服务都将重启,即使是同一个级别。
rc程序执行完毕后,系统环境已经设置好了,下面就该用户登录系统了。
|
getty和login
在rc返回后,init将得到控制,并启动mingetty(见第五节)。mingetty是getty的简化,不能处理串口操作。getty的功能一般包括:
注:用于远程登录的提示信息位于/etc/issue.net中。
login程序在getty的同一个进程空间中运行,接受getty传来的用户名参数作为登录 的用户名。
如果用户名不是root,且存在/etc/nologin文件,login将输出nologin文件的内容, 然后退出。这通常用来系统维护时防止非root用户登录。
只有/etc/securetty中登记了的终端才允许root用户登录,如果不存在这个文件, 则root可以在任何终端上登录。/etc/usertty文件用于对用户作出附加访问限制,如果 不存在这个文件,则没有其他限制。
当用户登录通过了这些检查后,login将搜索/etc/passwd文件(必要时搜索 /etc/shadow文件)用于匹配密码、设置主目录和加载shell。如果没有指定主目录,将 默认为根目录;如果没有指定shell,将默认为/bin/sh。在将控制转交给shell以前, getty将输出/var/log/lastlog中记录的上次登录系统的信息,然后检查用户是否有新 邮件(/usr/spool/mail/{username})。在设置好shell的uid、gid,以及TERM,PATH 等环境变量以后,进程加载shell,login的任务也就完成了。
|
bash
运行级别3下的用户login以后,将启动一个用户指定的shell,以下以/bin/bash为例继续我们的启动过程。
bash是Bourne Shell的GNU扩展,除了继承了sh的所有特点以外,还增加了很多特 性和功能。由login启动的bash是作为一个登录shell启动的,它继承了getty设置的TERM、PATH等环境变量,其中PATH对于普通用户为"/bin:/usr/bin:/usr/local/bin",对于root 为"/sbin:/bin:/usr/sbin:/usr/bin"。作为登录shell,它将首先寻找/etc/profile 脚本文件,并执行它;然后如果存在~/.bash_profile,则执行它,否则执行 ~/.bash_login,如果该文件也不存在,则执行~/.profile文件。然后bash将作为一个 交互式shell执行~/.bashrc文件(如果存在的话),很多系统中,~/.bashrc都将启动 /etc/bashrc作为系统范围内的配置文件。
当显示出命令行提示符的时候,整个启动过程就结束了。此时的系统,运行着内核, 运行着几个核心线程,运行着init进程,运行着一批由rc启动脚本激活的守护进程(如 inetd等),运行着一个bash作为用户的命令解释器。
广义上讲,一般LINUX的内核启动过程按照如下六个部分,本文主要以PPC603E为主,结合公共的部分来讲述启动过程,
1 内核的引导(核内引导)
2 运行init
3 系统初始化
4 启动对应运行级别的守护进程
5 建立终端
6 登录系统,启动完成
对Linux内核进行移植,必须对内核的布局及其启动过程有所了解。从内核的布局上看,分为特定于体系结构的部分和与体系结构无关的部分。在内核源码树下,Linux把特定于体系结构的代码放在arch目录下,而所需的头文件放在include目录下。例如arch/ppc目录下就是特定于PowerPC体系结构的代码。
内核启动时总是特定于体系结构的部分首先执行,设置硬件寄存器、配置内存映射、执行特定于体系结构的初始化,然后将控制转给内核中与体系结构无关的部分,内核启动流程如图2所示。
1 内核的引导(核内引导)
(1)CPU复位后,调用存储在ROM中的初始化代码完成对片上设备的必要初始化。
(2)Bootloader把内核解压到RAM中的指定位置,之后从内核入口地址处(_start)调用内核初始化程序(arch/ppc/kernel/head.S/xxx.S)并传递内核启动参数。
(3)汇编文件最后结束,调用start_kernel,进入C语言代码;
Notes: 一般来说,Kernel目录下面有多个类似 head.s文件,特定CPU具体对应那个.S文件,可以参照对应的makefile文件;
(4)start_kernel
内核从现在开始就进入了c语言部分,内核启动第二阶段从init/main.c的start_kernel()函数开始到函数结束。这一阶段对整个系统内存、cache、信号、设备等进行初始化,最后产生新的内核线程init后,调用cpu_idle()完成内核第二阶段。start_kernel()函数中,做了大量的工作来建立基本的Linux核心环境。如果顺利执行完start_kernel(),则基本的Linux核心环境已经建立起来了。
2 运行init
init的进程号是1,从这一点就能看出,init进程是系统所有进程的起点,Linux在完成核内引导以后,就开始运行init程序,。init程序需要读取配置文件/etc/inittab。inittab是一个不可执行的文本文件,它有若干行指令所组成。在Redhat系统中,inittab的内容如下所示(以“###"开始的中注释为笔者增加的):
#
# inittab This file describes how the INIT process should set up
# the system in a certain run-level.
#
# Author: Miquel van Smoorenburg,
# Modified for RHS Linux by Marc Ewing and Donnie Barnes
#
# Default runlevel. The runlevels used by RHS are:
# 0 - halt (Do NOT set initdefault to this)
# 1 - Single user mode
# 2 - Multiuser, without NFS (The same as 3, if you do not havenetworking)
# 3 - Full multiuser mode
# 4 - unused
# 5 - X11
# 6 - reboot (Do NOT set initdefault to this)
#
###表示当前缺省运行级别为5(initdefault);
id:5:initdefault:
###启动时自动执行/etc/rc.d/rc.sysinit脚本(sysinit)
# System initialization.
si::sysinit:/etc/rc.d/rc.sysinit
l0:0:wait:/etc/rc.d/rc 0
l1:1:wait:/etc/rc.d/rc 1
l2:2:wait:/etc/rc.d/rc 2
l3:3:wait:/etc/rc.d/rc 3
l4:4:wait:/etc/rc.d/rc 4
###当运行级别为5时,以5为参数运行/etc/rc.d/rc脚本,init将等待其返回(wait)
l5:5:wait:/etc/rc.d/rc 5
l6:6:wait:/etc/rc.d/rc 6
###在启动过程中允许按CTRL-ALT-DELETE重启系统
# Trap CTRL-ALT-DELETE
ca::ctrlaltdel:/sbin/shutdown -t3 -r now
# When our UPS tells us power has failed, assume we have a few minutes
# of power left. Schedule a shutdown for 2 minutes from now.
# This does, of course, assume you have powerd installed and your
# UPS connected and working correctly.
pf::powerfail:/sbin/shutdown -f -h +2 "Power Failure; System Shutting Down"
# If power was restored before the shutdown kicked in, cancel it.
pr:12345:powerokwait:/sbin/shutdown -c "Power Restored; Shutdown Cancelled"
###在2、3、4、5级别上以ttyX为参数执行/sbin/mingetty程序,打开ttyX终端用于用户登录,
###如果进程退出则再次运行mingetty程序(respawn)
# Run gettys in standard runlevels
1:2345:respawn:/sbin/mingetty tty1
2:2345:respawn:/sbin/mingetty tty2
3:2345:respawn:/sbin/mingetty tty3
4:2345:respawn:/sbin/mingetty tty4
5:2345:respawn:/sbin/mingetty tty5
6:2345:respawn:/sbin/mingetty tty6
###在5级别上运行xdm程序,提供xdm图形方式登录界面,并在退出时重新执行(respawn)
# Run xdm in runlevel 5
x:5:respawn:/etc/X11/prefdm -nodaemon
以上面的inittab文件为例,来说明一下inittab的格式。其中以#开始的行是注释行,除了注释行之外,每一行都有以下格式:
id:runlevel:action:process
对上面各项的详细解释如下:
1. id
id是指入口标识符,它是一个字符串,对于getty或mingetty等其他login程序项,要求id与tty的编号相同,否则getty程序将不能正常工作。
2. runlevel
runlevel是init所处于的运行级别的标识,一般使用0-6以及S或s。0、1、6运行级别被系统保留:其中0作为shutdown动作,1作为重启至单用户模式,6为重启;S和s意义相同,表示单用户模式,且无需inittab文件,因此也不在inittab中出现,实际上,进入单用户模式时,init直接在控制台(/dev/console)上运行/sbin/sulogin。在一般的系统实现中,都使用了2、3、4、5几个级别,在Redhat系统中,2表示无NFS支持的多用户模式,3表示完全多用户模式(也是最常用的级别),4保留给用户自定义,5表示XDM图形登录方式。7-9级别也是可以使用的,传统的Unix系统没有定义这几个级别。runlevel可以是并列的多个值,以匹配多个运行级别,对大多数action来说,仅当runlevel与当前运行级别匹配成功才会执行。
3. action
action是描述其后的process的运行方式的。action可取的值包括:initdefault、sysinit、boot、bootwait等:
initdefault是一个特殊的action值,用于标识缺省的启动级别;当init由核心激活以后,它将读取inittab中的initdefault项,取得其中的runlevel,并作为当前的运行级别。如果没有inittab文件,或者其中没有initdefault项,init将在控制台上请求输入runlevel。
sysinit、boot、bootwait等action将在系统启动时无条件运行,而忽略其中的runlevel。
其余的action(不含initdefault)都与某个runlevel相关。各个action的定义在inittab的man手册中有详细的描述。
4. process
process为具体的执行程序。程序后面可以带参数
3 系统初始化
在init的配置文件中有这么一行:
si::sysinit:/etc/rc.d/rc.sysinit
它调用执行了/etc/rc.d/rc.sysinit,而rc.sysinit是一个bash shell的脚本,它主要是完成一些系统初始化的工作,rc.sysinit是每一个运行级别都要首先运行的重要脚本。它主要完成的工作有:激活交换分区,检查磁盘,加载硬件模块以及其它一些需要优先执行任务。
rc.sysinit约有850多行,但是每个单一的功能还是比较简单,而且带有注释,建议有兴趣的用户可以自行阅读自己机器上的该文件,以了解系统初始化所详细情况。由于此文件较长,所以不在本文中列出来,也不做具体的介绍。
当rc.sysinit程序执行完毕后,将返回init继续下一步。
4 启动对应运行级别的守护进程
在rc.sysinit执行后,将返回init继续其它的动作,通常接下来会执行到/etc/rc.d/rc程序。以运行级别3为例,init将执行配置文件inittab中的以下这行:
l5:5:wait:/etc/rc.d/rc 5
这一行表示以5为参数运行/etc/rc.d/rc,/etc/rc.d/rc是一个Shell脚本,它接受5作为参数,去执行/etc/rc.d/rc5.d/目录下的所有的rc启动脚本,/etc/rc.d/rc5.d/目录中的这些启动脚本实际上都是一些链接文件,而不是真正的rc启动脚本,真正的rc启动脚本实际上都是放在/etc/rc.d/init.d/目录下。而这些rc启动脚本有着类似的用法,它们一般能接受start、stop、restart、status等参数。
/etc/rc.d/rc5.d/中的rc启动脚本通常是K或S开头的链接文件,对于以以S开头的启动脚本,将以start参数来运行。而如果发现存在相应的脚本也存在K打头的链接,而且已经处于运行态了(以/var/lock/subsys/下的文件作为标志),则将首先以stop为参数停止这些已经启动了的守护进程,然后再重新运行。这样做是为了保证是当init改变运行级别时,所有相关的守护进程都将重启。
至于在每个运行级中将运行哪些守护进程,用户可以通过chkconfig或setup中的"System Services"来自行设定。常见的守护进程有:
amd:自动安装NFS守护进程
apmd:高级电源管理守护进程
arpwatch:记录日志并构建一个在LAN接口上看到的以太网地址和IP地址对数据库
autofs:自动安装管理进程automount,与NFS相关,依赖于NIS
crond:Linux下的计划任务的守护进程
named:DNS服务器
netfs:安装NFS、Samba和NetWare网络文件系统
network:激活已配置网络接口的脚本程序
nfs:打开NFS服务
portmap:RPC portmap管理器,它管理基于RPC服务的连接
sendmail:邮件服务器sendmail
smb:Samba文件共享/打印服务
syslog:一个让系统引导时起动syslog和klogd系统日志守候进程的脚本
xfs:X Window字型服务器,为本地和远程X服务器提供字型集
Xinetd:支持多种网络服务的核心守护进程,可以管理wuftp、sshd、telnet等服务
这些守护进程也启动完成了,rc程序也就执行完了,然后又将返回init继续下一步。
5 建立终端
rc执行完毕后,返回init。这时基本系统环境已经设置好了,各种守护进程也已经启动了。init接下来会打开6个终端,以便用户登录系统。通过按Alt+Fn(n对应1-6)可以在这6个终端中切换。在inittab中的以下6行就是定义了6个终端:
1:2345:respawn:/sbin/mingetty tty1
2:2345:respawn:/sbin/mingetty tty2
3:2345:respawn:/sbin/mingetty tty3
4:2345:respawn:/sbin/mingetty tty4
5:2345:respawn:/sbin/mingetty tty5
6:2345:respawn:/sbin/mingetty tty6
从上面可以看出在2、3、4、5的运行级别中都将以respawn方式运行mingetty程序,mingetty程序能打开终端、设置模式。同时它会显示一个文本登录界面,这个界面就是我们经常看到的登录界面,在这个登录界面中会提示用户输入用户名,而用户输入的用户将作为参数传给login程序来验证用户的身份。
6 登录系统,启动完成
对于运行级别为5的图形方式用户来说,他们的登录是通过一个图形化的登录界面。登录成功后可以直接进入KDE、Gnome等窗口管理器。而本文主要讲的还是文本方式登录的情况:
当我们看到mingetty的登录界面时,我们就可以输入用户名和密码来登录系统了。
Linux的账号验证程序是login,login会接收mingetty传来的用户名作为用户名参数。然后login会对用户名进行分析:如果用户名不是root,且存在/etc/nologin文件,login将输出nologin文件的内容,然后退出。这通常用来系统维护时防止非root用户登录。只有/etc/securetty中登记了的终端才允许root用户登录,如果不存在这个文件,则root可以在任何终端上登录。/etc/usertty文件用于对用户作出附加访问限制,如果不存在这个文件,则没有其他限制。
在分析完用户名后,login将搜索/etc/passwd以及/etc/shadow来验证密码以及设置账户的其它信息,比如:主目录是什么、使用何种shell。如果没有指定主目录,将默认为根目录;如果没有指定shell,将默认为/bin/bash。
login程序成功后,会向对应的终端在输出最近一次登录的信息(在/var/log/lastlog中有记录),并检查用户是否有新邮件(在/usr/spool/mail/的对应用户名目录下)。然后开始设置各种环境变量:对于bash来说,系统首先寻找/etc/profile脚本文件,并执行它;然后如果用户的主目录中存在.bash_profile文件,就执行它,在这些文件中又可能调用了其它配置文件,所有的配置文件执行后后,各种环境变量也设好了,这时会出现大家熟悉的命令行提示符,到此整个启动过程就结束了。
希望通过上面对Linux启动过程的剖析能帮助那些想深入学习Linux用户建立一个相关Linux启动过程的清晰概念,进而可以进一步研究Linux接下来是如何工作的。
如图所示,内核的初始化过程由start_kernel函数开始,至第一个用户进程init结束,调用了一系列的初始化函数对所有的内核组件进行初始化。其中,start_kernel、rest_init、kernel_init、init_post等4个函数构成了整个初始化过程的主线。
|
图 内核初始化
本节接下来的内容会结合内核代码,对内核初始化过程主线上的几个函数进行分析,使读者对该过程有个整体上的认识,以此为基础,读者可以根据自己的兴趣或需要,选择与某些组件相关的初始化函数,进行更进一步的研究分析。
u start_kernel函数
从start_kernel函数开始,内核即进入了C语言部分,它完成了内核的大部分初始化工作。实际上,可以将start_kernel函数看做内核的main函数。
代码清单1 start_kernel函数
513 asmlinkage void __init start_kernel(void)
514 {
515 char * command_line;
516 extern struct kernel_param __start___param[], __stop___param[];
517
/*
* 当只有一个CPU的时候这个函数就什么都不做,
* 但是如果有多个CPU的时候那么它就
* 返回在启动的时候的那个CPU的号
*/
518 smp_setup_processor_id();
519
520 /*
521 * Need to run as early as possible, to initialize the
522 * lockdep hash:
523 */
524 unwind_init();
525 lockdep_init();
526
/* 关闭当前CPU的中断 */
527 local_irq_disable();
528 early_boot_irqs_off();
/*
* 每一个中断都有一个中断描述符(struct irq_desc)来进行描述,这个函数的
* 作用就是设置所有中断描述符的锁
*/
529 early_init_irq_lock_class();
530
531 /*
532 * Interrupts are still disabled. Do necessary setups, then
533 * enable them
534 */
/* 获取大内核锁,锁定整个内核。 */
535 lock_kernel();
/* 如果定义了CONFIG_GENERIC_CLOCKEVENTS,则注册clockevents框架 */
536 tick_init();
537 boot_cpu_init();
/* 初始化页地址,使用链表将其链接起来 */
538 page_address_init();
539 printk(KERN_NOTICE);
/* 显示内核的版本信息 */
540 printk(linux_banner);
/*
* 每种体系结构都有自己的setup_arch()函数,是体系结构相关的,具体编译哪个
* 体系结构的setup_arch()函数,由源码树顶层目录下的Makefile中的ARCH变量
* 决定
*/
541 setup_arch(&command_line);
542 setup_command_line(command_line);
543 unwind_setup();
/* 每个CPU分配pre-cpu结构内存, 并复制.data.percpu段的数据 */
544 setup_per_cpu_areas();
545 smp_prepare_boot_cpu(); /* arch-specific boot-cpu hooks */
546
547 /*
548 * Set up the scheduler prior starting any interrupts (such as the
549 * timer interrupt). Full topology setup happens at smp_init()
550 * time - but meanwhile we still have a functioning scheduler.
551 */
/* 进程调度器初始化 */
552 sched_init();
553 /*
554 * Disable preemption - early bootup scheduling is extremely
555 * fragile until we cpu_idle() for the first time.
556 */
/* 禁止内核抢占 */
557 preempt_disable();
558 build_all_zonelists();
559 page_alloc_init();
/* 打印Linux启动命令行参数 */
560 printk(KERN_NOTICE "Kernel command line: %s\n", boot_command_line);
/* 对内核选项的两次解析 */
561 parse_early_param();
562 parse_args("Booting kernel", static_command_line, __start___param,
563 __stop___param - __start___param,
564 &unknown_bootoption);
/* 检查中断是否已经打开,如果已经打开,则关闭中断 */
565 if (!irqs_disabled()) {
566 printk(KERN_WARNING "start_kernel(): bug: interrupts were "
567 "enabled *very* early, fixing it\n");
568 local_irq_disable();
569 }
570 sort_main_extable();
/*
* trap_init函数完成对系统保留中断向量(异常、非屏蔽中断以及系统调用)
* 的初始化,init_IRQ函数则完成其余中断向量的初始化
*/
571 trap_init();
/* 初始化RCU(Read-Copy Update)机制 */
572 rcu_init();
573 init_IRQ();
/* 初始化hash表,便于从进程的PID获得对应的进程描述符指针 */
574 pidhash_init();
/* 初始化定时器相关的数据结构 */
575 init_timers();
/* 对高精度时钟进行初始化 */
576 hrtimers_init();
/* 初始化tasklet_softirq和hi_softirq */
577 softirq_init();
578 timekeeping_init();
/* 初始化系统时钟源 */
579 time_init();
/* 对内核的profile(一个内核性能调式工具)功能进行初始化 */
580 profile_init();
581 if (!irqs_disabled())
582 printk("start_kernel(): bug: interrupts were enabled early\n");
583 early_boot_irqs_on();
584 local_irq_enable();
585
586 /*
587 * HACK ALERT! This is early. We're enabling the console before
588 * we've done PCI setups etc, and console_init() must be aware of
589 * this. But we do want output early, in case something goes wrong.
590 */
/*
* 初始化控制台以显示printk的内容,在此之前调用的printk
* 只是把数据存到缓冲区里
*/
591 console_init();
592 if (panic_later)
593 panic(panic_later, panic_param);
594
/* 如果定义了CONFIG_LOCKDEP宏,则打印锁依赖信息,否则什么也不做 */
595 lockdep_info();
596
597 /*
598 * Need to run this when irqs are enabled, because it wants
599 * to self-test [hard/soft]-irqs on/off lock inversion bugs
600 * too:
601 */
602 locking_selftest();
603
604 #ifdef CONFIG_BLK_DEV_INITRD
605 if (initrd_start && !initrd_below_start_ok &&
606 initrd_start < min_low_pfn << PAGE_SHIFT) {
607 printk(KERN_CRIT "initrd overwritten
(0x%08lx < 0x%08lx) - "
608 "disabling it.\n",initrd_start,
min_low_pfn << PAGE_SHIFT);
609 initrd_start = 0;
610 }
611 #endif
/* 虚拟文件系统的初始化 */
612 vfs_caches_init_early();
613 cpuset_init_early();
614 mem_init();
/* slab初始化 */
615 kmem_cache_init();
616 setup_per_cpu_pageset();
617 numa_policy_init();
618 if (late_time_init)
619 late_time_init();
/*
* 一个非常有趣的CPU性能测试函数,可以计算出CPU在1s内执行了多少次一个
* 极短的循环,计算出来的值经过处理后得到BogoMIPS值(Bogo是Bogus的意思),
*/
620 calibrate_delay();
621 pidmap_init();
/* 接下来的函数中,大多数都是为有关的管理机制建立专用的slab缓存 */
622 pgtable_cache_init();
/* 初始化优先级树index_bits_to_maxindex数组 */
623 prio_tree_init();
624 anon_vma_init();
625 #ifdef CONFIG_X86
626 if (efi_enabled)
627 efi_enter_virtual_mode();
628 #endif
/* 根据物理内存大小计算允许创建进程的数量 */
629 fork_init(num_physpages);
/*
* proc_caches_init(),buffer_init(),
unnamed_dev_init(), key_init()
*
*/
630 proc_caches_init();
631 buffer_init();
632 unnamed_dev_init();
633 key_init();
634 security_init();
635 vfs_caches_init(num_physpages);
636 radix_tree_init();
637 signals_init();
638 /* rootfs populating might need page-writeback */
639 page_writeback_init();
640 #ifdef CONFIG_PROC_FS
641 proc_root_init();
642 #endif
643 cpuset_init();
644 taskstats_init_early();
645 delayacct_init();
646
/*
* 测试该CPU的各种缺陷,记录检测到的缺陷,以便于内核的其他部分以后可以
* 使用它们的工作。
*/
647 check_bugs();
648
649 acpi_early_init(); /* before LAPIC and SMP init */
650
651 /* Do the rest non-__init'ed, we're now alive */
/* 创建init进程 */
652 rest_init();
653 }
2 reset_init函数
在start_kernel函数的最后调用了reset_init函数进行后续的初始化。
代码清单2 reset_init函数
438 static void noinline __init_refok rest_init(void)
439 __releases(kernel_lock)
440 {
441 int pid;
442
/* reset_init()函数最主要的历史使命就是启动内核线程kernel_init */
443 kernel_thread(kernel_init, NULL, CLONE_FS | CLONE_SIGHAND);
444 numa_default_policy();
/* 启动内核线程kthreadd,运行kthread_create_list全局链表中的kthread */
445 pid = kernel_thread(kthreadd, NULL, CLONE_FS | CLONE_FILES);
446 kthreadd_task = find_task_by_pid(pid);
447 unlock_kernel();
448
449 /*
450 * The boot idle thread must execute schedule()
451 * at least once to get things moving:
452 */
/*
* 增加idle进程的need_resched标志, 并且调用schedule释放CPU,
* 将其赋给更应该获取CPU的进程。
*/
453 init_idle_bootup_task(current);
454 preempt_enable_no_resched();
455 schedule();
456 preempt_disable();
457
458 /* Call into cpu_idle with preempt disabled */
/*
* 进入idle循环以消耗空闲的CPU时间片, 该函数从不返回。然而,当有实际工作
* 要处理时,该函数就会被抢占。
*/
459 cpu_idle();
460 }
3 kernel_init函数
kernel_init函数将完成设备驱动程序的初始化,并调用init_post函数启动用户空间的init进程。
代码清单3 kernel_init函数
813 static int __init kernel_init(void * unused)
814 {
815 lock_kernel();
816 /*
817 * init can run on any cpu.
818 */
/* 修改进程的CPU亲和力 */
819 set_cpus_allowed(current, CPU_MASK_ALL);
820 /*
821 * Tell the world that we're going to be the grim
822 * reaper of innocent orphaned children.
823 *
824 * We don't want people to have to make incorrect
825 * assumptions about where in the task array this
826 * can be found.
827 */
/* 把当前进程设为接受其他孤儿进程的进程 */
828 init_pid_ns.child_reaper = current;
829
830 __set_special_pids(1, 1);
831 cad_pid = task_pid(current);
832
833 smp_prepare_cpus(max_cpus);
834
835 do_pre_smp_initcalls();
836
/* 激活SMP系统中其他CPU */
837 smp_init();
838 sched_init_smp();
839
840 cpuset_init_smp();
841
/*
* 此时与体系结构相关的部分已经初始化完成,现在开始调用do_basic_setup函数
* 初始化设备,完成外设及其驱动程序(直接编译进内核的模块)的加载和初始化
*/
842 do_basic_setup();
843
844 /*
845 * check if there is an early userspace init. If yes, let it do all
846 * the work
847 */
848
849 if (!ramdisk_execute_command)
850 ramdisk_execute_command = "/init";
851
852 if (sys_access((const char __user *)ramdisk_execute_command, 0) != 0) {
853 ramdisk_execute_command = NULL;
854 prepare_namespace();
855 }
856
857 /*
858 * Ok, we have completed the initial bootup, and
859 * we're essentially up and running. Get rid of the
860 * initmem segments and start the user-mode stuff.
861 */
862 init_post();
863 return 0;
864 }
4 init_post函数
到init_post函数为止,内核的初始化已经进入尾声,第一个用户空间进程init将姗姗来迟。
代码清单4 init_post函数
774 static int noinline init_post(void)
775 {
776 free_initmem();
777 unlock_kernel();
778 mark_rodata_ro();
779 system_state = SYSTEM_RUNNING;
780 numa_default_policy();
781
782 if (sys_open((const char __user *) "/dev/console", O_RDWR, 0) < 0)
783 printk(KERN_WARNING "Warning: unable to open an initial console.\n");
784
785 (void) sys_dup(0);
786 (void) sys_dup(0);
787
788 if (ramdisk_execute_command) {
789 run_init_process(ramdisk_execute_command);
790 printk(KERN_WARNING "Failed to execute %s\n",
791 ramdisk_execute_command);
792 }
793
794 /*
795 * We try each of these until one succeeds.
796 *
797 * The Bourne shell can be used instead of init if we are
798 * trying to recover a really broken machine.
799 */
800 if (execute_command) {
801 run_init_process(execute_command);
802 printk(KERN_WARNING "Failed to execute %s. Attempting "
803 "defaults...\n", execute_command);
804 }
805 run_init_process("/sbin/init");
806 run_init_process("/etc/init");
807 run_init_process("/bin/init");
808 run_init_process("/bin/sh");
809
810 panic("No init found. Try passing init= option to kernel.");
811 }
第776行,到此,内核初始化已经接近尾声了,所有的初始化函数都已经被调用,因此free_initmem函数可以舍弃内存的__init_begin至__init_end(包括.init.setup、.initcall.init等节)之间的数据。
所有使用__init标记过的函数和使用__initdata标记过的数据,在free_initmem函数执行后,都不能使用,它们曾经获得的内存现在可以重新用于其他目的。
第782行,如果可能,打开控制台设备,这样init进程就拥有一个控制台,并可以从中读取输入信息,也可以向其中写入信息。
实际上init进程除了打印错误信息以外,并不使用控制台,但是如果调用的是shell或者其他需要交互的进程,而不是init,那么就需要一个可以交互的输入源。如果成功执行open,/dev/console即成为init的标准输入源(文件描述符0)。
第785~786行,调用dup打开/dev/console文件描述符两次。这样,该控制台设备就也可以供标准输出和标准错误使用(文件描述符1和2)。假设第782行的open成功执行(正常情况),init进程现在就拥有3个文件描述符--标准输入、标准输出以及标准错误。
第788~804行,如果内核命令行中给出了到init进程的直接路径(或者别的可替代的程序),这里就试图执行init。
因为当kernel_execve函数成功执行目标程序时并不返回,只有失败时,才能执行相关的表达式。接下来的几行会在几个地方查找init,按照可能性由高到低的顺序依次是: /sbin/init,这是init标准的位置;/etc/init和/bin/init,两个可能的位置。
第805~807行,这些是init可能出现的所有地方。如果在这3个地方都没有发现init,也就无法找到它的同名者了,系统可能就此崩溃。因此,第808行会试图建立一个交互的shell(/bin/sh)来代替,希望root用户可以修复这种错误并重新启动机器。
第810行,由于某些原因,init甚至不能创建shell。当前面的所有情况都失败时,调用panic。这样内核就会试图同步磁盘,确保其状态一致。如果超过了内核选项中定义的时间,它也可能会重新启动机器。