刘柳 + 原创作品转载请注明出处 + 《Linux内核分析》MOOC课程+http://mooc.study.163.com/course/USTC-1000029000+titer2008@gmail.com
操作系统原理中介绍了大量进程调度算法,这些算法从实现的角度看仅仅是从运行队列中选择一个新进程,选择的过程中运用了不同的策略而已。
对于理解操作系统的工作机制,反而是进程的调度时机与进程的切换机制更为关键。
Linux的调度基于分时和优先级
Linux的进程根据优先级排队
nice
getpriority/setpriority
sched_getscheduler/sched_setscheduler
sched_getparam/sched_setparam
sched_yield
sched_get_priority_min/sched_get_priority_max
sched_rr_get_interval
用户态被动调度
内核线程只有内核态没有用户态的特殊进程,无需系统调用。
插曲:张银奎说程序进入内核态犹如人睡觉啦。这个笑话很有意思
为了控制进程的执行,内核必须有能力挂起正在CPU上执行的进程,并恢复以前挂起的某个进程的执行,这叫做进程切换、任务切换、上下文切换;
区别是否是同一个进程
还有硬件上下文
第一节第二堂课
位置:kernel/sched/core.c
如果想看到这里面详细的值,可以使用gcc -O0试试
以下是scheudle代码的展开结构图(感谢tldp供图),从中可以得到
switch_to的具体调用位置和具体汇编内容的分工。
|schedule
|do_softirq // manages post-IRQ work
|for each task
|calculate counter
|prepare_to__switch // does anything
|switch_mm // change Memory context (change CR3 value)
|switch_to (assembler)
|SAVE ESP
|RESTORE future_ESP
|SAVE EIP
|push future_EIP *** push parameter as we did a call
|jmp __switch_to (it does some TSS work)
|__switch_to()
..
|ret *** ret from call using future_EIP in place of call address
new_task
从进程的角度看,我们可以得到如下的控制流程图,大家可以从tldp这张图里面知道
两个不同进程如何进行切换的。
U S E R M O D E K E R N E L M O D E
| | | | | | | |
| | | | Timer | | | |
| | | Normal | IRQ | | | |
| | | Exec |------>|Timer_Int.| | |
| | | | | | .. | | |
| | | \|/ | |schedule()| | Task1 Ret|
| | | | |_switch_to|<-- | Address |
|__________| |__________| | | | | |
| | |S | |
Task1 Data/Stack Task1 Code | | |w | |
| | T|i | |
| | a|t | |
| | | | | | s|c | |
| | | | Timer | | k|h | |
| | | Normal | IRQ | | |i | |
| | | Exec |------>|Timer_Int.| |n | |
| | | | | | .. | |g | |
| | | \|/ | |schedule()| | | Task2 Ret|
| | | | |_switch_to|<-- | Address |
|__________| |__________| |__________| |__________|
Task2 Data/Stack Task2 Code Kernel Code Kernel Data/Stack
- esp 先切换
- eip 再切换
- 利用push eip +call 起到了类似的call 作用,但是灵活修改了eip 。
/*这点很牛*/
欢迎大家到我的博客留言,希望成为内核入门学习的干货店。
http://blog.csdn.net/titer1/
#define switch_to(prev, next, last) \
do { \
/* \
* Context-switching clobbers all registers, so we clobber \
* them explicitly, via unused output variables. \
* (EAX and EBP is not listed because EBP is saved/restored \
* explicitly for wchan access and EAX is the return value of \
* __switch_to()) \
*/ \
unsigned long ebx, ecx, edx, esi, edi; \
\
asm volatile("pushfl\n\t" /* save flags */ \
"pushl %%ebp\n\t" /* save EBP */ \
"movl %%esp,%[prev_sp]\n\t" /* save ESP */ \
"movl %[next_sp],%%esp\n\t" /* restore ESP */ \
"movl $1f,%[prev_ip]\n\t" /* save EIP */ \
"pushl %[next_ip]\n\t" /* restore EIP */ \
"jmp __switch_to\n" /* regparm call */ \
"1:\t" \
"popl %%ebp\n\t" /* restore EBP */ \
"popfl\n" /* restore flags */ \
\
/* output parameters */ \
: [prev_sp] "=m" (prev->thread.sp), \
[prev_ip] "=m" (prev->thread.ip), \
"=a" (last), \
\
/* clobbered output registers: */ \
"=b" (ebx), "=c" (ecx), "=d" (edx), \
"=S" (esi), "=D" (edi) \
\
/* input parameters: */ \
: [next_sp] "m" (next->thread.sp), \
[next_ip] "m" (next->thread.ip), \
\
/* regparm parameters for __switch_to(): */ \
[prev] "a" (prev), \
[next] "d" (next)); \
} while (0)
仅仅演示swith_to堆栈变化,
要知道哪些地方典型的调用schedule,待下一次展开
鉴于switch_to是一个宏,我们使用下面的方法设置断点:
b kernel/sched/core.c:2373
整个调试过程动态库,原文3M多,请点击这里
感谢hchunhui供堆栈图,
他的博客可以从这里访问:
http://home.ustc.edu.cn/~hchunhui/linux_sched.html
位置:教程第二节第一讲
最一般的情况:正在运行的用户态进程X切换到运行用户态进程Y的过程
在运行的用户态进程X 发生中断,硬件完成以下:
SAVE_ALL //保存现场
中断处理过程中或中断返回前调用了schedule(),其中的switch_to做了关键的进程上下文切换
标号1之后开始运行用户态进程Y(这里Y曾经通过以上步骤被切换出去过因此可以从标号1继续执行)
已经变成Y进程上下文,真是 庄周做梦
先普通 再特殊
2个内核线程之间切换,cs段没有改变我
用户进程和内核线程间切换
没有发生中断,也就是没有int 指令和iret指令喔,
pre :parent next: child so next_ip =ret_from_fork ,不是switch_to中的标号1喔
pre:parent
next:execve产生的进程(记住,execve也是系统调用)
联想start_thread(execve内部),里面有修改进程上下文的内容喔,所以以新的中断上下文返回
dancing girls vs Taxi girl
0-3g
3g-4g 内核态
如果每个进程都有自己的内核栈,切换也是一门学问
原因是:内核态下(3G以上空间),各进程的代码段/堆栈段是可以统一访问的
借用老师的话:内核是taxi
内核是什么?
内核是各种中断处理过程和内核线程的集合! 精炼啊 大道至简 道法自然
♦ 任何计算机系统都包含一个基本的程序集 合,称为操作系统。
– 内核(进程管理,进程调度,进程间通讯机 制,内存管理,中断异常处理,文件系统,I/O 系统,网络部分)
– 其他程序(例如函数库、shell程序、系统程序 等等)
♦ 操作系统的目的
– 与硬件交互,管理所有的硬件资源
– 为用户程序(应用程序)提供一个良好的执行 环境
能深入浅出一个系统架构图很考量一个系统设计人员
ls 命令 就是 一讲! 不简单
有时间的话 可以看看strace
某种程度上说,
cpu执行指令的演示很精彩
后者就是在说进程地址空间
调度简单说来就是控制权的转移,复杂的话就要考量,主要是
- 什么时候切换
- 选择哪些进程切换
具体的调度方法根据应用场景来分 就是 调度策略。
了解schedule函数是分析进程调度的基础,后续可以从O(1),cfs等进行扩展学习。