Arm Linux系统调用流程详细解析-SWI

 转自:http://www.diybl.com/course/6_system/linux/Linuxjs/20090515/167024.html




  Unix系统通过向内核发出系统调用(system call)实现了用户态进程和硬件设备之间的大部分接口。系统调用是操作系统提供的服务,用户程序通过各种系统调用,来引用内核提供的各种服务,系统调用的执行让用户程序陷入内核,该陷入动作由swi软中断完成

  应用编程接口(API)与系统调用的不同在于,前者只是一个函数定义,说明了如何获得一个给定的服务,而后者是通过软件中断向内核发出的一个明确的请求。POSIX标准针对API,而不针对系统调用。Unix系统给程序员提供了很多API库函数。libc的标准c库所定义的一些API引用了封装例程(wrapper routine)(其唯一目的就是发布系统调用)。通常情况下,每个系统调用对应一个封装例程,而封装例程定义了应用程序使用的API。反之则不然,一个API没必要对应一个特定的系统调用。从编程者的观点看,API和系统调用之间的差别是没有关系的:唯一相关的事情就是函数名、参数类型及返回代码的含义。然而,从内核设计者的观点看,这种差别确实有关系,因为系统调用属于内核,而用户态的库函数不属于内核。

  大部分封装例程返回一个整数,其值的含义依赖于相应的系统调用。返回-1通常表示内核不能满足进程的请求。系统调用处理程序的失败可能是由无效参数引起的,也可能是因为缺乏可用资源,或硬件出了问题等等。在libd库中定义的errno变量包含特定的出错码。每个出错码定义为一个常量宏。

  当用户态的进程调用一个系统调用时,CPU切换到内核态并开始执行一个内核函数。因为内核实现了很多不同的系统调用,因此进程必须传递一个名为系统调用号(system call number)的参数来识别所需的系统调用。所有的系统调用都返回一个整数值。这些返回值与封装例程返回值的约定是不同的。在内核中,整数或0表示系统调用成功结束,而负数表示一个出错条件。在后一种情况下,这个值就是存放在errno变量中必须返回给应用程序的负出错码。

  ARM Linux 系统利用SWI指令来从用户空间进入内核空间,还是先让我们了解下这个SWI指令吧。SWI指令用于产生软件中断,从而实现从用户模式变换到管理模式,CPSR保存到管理模式的SPSR,执行转移到SWI向量。在其他模式下也可使用SWI指令,处理器同样地切换到管理模式。指令格式如下:

SWI{cond} immed_24
其中:
  immed_24  24位立即数,值为从0――16777215之间的整数。
  使用SWI指令时,通常使用一下两种方法进行参数传递,SWI异常处理程序可以提供相关的服务,这两种方法均是用户软件协定。SWI异常中断处理程序要通过读取引起软件中断的SWI指令,以取得24为立即数。
  1)指令中24位的立即数指定了用户请求的服务类型,参数通过通用寄存器传递。如:
    MOV R0,#34
    SWI 12
  2)指令中的24位立即数被忽略,用户请求的服务类型有寄存器R0的只决定,参数通过其他的通用寄存器传递。如:
    MOV R0, #12
    MOV R1, #34
    SWI 0
  在SWI异常处理程序中,去除SWI立即数的步骤为:首先确定一起软中断的SWI指令时ARM指令还是Thumb指令,这可通过对SPSR访问得到;然后取得该SWI指令的地址,这可通过访问LR寄存器得到;接着读出指令,分解出立即数(低24位)。 


  下面的代码大家可以在entry-common.S中找到。在2.6.21中,认真研究大家会发现,你回避不了这样一个概念,EABI是什么东西?内核里面谈EABI,OABI,其实相对于系统调用的方式,当然我们所说的系统限于arm系统。 
  EABI (Extended ABI),说的是这样的一种新的系统调用方式
    mov r7, #num 
    swi 0x0
  原来的系统调用方式是这样, 
    swi (#num | 0x900000) (0x900000是个magic值)
  也就是说原来的调用方式(Old ABI)是通过跟随在swi指令中的调用号来进行的,现在的是根据r7中的值。
现在看两个宏:
    CONFIG_OABI_COMPAT 意思是说和old ABI兼容
    CONFIG_AEABI 意思是说指定现在的方式为EABI
  这两个宏可以同时配置,也可以都不配,也可以配置任何一种。我说一下内核是怎么处理这一问题的。 
  我们知道,sys_call_table 在内核中是个跳转表,这个表中存储的是一系列的函数指针,这些指针就是系统调用函数的指针,如(sys_open).系统调用是根据一个调用号(通常就是表的索引)找到实际该调用内核哪个函数,然后运行该函数完成的。
  首先,对于old ABI,内核给出的处理是给它建立一个单独的system call table,叫sys_oabi_call_table,这样,兼容方式下就会有两个system call table, 以old ABI方式的系统调用会执行old_syscall_table表中的系统调用函数,EABI方式的系统调用会用sys_call_table中的函数指针。
配置无外乎以下4中
  第一 两个宏都配置 行为就是上面说的那样
  第二 只配置CONFIG_OABI_COMPAT , 那么以old ABI方式调用的会用sys_oabi_call_table,以EABI方式调用的 用sys_call_table,和1实质相同,只是情况1更加明确。
  第三 只配置CONFIG_AEABI 系统中不存在 sys_oabi_call_table, 对old ABI方式调用不兼容。只能 以EABI方式调用,用sys_call_table
  第四 两个都没有配置 系统默认会只允许old ABI方式,但是不存在old_syscall_table,最终会通过sys_call_table 完成函数调用
  可以参考下面的代码,对我们的项目比较有用。

.align 5   
ENTRY(vector_swi)   
sub sp, sp, #S_FRAME_SIZE   
stmia sp, {r0 - r12} @ Calling r0 - r12   
add r8, sp, #S_PC   
stmdb r8, {sp, lr}^ @ Calling sp, lr   
mrs r8, spsr @ called from non-FIQ mode, so ok.   
str lr, [sp, #S_PC] @ Save calling PC   
str r8, [sp, #S_PSR] @ Save CPSR   
str r0, [sp, #S_OLD_R0] @ Save OLD_R0   
zero_fp   
  
/*   
* Get the system call number.   
*/   
  
#if defined(CONFIG_OABI_COMPAT)   
  
/*   
* If we have CONFIG_OABI_COMPAT then we need to look at the swi   
* value to determine if it is an EABI or an old ABI call.   
*/   
#ifdef CONFIG_ARM_THUMB   
tst r8, #PSR_T_BIT   
movne r10, #0 @ no thumb OABI emulation   
ldreq r10, [lr, #-4] @ get SWI instruction   
#else   
ldr r10, [lr, #-4] @ get SWI instruction   
A710( and ip, r10, #0x0f000000 @ check for SWI )   
A710( teq ip, #0x0f000000 )   
A710( bne .Larm710bug )   
#endif   
  
#elif defined(CONFIG_AEABI)   
  
/*   
* Pure EABI user space always put syscall number into scno (r7).   
*/   
A710( ldr ip, [lr, #-4] @ get SWI instruction )   
A710( and ip, ip, #0x0f000000 @ check for SWI )   
A710( teq ip, #0x0f000000 )   
A710( bne .Larm710bug )   
  
#elif defined(CONFIG_ARM_THUMB)   
  
/* Legacy ABI only, possibly thumb mode. */   
tst r8, #PSR_T_BIT @ this is SPSR from save_user_regs   
addne scno, r7, #__NR_SYSCALL_BASE @ put OS number in   
ldreq scno, [lr, #-4]   
  
#else   
  
/* Legacy ABI only. */   
ldr scno, [lr, #-4] @ get SWI instruction   
A710( and ip, scno, #0x0f000000 @ check for SWI )   
A710( teq ip, #0x0f000000 )   
A710( bne .Larm710bug )   
  
#endif   
  
#ifdef CONFIG_ALIGNMENT_TRAP   
ldr ip, __cr_alignment   
ldr ip, [ip]   
mcr p15, 0, ip, c1, c0 @ update control register   
#endif   
enable_irq   
  
get_thread_info tsk   
adr tbl, sys_call_table @ load syscall table pointer   
ldr ip, [tsk, #TI_FLAGS] @ check for syscall tracing   
  
#if defined(CONFIG_OABI_COMPAT)   
/*   
* If the swi argument is zero, this is an EABI call and we do nothing.   
*   
* If this is an old ABI call, get the syscall number into scno and   
* get the old ABI syscall table address.   
*/   
bics r10, r10, #0xff000000   
eorne scno, r10, #__NR_OABI_SYSCALL_BASE   
ldrne tbl, =sys_oabi_call_table   
#elif !defined(CONFIG_AEABI)   
bic scno, scno, #0xff000000 @ mask off SWI op-code   
eor scno, scno, #__NR_SYSCALL_BASE @ check OS number   
#endif   
  
stmdb sp!, {r4, r5} @ push fifth and sixth args   
tst ip, #_TIF_SYSCALL_TRACE @ are we tracing syscalls?   
bne __sys_trace   
  
cmp scno, #NR_syscalls @ check upper syscall limit   
adr lr, ret_fast_syscall @ return address   
ldrcc pc, [tbl, scno, lsl #2] @ call sys_* routine   
  
add r1, sp, #S_OFF   
2: mov why, #0 @ no longer a real syscall   
cmp scno, #(__ARM_NR_BASE - __NR_SYSCALL_BASE)   
eor r0, scno, #__NR_SYSCALL_BASE @ put OS number back   
bcs arm_syscall   
b sys_ni_syscall @ not private func   
  
/*   
* This is the really slow path. We're going to be doing   
* context switches, and waiting for our parent to respond.   
*/   
__sys_trace:   
mov r2, scno   
add r1, sp, #S_OFF   
mov r0, #0 @ trace entry [IP = 0]   
bl syscall_trace   
  
adr lr, __sys_trace_return @ return address   
mov scno, r0 @ syscall number (possibly new)   
add r1, sp, #S_R0 + S_OFF @ pointer to regs   
cmp scno, #NR_syscalls @ check upper syscall limit   
ldmccia r1, {r0 - r3} @ have to reload r0 - r3   
ldrcc pc, [tbl, scno, lsl #2] @ call sys_* routine

  系统调用是os操作系统提供的服务,用户程序通过各种系统调用,来引用内核提供的各种服务,系统调用的执行让用户程序陷入内核,该陷入动作由swi软中断完成.
  At91rm9200处理器对应的linux2.4.19内核系统调用对应的软中断定义如下:

#if defined(__thumb__)                             //thumb模式  
#define __syscall(name)                          \  
    "push    {r7}\n\t"                           \  
    "mov    r7, #" __sys1(__NR_##name) "\n\t"    \  
    "swi    0\n\t"                               \  
    "pop    {r7}"  
#else                                              //arm模式  
#define __syscall(name) "swi\t" __sys1(__NR_##name) "\n\t"  
#endif  
  
#define __sys2(x) #x  
#define __sys1(x) __sys2(x)  
#define __NR_SYSCALL_BASE    0x900000               //此为OS_NUMBER << 20运算值  
#define __NR_open            (__NR_SYSCALL_BASE+ 5) //0x900005 

  举一个例子来说:open系统调用,库函数最终会调用__syscall(open),宏展开之后为swi #__NR_open,即,swi #0x900005触发中断,中断号0x900005存放在[lr,#-4]地址中,处理器跳转到arch/arm/kernel/entry-common.S中vector_swi读取[lr,#-4]地址中的中断号,之后查询arch/arm/kernel/entry-common.S中的sys_call_table系统调用表,该表内容在arch/arm/kernel/calls.S中定义,__NR_open在表中对应的顺序号为

__syscall_start:

.long    SYMBOL_NAME(sys_open)                     //第5个  
...  
将sys_call_table[5]中内容传给pc,系统进入sys_open函数,处理实质的open动作  
  
注:用到的一些函数数据所在文件,如下所示  
arch/arm/kernel/calls.S声明了系统调用函数  
include/asm-arm/unistd.h定义了系统调用的调用号规则  
  
vector_swi定义在arch/arm/kernel/entry-common.S  
vector_IRQ定义在arch/arm/kernel/entry-armv.S  
vector_FIQ定义在arch/arm/kernel/entry-armv.S  
  
arch/arm/kernel/entry-common.S中对sys_call_table进行了定义:  
    .type    sys_call_table, #object  
ENTRY(sys_call_table)  
#include "calls.S"                                 //将calls.S中的内容顺序链接到这里  

源程序:

ENTRY(vector_swi)  
    save_user_regs  
    zero_fp  
    get_scno                                        //将[lr,#-4]中的中断号转储到scno(r7)  
    arm710_bug_check scno, ip  
#ifdef CONFIG_ALIGNMENT_TRAP  
    ldr    ip, __cr_alignment  
    ldr    ip, [ip]  
    mcr    p15, 0, ip, c1, c0                       @ update control register  
#endif  
    enable_irq ip  
  
    str    r4, [sp, #-S_OFF]!                       @ push fifth arg  
  
    get_current_task tsk  
    ldr    ip, [tsk, #TSK_PTRACE]                   @ check for syscall tracing  
    bic    scno, scno, #0xff000000                  @ mask off SWI op-code  
//#define OS_NUMBER    9[entry-header.S]  
//所以对于上面示例中open系统调用号scno=0x900005  
//eor scno,scno,#0x900000  
//之后scno=0x05  
    eor    scno, scno, #OS_NUMBER << 20             @ check OS number  
//sys_call_table项为calls.S的内容  
    adr    tbl, sys_call_table                      @ load syscall table pointer  
    tst    ip, #PT_TRACESYS                         @ are we tracing syscalls?  
    bne    __sys_trace  
  
    adrsvc    al, lr, ret_fast_syscall              @ return address  
    cmp    scno, #NR_syscalls                       @ check upper syscall limit  
//执行sys_open函数  
    ldrcc    pc, [tbl, scno, lsl #2]                @ call sys_* routine  
    add    r1, sp, #S_OFF  
2:  mov    why, #0                                  @ no longer a real syscall  
    cmp    scno, #ARMSWI_OFFSET  
    eor    r0, scno, #OS_NUMBER << 20               @ put OS number back  
    bcs    SYMBOL_NAME(arm_syscall)      
    b    SYMBOL_NAME(sys_ni_syscall)                @ not private func  
    /*  
     * This is the really slow path. We're going to be doing  
     * context switches, and waiting for our parent to respond.  
     */  
__sys_trace:  
    add    r1, sp, #S_OFF  
    mov    r0, #0                                   @ trace entry [IP = 0]  
    bl    SYMBOL_NAME(syscall_trace)  
/*  
//2007-07-01 gliethttp [entry-header.S]  
//Like adr, but force SVC mode (if required)  
  .macro adrsvc, cond, reg, label  
     adr\cond \reg, \label  
  .endm  
//对应反汇编:  
//add lr, pc, #16 ; lr = __sys_trace_return  
*/  
    adrsvc    al, lr, __sys_trace_return            @ return address  
    add    r1, sp, #S_R0 + S_OFF                    @ pointer to regs  
    cmp    scno, #NR_syscalls                       @ check upper syscall limit  
    ldmccia    r1, {r0 - r3}                        @ have to reload r0 - r3  
    ldrcc    pc, [tbl, scno, lsl #2]                @ call sys_* routine  
    b    2b  
  
__sys_trace_return:  
    str    r0, [sp, #S_R0 + S_OFF]!                 @ save returned r0  
    mov    r1, sp  
    mov    r0, #1                                   @ trace exit [IP = 1]  
    bl    SYMBOL_NAME(syscall_trace)  
    b    ret_disable_irq  
  
    .align    5  
#ifdef CONFIG_ALIGNMENT_TRAP  
    .type    __cr_alignment, #object  
__cr_alignment:  
    .word    SYMBOL_NAME(cr_alignment)  
#endif  
  
    .type    sys_call_table, #object  
ENTRY(sys_call_table)  
#include "calls.S"  

你可能感兴趣的:(Linux,Kernel)