CPU是Central Processing Unit缩写, 指的是中央处理器。
程序运行流程
CPU所负责的是解释和运行最终转换为机器语言的代码内容
CPU和内存是有晶体管组成的电子部件,通常称为IC(Integrated Circuit,集成电路)。
从功能上来看,CPU的内部由4个部分构成,各部分之间由电流信号相互连通:
内存指的是计算机的主存储器(main memory,主存),主存通过控制芯片等与 CPU相连,主要负责存储指令和数据。主存由可读写的元素构成,每个字节(1字节=8位)都带有一个地址编号。CPU可通过该地址读取主存中的指令和数据,当然也可写入数据。主存中存储的指令和数据会随着计算机的关机而自动清除。
程序启动后,根据时钟信号,控制器会从内存中读取指令和数据。 通过对指令加以解释和运行,运算器会对数据进行计算,控制器根据运算结果来控制计算机。
CPU的4个构成部分中,开发者仅需了解寄存器即可,为什么呢?因为程序把寄存器作为对象来描述。
---汇编语言(assembly)
---汇编语言采用助记符(memornic)来编写程序,每个原本是电气信号的机器语言指令都会有一个与其相对应助记符。
---助记符通常为指令功能的英文单词的缩写
---eax和ebp表示的都是寄存器,eax是累加寄存器,ebp是基址寄存器。
---mov和add分别是数据的存储(move)和相加(addition)的缩写
---使用寄存器来试下数据的存储和加法运算
mov eax, dword ptr [ebp-8] ---将数值从内存复制到eax
add eax, dword ptr [ebp-0Ch] ---exa的值和内存的数值相加
mov dword ptr [ebp-4], eax ---将exa的数值存储到内存中
汇编语言和机器语言基本上是一一对应的,这一点和C、Java等高级编程语言有很大不同,这也是使用程序转化成机器语言的过程。
机器语言级别的程序是通过寄存器来处理的,也就是说,在开发者看来“CPU是寄存器的集合体”。
汇编语言是80385以上所使用的语言,eax和ebp是CPU内部的寄存器的名称。内存的存储场所通过地址编号来区别,而寄存器的种类则是通过名字来区别。
不同类型的CPU,其内部寄存器的数量、种类、寄存器存储的数值范围都是不同的。不过,根据功能的不同可将寄存器大致划分为8类:
寄存器中存储的内容即可以是指令也可以是数据
数据种类不同,存储该数值的寄存器也不同。CPU中每个寄存器的功能都是不同的。用于运算的数值放在累加寄存器中存储,表示内存地址的数值则放在基址寄存器和变址寄存器中存储。
对程序员来说,CPU是什么呢?
对程序员来说,CPU是具有各种功能的寄存器的集合体。其中程序计数器、累加寄存器、标志寄存器、指令寄存器、栈寄存器都只有一个,其他寄存器一般会有多个。
程序是如何按照流程来运行的呢?
程序实现:将123和456两个数值相加,并将结果输出到显示器。
用户发出启动程序的指示后,Windows等操作系统会把硬盘中刚保存的程序复制到内存中。存储指令和数据的内存,是通过地址来划分的。由于使用机器语言难以清晰地表明各地址存储的内容。实际上,一个命令和数据通常被存储在多个地址上,但为了便于说明,上图把指令、数据分配到一个地址中。
地址0100
是程序运行的开始位置,Windows等操作系统把程序从硬盘复制到内存后,会将程序计数器(CPU寄存器的一种)设定为0100
,然后程序便开始运行。
CPU每执行一个指令,程序计数器的值就会自动加1。例如,CPU执行0100
地址的指令后,程序计数器的值就会编程0101
,当执行的指令占据多个内存地址时,增加与指令长度响应的数值。然后,CPU的控制器就会参照程序计数器的数值,从内存中读取命令并执行。也就是说,程序计数器决定着程序的流程。
程序的流程分为顺序执行、条件分支、循环3种。
顺序执行的情况比较简单,每执行一个指令程序计数器的值就自动加1。但若程序中存在条件分支和循环,机器语言的指令就可将程序计数器的值设定为任意地址。这样一来,程序便可以返回到上一个地址来重复执行同一个指令,或跳转到任意地址。
示例:以条件分支为例,来具体说明循环时程序计数器的数值设定机制也是一样的
程序实现:把内存中存储的数值123的绝对值输出到显示其的程序的内存状态
程序运行的开始位置是0100地址,随着顺序计数器数值的增加,当到达0102地址时,如果累计寄存器的值是正数则执行跳转指令(jump指令)跳转到0104地址。此时,由于累加寄存器的值是123为正数,因此0103地址的指令被跳过,程序流程直接跳转到0104地址。也就是说“跳转到0104地址”这个指令间接执行了“将程序计数器设定成0104”这个操作。
条件分支和循环中使用的跳转指令(jump指令),会参照当前执行的运算结果来判断是否跳转。
标志寄存器,无论当前累加寄存器的运算结果是负数、0、正数,标志寄存器都会将其保存,同时也负责存放溢出、奇偶校验的结果。
CPU在进行运算时,标志寄存器的数值会根据运算结果自动设定。条件分支在跳转指令前会进行比较运算。置于是否执行跳转指令,则由CPU在参考标志寄存器的数值后进行判断。运算结果的正、0、负三种状态由标志寄存器的三个位表示。
CPU执行比较的机制很有意思,因此请务必牢记。
例如,假设要比较累加寄存器中存储的x
值和通用寄存器中存储的y
值,执行比较的指令后,CPU的运算装置就会在内部进行x-y
的减法运算。而无论减法运算的结果是整数、0、负数,都会保存到标志寄存器中。结果为正表示x
比y
大,零表示x
和y
相等,负表示x
比y
小。程序中的比较指令,就是在CPU内部做减法运算。
哪怕是高级语言编写的程序,函数调用处理也是通过把程序计数器的值设定函数的存储地址来实现的。不过,与条件分支、循环的机制有所不同,因为单纯的跳转指令无法实现函数的调用。函数调用需在完成函数内部的处理后,处理流程再返回到函数调入点(函数调用指令的下一个地址)。因此,如果只是跳转到函数的入口地址,处理流程就不知道应该返回到那里了。
示例:
图中地址
是将C语言编译成机器语言后运行时的地址,由于1行C语言程序在编译后通常会编程多行机器语言,所以地址是离散的。
给变量a
和b
分别代入123
和456
后,将其赋值给参数(parameter)来调用MyFunc()
函数的C语言程序。
通过跳转指令把程序计数器的值设定成 0260 也可实现调用 MyFuc()
函数。函数的调用原点(地址0132)和被调用函数(地址0260)之间的数据传递,可以通过内存或寄存器来实现。不过当函数处理进行到最后的0354地址时,我们知道应该将程序计数器的值设定成函数调用过后要执行的0154地址,但实际上这一操作根本无法实现。那么,怎么办才好呢?
机器语言的call
指令和return
指令能够解决这个问题,函数调用使用的是call
指令,而不是跳转jump
指令。在函数的入口地址设定到程序计数器之前,call
指令挥把调用函数后要执行的指令地址存储在名为栈(stack)的主存内。函数处理完毕后,再通过函数的出口来执行return
命令。return
命令的功能是把保存在栈中的地址设定到程序计数器中。
MyFunc()
函数被调用之前,0154地址保存在栈中。
MyFunc()
的处理完毕后,栈中的0154地址就会被读取出来,然后再被设定到程序计数器中。
在编译高级编程语言的程序后,函数调用的处理就会转换成call
指令,函数结束的处理则会转换成return
指令。这样一来,程序的运行也就变得非常流畅。
注:栈(stack)本来是“干草堆积如山”的意思。在程序领域表示不断地存储各种数据的内存区域。函数调用后之所以能正确地返回调用前的地址,就是栈的功劳。
通过基址寄存器和变址寄存器,可以对主内存上特定区域进行划分,从而实现类似数组的操作。
首先使用十六进制数将计算机内存上00000000
~FFFFFFFF
的地址划分出来,凡是该范围的内存区域,只要有一个32位的寄存器,即可查看全部的内存地址。但如果想要像数组那样分割特定的内存区域以达到连续查看的目的,使用基址寄存器和变址寄存器会更方便。
例如:
查看地址10000000
`1000FFFF`时,可将`10000000`存入基址寄存器,并使变址寄存器的值在`00000000`0000FFFF
变化。CPU则会把基址寄存器和变址寄存器的值解释为实际查看的内存地址。变址寄存器的值相当于高级语言中数组的索引功能。