引言:
现在,我们将开始编写完整的汇编语言程序,用编译器将它们可执行文件(如*.exe文件),在操作系统中运行。
这一章,我们将编写第一个这样的程序。
一个汇编语言程序从写出到最终执行的简要过程:
1、编写:使用文本编译器(如记事本、Nodpad、UltraEdit),用汇编语言编写汇编源程序。
2、编译连接:
使用汇编语言编译程序(MASM.EXE)对源程序文件中的源程序进行编译,产生目标文件;
再用连接程序(LINK.EXE)对目标文件进行连接,生成可在操作系统中直接运行的可执行文件。
可执行文件包含两部分内容:
(1)程序(从源程序中的汇编指令翻译过来的机器码)和数据(源程序中定义的数据)
(2)相关的描述信息(比如,程序有多大、要占用多少内存空间等)
3、执行可执行文件中的程序
在操作系统中,执行可执行文件中的程序。
操作系统依照可执行文件中的描述信息,将可执行文件中的机器码和数据加载入内存,并进行相关的初始化(比如设置CS:IP指向第一条要执行的指令),然后由CPU执行程序。
下面就是一段简单的汇编语言源程序:
中间的一段便是汇编指令,有对应的机器码,可以被编译为机器指令,最终被CPU执行。
上面和下面两段是伪指令,没有对应的机器码,最终不被CPU。
谁来执行伪指令?
伪指令是由编译器来执行的指令,编译器根据伪指令来进行相关的编译工作。
XXX segment
XXX ends
end
assume
定义一个段:
segment和ends是一对成对使用的伪指令,这是在写可被编译器编译的汇编程序时,必须用到的一对伪指令。
segment和ends的功能是定义一个段,segment说明一个段开始,ends说明一个段结束。
一个段必须有一个名称来标识,使用格式为:
段名 segment
段名 ends
一个汇编程序是由多个段组成的,这些段被用来存放代码、数据或当作栈空间来使用。
一个有意义的汇编程序中至少要有一个段,这个段用来存放代码。
End是一个汇编程序的结束标记,编译器在编译汇编程序的过程中,如果碰到了伪指令end,就结束对源程序的编译。
如果程序写完了,要在结尾处加上伪指令end。否则,编译器在编译程序时,无法知道程序在何处结束。
切记:不要把end和ends搞混了。
寄存器和段的关联假设:
assume:含义为“假设”。
它假设某一段寄存器和程序中的某一个用segment……ends定义的段相关联。
通过assume说明这种关联,在需要的情况下,编译程序可以将段寄存器和某一个具体的段相联系。
例如:
assume cs:codeseg
相当于告诉编译器段寄存器cs假设代码段的名称为codeseg
源程序中的程序:
汇编源程序:
伪指令 (编译器处理)
汇编指令(编译为机器码)
(注:我们通过伪指令告诉编译器哪里应该开始、哪里应该结束、哪里指向CS……)
程序:源程序中最终由计算机执行、处理的指令或数据。
注意:
以后可以将源程序文件中的所有内容称为源程序,将源程序中最终由计算机执行、处理的指令或数据,称为程序。
程序最先以汇编指令的形式存放在源程序中,经编译、连接后转变为机器码,存储在可执行文件(pe)中。
程序经编译连接后变为机器码,如图:
标号
一个标号指代了一个地址
codesg:放在segment的前面,作为一个段的名称,这个段的名称最终将被编译、连接程序处理为一个段的段地址。
程序的结构
任务:编程运算2^3。
(1)定义一个段
(2)实现处理任务
(3)程序结束
(4)段与段寄存器关联
汇编程序:
assume cs:abc
abc segment
mov ax,2
add ax,ax
add ax,ax
abc ends
end
程序返回
我们的程序最先以汇编指令的形式存在源程序中,经编译、连接后转变为机器码,存储在可执行文件中,那么它怎样得到运行呢?
DOS中的程序运行
DOS是一个单任务操作系统。
一个程序P2在可执行文件中,则必须有一个正在运行的程序P1,将P2从可执行文件中加载入内存后,将CPU的控制权交给P2,P2才能得以运行。P2开始运行后,P1暂停运行。
而当P2运行完毕后,应该将CPU的控制权交还给使它得以运行的程序P1,此后,P1继续运行。
现在,我们知道一个程序结束后,将CPU的控制权交还给使它得以运行的程序,我们称这个过程为程序返回。
程序返回
应该在程序的末尾添加返回的程序段。
mov ax,4c00H
int 21H (中断DOS)
这两条指令所实现的功能就是程序返回。
几个和结束相关的内容:段结束、程序结束、程序返回。
语法错误和逻辑错误
语法错误 逻辑错误
程序在编译时被编译器发现的错误; 程序在编译时不能表现出来的、在运行时发生的错误;
容易发现,如: 不容易发现。
aume cs:abc
abc segment
mov ax,2
add ax,ax
add ax,ax
end
assume cs:abc
abc segment
mov ax,2
add ax,ax
add ax,ax
mov ax,4c00H
int 21H
abc ends
end
一般来说有两类错误使我们得不到所期望的目标文件:
1、我们程序中有Severe Errors;
2、找不到所给出的源程序文件
个人建议用Notepad++编写程序,也要下载masm,方法不再详述。
我们用汇编语言编写好程序后,要将后缀名改为asm,然后再把程序和下载的masm中的link.exe、masm.exe和ml.exe放在一起,然后通过cmd命令找到文件路径,再进行编译连接,如:masm 1.asm,link 1.obj。
exe的执行:
我们刚才写的的程序没有向显示器输出任何信息。程序只是做了一些将数据送入寄存器和加法的操作,而这些事情,我们不可能从显示屏上看出来。
程序执行完成后,返回,屏幕上再次出现操作系统的提示符。
(这里我觉得一劳永逸解决比较好,不想用dosbox,老是出问题,就装了个虚拟机)
直接再cmd中输入ml 1.asm就可以生成1.exe文件
这里1.asm是已经编辑好的源程序
关于编译和链接
连接的作用是什么?
连接的作用有以下几个:
当源程序很大时,可以将它分为多个源程序文件来编译,每个源程序编译成为目标文件后,再用连接程序将它们连接到一起,生成一个可执行文件;
程序中调用了某个库文件的子程序,需要将这个库文件和该程序生成的目标文件连接到一起,生成一个可执行文件;
一个源程序编译后,得到了存有机器码的目标文件,目标文件中的有些内容还不能直接用来生成可执行文件,连接程序将此内容处理为最终的可执行信息。
所以,在只有一个源程序文件,而又不需要调用某个库中的子程序的情况下,也必须用连接程序对目标文件进行处理,生成可执行文件。
注意:对于连接的过程,可执行文件是我们要得到的最终结果。
我们用汇编语言编程,就要用到:编辑器(Edit)、编译器(masm)、连接器(link)、调试工具(debug)等所有工具,而这些工具都是在操作系统之上运行的程序,所以我们的学习过程必须在操作系统的环境中进行。
就像前面说的,在DOS中,可执行文件中的程序P1若要运行,必须有一个正在运行的程序P2,将P1从可执行文件中加载入内存,将CPU的控制权交给它,P1才能得以运行;
当P1运行完毕后,应该将CPU的控制权ji交还给使它得以运行的程序P2。
1.exe的执行过程:
(1)我们在提示符E:\X(路径)后面输入可执行文件的名字“1”,按Enter键。
(2)1.exe中的程序运行
(3)运行结束,返回,再次显示提示符:“E:\X”
问题:
执行第(1)步操作时,有一个正在运行的程序将1.exe中的程序加载入内存,这个正在运行的程序是什么?
他将程序加载入内存后,如何使程序得以运行?
执行第(3)步操作,程序运行结束后,返回到哪里?
先来看看这部分内容:
操作系统的外壳:
操作系统是由多个功能模块组成的庞大、复杂的软件系统。任何通用的操作系统,都要提供一个称为shell(外壳)的程序,用户(操作人员)使用这个程序来操作计算机系统工作。
DOS中有一个程序command.com,这个程序在DOS中称为ming命令解释器,也就是DOS系统的shell。
问题分析:
我们在DOS中直接执行1.exe时,是正在运行的command将1.exe中的程序加载入内存。
command设置CPU的CS:IP指向程序的第一条指令(即程序的入口);从而使程序得以运行。
程序运行结束后,返回到command中,CPU继续运行command。
回顾一下汇编程序从写出到执行的过程:
为了观察程序的运行过程,我们可以使用Debug。
Debug可以将程序加载入内存,设置CS:IP指向程序的入口,但Debug并不放弃对CPU的控制,这样,我们就可以使用Debug的相关命令来来单步执行程序,查看每条指令的执行结果。
注:debug相当于执行一条程序的指令然后马上中断一次。
让我们重新来进行一次程序的编写、编译、连接、执行,然后再用debug查看程序中每条指令的执行结果。
首先打开Notepad++,用汇编语言编写程序命名为1.asm:
(这里由于我编写的程序总是出问题,所以直接复制小甲鱼老师的代码了,之后再自己试试吧,顺便说一句,mov ax,4c00H int 21H是关闭程序)
然后将1.asm与masm中的ml.exe,masm.exe,link.exe放到同一目录下(由于16位汇编与64位系统不兼容,所以我放到虚拟机里了)
然后打开cmd命令框,找到1.asm所在的目录,直接ml 1.asm编译并连接,生成1.exe可执行程序,可以直接输入1.exe试一试程序是否能运行。
然后输入命令debug 1.exe,可以用R指令查看各寄存器
可以看到,debugjian将程序从可执行文件加载入内存后,cx中存放的是程序的长度。1.exe中程序的机器码共有15个字节。
现在程序已从1.exe中装入内存,接下来我们查看一下它的内容,可是我们查看哪里的内容呢?(查看DS的内容还是查看CS的内容)
程序被装入内存的什么地方?
我们如何得知?
在DOS系统中.exe文件中的程序的加载过程如下:
DS和CS之间的256个内存单元存放的是psp的内容(psp这里并没有搞明白,以后再说吧)
可以利用 -u来查看psp的内容
0B33:0之后的内容才是真正的程序,前面的PSP有它的作用(貌似牵扯到系统内核)
注意:有一步称为重定位的我们在上面没有说,因为这个问题和操作系统的关系较大,不作讨论。
总结:
程序加载后,DS中存放这程序所在内存区的段地址,这个内存区的偏移地址为0,则程序所在的内存区的地址为:ds:0;
这个内存区的前256个字节中存放的是PSP,dos用来和程序进行通信。
从256字节处向后的空间存放的是程序。
所以,我们从ds中可以得到PSP的段地址SA,PSP的偏移地址为0,则物理地址为SAx16+0
因为PSP占256(100H)字节,所以程序的物理地址是:
SAX16+0+256=SAX16+16X16=(SA+16)X16+0
可用段地址和偏移地址表示为:SA+10:0。
可以用U命令查看一下其他指令;
可以用T命令单步执行程序中的每一条指令并观察每条指令的执行结果
到了int 21,我们要用P命令执行
int 21执行后,显示”Program terminated normally“,返回到debug中。
表示程序正常结束。
这里要再强调一次:要用P命令执行int 21。
需要注意的是,在DOS中运行程序时,是command将程序加载入内存;
所以程序运行结束后,返回到command中,而在这里是debug将程序加载入内存,所以程序运行结束后要返回到Debug中。
使用Q命令退出Debug,将返回到command中,因为Debug是由command加载运行的。
我们在DOS中用debug 1.exe运行debug对1.exe进行跟踪时,程序加载的顺序是:command加载debug,debug加载1.exe。
返回的顺序是:从1.exe中的程序返回到Debug,从Debug返回到command。