win32汇编编程系列笔记(五)之变量的灵活使用

 

变量的使用

1. 以不同的类型访问变量

这个话题有点像C语言中的数据类型强制转换,C语言中的类型转换指的是把一个变量的内容转换成另外一种类型,转换过程中,数据的内容已经发生了变化,如把浮点数转换成整数后,小数点后的内容就丢失了。在MASM中以不同的类型访问不会对变量造成影响。

举一个简单的例子,先以db方式定义一个缓冲区:

szBuffer    db      1024 dup (?)

然后从其他地方取得了数据,但数据的格式是以字方式组织的,要处理数据,最有效的方法是两个字节两个字节地处理,但如果在程序中把szBuffer的值放入ax

mov     ax,szBuffer

编译器会报一个错:

error A2070: invalid instruction operands

意思是无效的指令操作,为什么呢?因为szBuffer是用db定义的,而ax的尺寸是一个word,等于两个字节,尺寸不符合。MASM中,如果要用指定类型之外的长度访问变量,必须显式地指出要访问的长度,这样,编译器忽略语法上的长度检验,仅使用变量的地址。使用的方法是:

类型 ptr 变量名

类型可以是byteworddwordfwordqwordreal8real10。如:

mov     ax,word ptr szBuffer

mov     eax,dword ptr szBuffer

上述语句能通过编译,当然,类型必须和操作的寄存器长度匹配。在这里要注意的是,指定类型的参数访问并不会去检测长度是否溢出,看下面一段代码:

                .data

bTest1          db      12h

wTest2          dw      1234h

dwTest3         dd      12345678h

               

 

                .code

               

                mov     al,bTest1

                mov     ax,word ptr bTest1

                mov     eax,dword ptr bTest1

               

上面的程序片断,每一句执行后寄存器中的值是什么呢,mov al,bTest1这一句很显然使al等于12h,下面的两句呢,axeax难道等于0012h00000012h吗?实际运行结果很“奇怪”,竟然是3412h78123412h,为什么呢?先来看反汇编的内容:

.data段中的变量

:00403000 12 34 12 78 56 34 12 ...

                   

                         dwTest3

               ──────    wTest2

            ─────────    bTest1

 

.code段中的代码

: 00401000 A 000304000                mov al, byte ptr [00403000]

:00401005 66A 100304000          mov ax, word ptr [00403000]

:0040100B A100304000            mov eax, dword ptr [00403000]

.data段中的变量是按顺序从低地址往高地址排列的,对于超过一个字节的数据,80386处理器的数据排列方式是低位数据在低地址,所以wTest21234h在内存中的排列是34h 12h,因为34h是低位。同样,dwTest3在内存中以78h 56h 34h 12h从低地址往高地址存放,在执行指令mov ax,word ptr bTest1的时候,是从bTest1的地址403000h处取一个字,其长度已经超过了bTest1的范围并落到了wTest2中,从内存中看,是取了bTest1的数据12hwTest2的低位34h,在这两个字节中,12h位于低地址,所以ax中的数值是3412h。同样道理,看另一条指令:

mov     eax,dword ptr bTest1

这条指令取了bTest1wTest2的全部和dwTest3的最低位78h,在内存中的排列是12h  34h 12h 78h,所以eax等于78123412h

这个例子说明了汇编中用ptr强制覆盖变量长度的时候,实质上是只用了变量的地址而禁止编译器进行检验,编译器并不会考虑定界的问题,程序员在使用的时候必须对内存中的数据排列有个全局概念,以免越界存取到意料之外的数据。

如果程序员的本意是类似于C语言的强制类型转换,想把bTest1的一个字节扩展到一个字或一个双字再放到axeax中,高位保持0而不是越界存取到其他的变量,可以用80386的扩展指令来实现。80386处理器提供的movzx指令可以实现这个功能,例如:

movzx           ax,bTest1          ;例1

movzx           eax,bTest1         ;例2

movzx           eax,cl             ;例3

movzx           eax,ax             ;例4

   1把单字节变量bTest1的值扩展到16位放入ax中。

   2把单字节变量bTest1的值扩展到32位放入eax中。

   3cl中的8位值扩展到32位放入eax中。

   4ax中的16位值扩展到32位放入eax中。

movzx指令进行数据长度扩展是Win32汇编中经常用到的技巧。

2. 变量的尺寸和数量

在源程序中用到变量的尺寸和数量的时候,可以用sizeoflengthof伪指令来实现,格式是:

sizeof                变量名、数据类型或数据结构名

lengthof              变量名、数据类型或数据结构名

sizeof伪指令可以取得变量、数据类型或数据结构以字节为单位的长度,lengthof可以取得变量中数据的项数。假如定义了以下数据:

stWndClass         WNDCLASS     <>

szHello            db           'Hello,world!',0

dwTest             dd           1,2,3,4

                  

                   .code

                  

                   mov          eax,sizeof stWndClass

                   mov          ebx,sizeof WNDCLASS

                   mov          ecx,sizeof szHello

                   mov          edx,sizeof dword

                   mov          esi,sizeof dwTest

执行后eax的值是stWndClass结构的长度40ebx同样是40ecx的值是13,就是“Hello,world!”字符串的长度加上一个字节的0结束符,edx的值是一个双字的长度:4,而esi则等于4个双字的长度16

如果把所有的sizeof换成lengthof,那么eax会等于1,因为只定义了1WNDCLASS,而ecx同样等于13esi则等于4,而lengthof WNDCLASSlengthof dword是非法的用法,编译程序会报错。

要注意的是,sizeoflengthof的数值是编译时候产生的,由编译器传递到指令中去,上边的指令最后产生的代码就是:

mov            eax,40

mov            ebx,40

mov            ecx,13

mov            edx,4

mov            esi,16

  如果为了把 Hello World 分两行定义, szHello 是这样定义的:

szHello       db      'Hello',0dh,0ah

              db      'World',0

那么sizeof szHello是多少呢?注意!是7而不是13MASM中的变量定义只认一行,后一行db 'World',0实际上是另一个没有名称的数据定义,编译器认为sizeof szHello是第一行字符的数量。虽然把szHello的地址当参数传给MessageBox等函数显示时会把两行都显示出来,但严格地说这是越界使用变量。虽然在实际的应用中这样定义长字符串的用法很普遍,因为如果要显示一屏幕帮助,一行是不够的,但要注意的是:要用到这种字符串的长度时,千万不要用sizeof去表示,最好是在程序中用lstrlen函数去计算。

 

获取变量地址

获取变量地址的操作对于全局变量和局部变量是不同的。

对于全局变量,它的地址在编译的时候已经由编译器确定了,它的用法大家都不陌生:

mov         寄存器,offset 变量名

其中offset是取变量地址的伪操作符,和sizeof伪操作符一样,它仅把变量的地址代到指令中去,这个操作是在编译时而不是在运行时完成的。

对于局部变量,它是用ebp来做指针操作的,假设ebp的值是40100h,那么局部变量1的地址是ebp-4400FCh,由于ebp的值随着程序的执行环境不同可能是不同的,所以局部变量的地址值在编译的时候也是不确定的,不可能用offset伪操作符来获取它的地址。

80386处理器中有一条指令用来取指针的地址,就是lea指令,如:

lea         eax,[ebp-4]

该指令可以在运行时按照ebp的值实际计算出地址放到eax中。

如果要在invoke伪指令的参数中用到一个局部变量的地址,该怎么办呢?参数中是不可能写入lea指令的,用offset又是不对的。MASM对此有一个专用的伪操作符addr,其格式为:

addr     局部变量名和全局变量名

addr后跟全局变量名的时候,用法和offset是相同的;当addr后面跟局部变量名的时候,编译器会自动用lea指令先把地址取到eax中,然后用eax来代替变量地址使用。注意addr伪操作符只能在invoke的参数中使用,不能用在类似于下列的场合:

mov eax,addr 局部变量名   ;注意:错误用法

  假设在一个子程序中有如下 invoke 指令:

  invoke  Test,eax,addr szHello

其中Test是一个需要两个参数的子程序,szHello是一个局部变量,会发生什么结果呢?编译器会把invoke伪指令和addr翻译成下面这个模样:

lea    eax,[ebp-4]

push   eax    ;参数2addr szHello

push   eax    ;参数1eax

call   Test

发现了什么?到push第一个参数eax之前,eax的值已经被lea eax,[ebp-4]指令覆盖了!也就是说,要用到的eax的值不再有效,所以,当在invoke中使用addr伪操作符时,注意在它的前面不能用eax,否则eax的值会被覆盖掉,当然eaxaddr的后面的参数中用是可以的。幸亏MASM编译器对这种情况有如下错误提示:

error A2133: register value overwritten by INVOKE

否则,不知道又会引出多少莫名其妙的错误!

 

 

你可能感兴趣的:(Win32)