转自 http://blog.csdn.net/yangbostar/article/details/6194133
入门知识,高手勿读
一、 概述
花指令是对抗反汇编的有效手段之一,正常代码添加了花指令之后,可以破坏静态反汇编的过程,使反汇编的结果出现错误。错误的反汇编结果会造成破解者的分析工作大量增加,进而使之不能理解程序的结构和算法,也就很难破解程序,从而达到病毒或软件保护的目的。
二、花指令分类
[2.1]可执行式花指令
顾名思义,可执行式花指令指的是能够正常运行的但又不改变原始程序逻辑性的一组无用指令。这类花指令有如下特点:①可以正常运行;②不改变任何寄存器的值;③反汇编器可以正确反汇编该指令。
例如这样几组花指令就属于该类别:PUSHEAX&POPEAX;NOP:INCEAX&DECEAX等等。这种类别的花指令组合形式很多,常常用在病毒代码的变形引擎中,病毒在传播时通过变形引擎随机产生一组该类别花指令并插入到病毒正常代码中,可以改变病毒的特征码,从而起到变形的作用。
[2.2]不可执行式花指令(垃圾指令)
本文主要就是讲这个方面,是指被插入到原始代码中但又不改变原始程序逻辑性的一组无用字节。这类花指令有如下特点:①不可以正常运行;②不改变任何寄存器的值;③反汇编器可能会错误反汇编这些字节。
根据反汇编的工作原理,只有当花指令同正常指令的开始几个字节被反汇编器识别成一条指令时,才能有效破坏反汇编的结果。因此,插入的花指令应当是一些不完整的指令,被插入的不完整指令可以是随机选择的。正因为不可执行花指令有这些特点,该类花指令才能应用到软件保护中。
Cullen等人指出为了能够有效“迷惑"静态反汇编工具,同时保证代码的正确运行,花指令必须满足两个基本特征,即:
1)垃圾数据必须是某个合法指令的一部分:
2)程序运行时,花指令必须位于实际不可执行的代码路径。
三、不可执行花指令的成功来自反汇编算法的缺陷
当前静态分析中采用的反汇编算法主要可以分为2类:线性扫描算法与行进递归算法。
[3.1]线性扫描反汇编算法
线性扫描算法p1从程序的入口点开始反汇编,然后对整个代码段进行扫描,反汇编扫描过程中所遇到的每条指令。线性扫描算法的缺点在于在冯诺依曼体系结构下,无法区分数据与代码,从而导致将代码段中嵌入的数据误解释为指令的操作码,以致最后得到错误的反汇编结果。
[3.2]行进递归反拒绾算法
相比线性扫描算法,行进递归算法通过程序的控制流来确定反汇编的下一条指令,遇到非控制转移指令时顺序进行反汇编,而遇到控制转移指令时则从转移地址处开始进行反汇编。行进递归算法的缺点在于准确确定间接转移目的地址的难度较大。
四、简单不可执行花指令
实际编程中不要简单花指令,否则容易被去除或被认为是病毒。
下面是的最典型形式:
jmp Label1
db thunkcode1;垃圾数据
Label1:
……
解析:
1.Jmp可以用call,ret,loop等替换
2.该垃圾数据通常是一条多字节指令的操作码,例如在thunkcode1处放入0e8h,由于0e8h是call指令的操作码,因此对0e8h进行解码时就会将它后面的4个字节,也就是maliciouscode的前4个字节看作是调用目标地址 [maliciouscode应该指Label1:开始处的4字节--lixiangminghate注],从而造成反汇编过程中的错误,达到隐藏恶意代码的目的。
五、稍复杂的花指令
[5.1]多节形式
典型形式的条件跳转混淆可能仅仅造成几条指令的反汇编错误,但是下面的多重顺序嵌套的条件跳转混淆则能够使更多指令的反汇编得到错误的结果。
举例:
JMP Label1
Db thunkcode1
Label1:
……
JMP Label2
Db thunkcode2
Label2:
……
[5.2]多层乱序
在上面的形式中,可以简单地将条件跳转到跳转目的地址之间的所有字节进行填充来破解混淆,于是有了条件混淆的一种新的形式,即多层乱序嵌套:
JMP Label1
Db thunkcode1
Label2:
……
JMP Label3
Db thunkcode3
Label1:
…….
JMP Label2
Db thunkcode2
Label3:
……