IDA实例教程

 

作者:笨笨雄

邮箱:[email protected]

 

1 软件环境

 

       静态分析有很多好处,例如加壳的程序(尽管对于高手来说这并不会耗费太多时间),我们不需要寻找OEP,也不需要解除自校验,只要修复IAT,DUMP下来就可以动手分析了。假如你需要修改程序,可以使用内存补丁技术。动态与静态,调试器与反汇编器结合可以简化分析任务,帮助我们理解代码。因此掌握一种反汇编器是非常必要的。IDA可以说是这方面的首选工具,它为我们提供了丰富的功能,以帮助我们进行逆向分析。这从IDA复杂的工作界面便可以知道。

 

IDA实例教程_第1张图片

                                                                   种类繁多的工具栏

 

       在分辨率不高的情况,这些工具栏与反汇编窗口挤在小屏幕里,看起来不爽。我一般把它关闭(查看=>工具栏=>主工具栏)以获得更好的视觉效果。当我们需要这些功能的时候,直接使用快捷键就可以了。下面是常用快捷键的清单:

 

快捷键

功能

注释

C

转换为代码

一般在IDA无法识别代码时使用这两个功能整理代码

D

转换为数据

A

转换为字符

N

为标签重命名

方便记忆,避免重复分析。

添加注释

R

把立即值转换为字符

便于分析立即值

H

把立即值转换为10进制

Q

把立即值转换为16进制

B

把立即值转换为2进制

G

跳转到指定地址

 

X

交叉参考

便于查找API或变量的引用

SHIFT+/

计算器

 

ALT+ENTER

新建窗口并跳转到选中地址

这四个功能都是方便在不同函数之间分析(尤其是多层次的调用)。具体使用看个人喜好

ALT+F3

关闭当前分析窗口

ESC

返回前一个保存位置

CTRL+ENTER

返回后一个保存位置

 

       在工具栏下面的便是工作窗口。主要的窗口分页有“IDA View-A”、“Name”、“Strings”、“Exports”和“Imports”。对于后面3项相信大家都不会陌生了,它们分别是字符参考,输出函数参考和输入函数参考。Name是命名窗口,在那里可以看到我们命名的函数或者变量。这四个窗口都支持索引功能,可以通过双击来快速切换到分析窗口中的相关内容,使用起来十分方便。

 

IDA实例教程_第2张图片

                                                        简单输入几个字符即可定位目标

 

         IDA View-A是分析窗口,支持两种显示模式,除了常见的反汇编模式之后,还提供图形视图以及其他有趣的功能。

 

IDA实例教程_第3张图片

                                                          IDA的反汇编窗口

 

一般我们在分析的时候,并不关心程序的机械码,所以IDA为我们自动隐藏了这些信息。如果你有需要,可以通过以下步骤来设置:

        选项=>常规=>反汇编=>显示反汇编行部分=>机械码字节数=>修改为你允许显示的大小

       现在让我们以论坛脱壳版块置顶帖的那个经典为例,看看图形视图的表现。首先我们到以下连接下载:http://bbs.pediy.com/upload/bbs/unpackfaq/notepad.upx.rar

 

IDA实例教程_第4张图片

                                     你能通过图形视图及其缩略图快速找到壳的出口吗?

       如图所示,标签40EA0E便是壳的出口代码的地址。在OD中直接跳到该地址,下断点,然后运行到该处,再单步便能看到OEP了。假如希望通过跳转法找OEP,相信图形视图比你在OD一个一个跳转跟随,要快得多。

       再来看看这个壳的另类脱法。直接运行该程序, DUMP下来,再使用IMPORTREC的IAT AutoSearch功能修复输入表。用IDA打开修复了输入表的DUMP文件。在IMPORT窗口随便选一个API,随便通过交叉参考跳转到一个函数的代码。

 

                                           此处为文件输入表的位置

 

       我选了RegQueryValueExA,通过交叉参考,来到Sub_402488处的函数代码。

 

IDA实例教程_第5张图片

       用鼠标拖动缩略图中的虚线框到上方,便能看到该CALL的头部了。然后按下图指示操作:

 

IDA实例教程_第6张图片

                                 在函数标记上点击鼠标右键

 

       处于最上层的函数,便是OEP了,使用PE工具修改文件入口为10CC。现在函数可以正常工作了。这个方法的原理是通常我们写程序都有如下流程:

 

Main proc

                     //代码

                     CALL  FUN1

                     //代码

                     CALL  FUN2

                     //代码

END proc

 

       所以处于函数调用最上层的便是MAIN函数了。当然这个方法局限性很大,这里只是对该功能的一种介绍。我们留意到图表功能有两个选项,在上面的例子中,我们使用的是“交叉参考到”。我想细心的朋友大概能通过“交叉参考来自”左边的小图标猜出它的用途了。该功能可以显示目标函数调用了什么函数,当然也包括API。这样除了观察函数的输入参数来判断是否关键CALL之外,又多了一个参考途径。

 

 

2、强大的IDC

 

有时我们需要分析一些非文件格式的代码,例如ShellCode,远线程注入和病毒。这些代码的特点便是动态获取API,这给静态分析带来困难。尽管IDA支持分析2进制文件,但是缺少IAT的情况下,分析起来跟不方便。频繁的切换调试器查看并不是一个好方法。IDC是IDA的脚本语言,它功能强大,为我们提供了另一条与调试器交互的途径。

 

如何使调试器获得IDA分析得出的符号?

IDA提供多种文件格式输出,调试器可以通过解释这些文件获得一些符号。你可以通过文件菜单中的“创建文件”获得更多的信息。

以OD为例,它的GODUP插件支持解释MAP文件(还能加载IDA的SIG)。在IDA中使用如下步骤:

菜单:      文件=>创建文件=>创建MAP文件

即可创建MAP文件,然后切换到OD,使用如下步骤便能获得符号了:

菜单:      插件=>GODUP Plugin=>Map Loader=>Load labels

 

仍然以那个经典的UPX加壳的NOTEPAD为例子,这次我们用OD打开,在到达OEP之后DUMP下来,不修复输入表,直接用IDA载入后看到下图:

 

IDA实例教程_第7张图片

                                  丰富的文件载入选项

 

需要注意的是Make imports segment是PE文件特有的选项,该选项会隐藏输入表区域的所有数据,同时你获得的好处便是能在图表功能中看到API的调用。假如你希望查看在输入表的范围内的代码或者数据,你需要使用从菜单中选择“编辑”=>“区段”以删除遮挡数据的部分区段。

为了更真实的模拟从内存中截取代码的情况,在这里选择Binary file,载入偏移量选400000(根据实际代码在内存中的基址来选择),然后IDA就开始尝试分析可能存在于该文件中的代码了。对照OD中的OEP地址,在IDA中可以看到以下代码:

 

seg000:004010CC                 push    ebp

seg000:004010CD                 mov     ebp, esp

seg000:004010CF                 sub     esp, 44h

seg000:004010D2                 push    esi

seg000:004010D3                 call    ds:dword_4063E4

seg000:004010D9                 mov     esi, eax

seg000:004010DB                 mov     al, [eax]

seg000:004010DD                 cmp     al, 22h

seg000:004010DF                 jnz     short loc_4010FC

                                                                    OEP处的部分代码

 

OD中对应的显示:

 

004010D3    FF15 E4634000   call    dword ptr [4063E4]   ; kernel32.GetCommandLineA

 

使用以下ollyscript (附件中的ollyGetSym.txt)提取IAT的符号:

 

var ea

var Ecount                                                //0分隔号的记数器

var oFile

 

ask "请输入IAT起始地址"

cmp $RESULT, 0

je ECancel

mov ea, $RESULT

ask "输出文件?"

cmp $RESULT, 0

je ECancel

mov oFile, $RESULT

 

TryGetSym:

GN [ea]                                                    //获取该地址的符号

cmp $RESULT,00000000             //OLLYSCRIPT是区分000000000

je ETest

WRTA oFile,$RESULT_2

 

mov Ecount,0

add ea,4

jmp TryGetSym

 

ECancel:

msg "无效输入"

ret

 

ETest:

cmp Ecount,1                                    //不同模块的地址以0分隔

je Send                                              //若存在两个DWORD0则认为是末尾

add Ecount,1

add ea,4

jmp TryGetSym

 

SEnd:

Ret

 

使用下面IDC脚本获取符号并对相应地址重命名:

 

#include

 

static main() {

  auto Sbuffer,ea,zcount,filehandle,fileName,CustEa;

fileName = AskFile (0,"*.*","打开IAT符号文件");

CustEa = AskAddr(0,"目标IAT地址");

filehandle = fopen(fileName,"r");

for (ea = CustEa; zcount < 2; ea = ea + 4){

       if (Dword(ea) !=0){

       Sbuffer = readstr(filehandle);

              if(strlen(Sbuffer) < 2){         //ollyscript的输出文件存在无效字符                            Sbuffer = readstr(filehandle); //如果字符无效则再取一次字符

                                          }

       MakeNameEx (ea,Sbuffer,SN_AUTO );    //为对应DWORD改名

       zcount = 0;

                            }

       else{

       zcount = zcount + 1;

              }

                                          }

fclose(filehandle) ;

}

GetSym.idc

 

正如ollyscript接近于ASM,IDC的函数及其语法也近似于C语言(详见IDA的帮助),在编写几个脚本之后,便能轻松掌握它的用法。

 

seg000:004010CC                 push    ebp

seg000:004010CD                 mov     ebp, esp

seg000:004010CF                 sub     esp, 44h

seg000:004010D2                 push    esi

seg000:004010D3                 call    ds:GetCommandLineA_

seg000:004010D9                 mov     esi, eax

seg000:004010DB                 mov     al, [eax]

seg000:004010DD                 cmp     al, 22h

seg000:004010DF                 jnz     short loc_4010FC

现在可以正常显示函数调用的API了

 

下面来看看另外一个例子中IDC的表现。附件中的Exvirus.v是一个木马程序。当然这里并不是要分析这个木马,更不会运行它,在静态分析的环境下,很安全。

 

IDA实例教程_第8张图片

                         几乎都是乱码的窗口

 

加密了的字符,总要在使用之前解密。也就是说可以通过加密字符的交叉引用定位解密代码。

 

lea     edx, [ebp+var_4]

mov     eax, offset s_XsXQqSxUsSq ; "抿遽翦燥镬桢祓巢宇狃箬雉"

call    sub_404BEE

通过交叉引用定位的函数

 

由字符参考中的“SOFTWARE\Borland\Delphi\RTL”可以判断该木马是用Delphi编写的(也可从函数的参数传递约定判断)。在详细分析之前,先在菜单中进行如下步骤的操作:

 

文件=>加载文件=>加载FLIRT签名文件=>Delphi7 RTL/VCL/CLX

 

现在IDA将会根据Delphi的函数特征识别出一些库函数,这样可以减少很多工作量。

CODE:00404C2C                 mov     [ebp+var_8],1  //已处理字符记数器

CODE:00404C2C

CODE:00404C33

CODE:00404C33 loc_404C33:             ; CODE XREF: sub_404BEE+6Aj

CODE:00404C33                 mov     eax, [ebp+var_4]

CODE:00404C36                 mov     edx, [ebp+var_8]

CODE:00404C39                 mov     bl, [eax+edx-1]      //单字节取字符解密

CODE:00404C3D                 add     bl, 80h

CODE:00404C40                 lea     eax, [ebp+var_C]

CODE:00404C43                 mov     edx, ebx

CODE:00404C45     call    @System@@LStrFromChar$qqrr17System@AnsiStringc

CODE:00404C45

CODE:00404C4A                 mov     edx, [ebp+var_C]

CODE:00404C4D                 mov     eax, edi

CODE:00404C4F                 call    @System@@LStrCat$qqrv

CODE:00404C4F

CODE:00404C54                 inc     [ebp+var_8]

CODE:00404C57                 dec     esi     //字符长度=0跳出循环,解密完毕

CODE:00404C58                 jnz     short loc_404C33

 

函数较长,这里只列出关键代码。判断这部分为关键代码主要是因为整个函数就只有该处是循环。解密是对一定长度的数据进行运算,因此会有一个循环对字符中的数据逐一解密。然后从输入参数与寄存器或者堆栈的关联便可以理解函数的关键部分是如何工作的。由于IDA已经为我们识别出Delphi的库函数,所以这里很容易便知道解密的方便是对目标字符的每个字节都加上80h。下面来看看我如何使用IDC来完成解密字符的工作。

 

 

 

 

#include "idc.idc"

 

static main() {

  auto ea,x,y,z,zbyte,SRange,TStrLen,DeCodeBuffer,DeCodeCounter,NotTarget;

 

x = 0x404bee;

 

  for ( y=RfirstB(x); y != BADADDR; y=RnextB(x,y) ){  //通过交叉参考取得函数调用地址

       for (SRange = 4; SRange < 0x50; SRange++){

              z = y - SRange;

              zbyte = Byte(z);

              if (zbyte == 0xb8){   //mov eax,mem32的机械码是b8

                     zbyte = Dword(z + 1);

                     ea = Dword(zbyte);

                     if (ea != 0xFFFFFFFF){   //判断mem32是否有效,防止识别错指令

                            if (Byte(zbyte - 1) == 1){  //在字符指针前一个字节写入处理标记

                                   break;             //避免重复处理

                                                  }

                            PatchByte (zbyte - 1,1);

                            TStrLen = 0;

                            while (TStrLen < 0x30){   //解密的循环

                            DeCodeCounter = zbyte + TStrLen;

                            DeCodeBuffer = Byte(DeCodeCounter) + 0x80;

                            if (DeCodeBuffer == 0x80) break;

                            PatchByte (DeCodeCounter,DeCodeBuffer);

                            TStrLen++;

                                                        }

                            MakeUnknown (zbyte,TStrLen,0);   //取消IDA原来的分析结果

                            MakeStr (zbyte, DeCodeCounter);   //把该位置标记为字符

                            break;

                                            }

                                  }

                                               }

                                                       }

              }

Decode.idc

 

 

 

 

 

 

 

       既然可以通过加密字符定位目标函数,那么也可以通过加密函数定位加密字符。通过使用解密函数的交叉引用,往上搜索,解密第一条mov eax,mem32中的字符。当然这里个脚本写得有点简陋,并不能完全解决程序中的加密字符。这个就任务就留给读者来挑战吧。这里要注意的是我在编写IDC的过程中遇到很多BUG,这是因为IDA区分大小写(调试了很久才知道)。此外要转换数据类型得先把原来的分析结果取消才可以。最后要看到下图的窗口,在运行脚本后,你需要重新打开字符参考窗口(不会自动刷新)。

 

IDA实例教程_第9张图片

                                        解密后的字符参考窗口

 

3、静态脱壳

 

上一节我们用IDC完成了字符解密的工作,既然脱壳的过程实际就是对源程序的解密,现在让我们来尝试在不运行壳的情况下把壳解决掉。首先到下面连接下载一个壳:

 

http://www.pediy.com/tools/PACK/Protectors/MSLRH/MSLRHv0.31a.rar

 

主页对这个壳的介绍是可以作为Unpackme练练手,现在就以该壳的主程序作为例子讲解如何静态脱壳。首先用IDA加载该壳的主程序。

 

seg005:004560FA loc_4560FA:        ; CODE XREF: start:loc_4560F4j

seg005:004560FA                 call    sub_456109

seg005:004560FA

seg005:004560FA start           endp             //入口函数的结尾   

seg005:004560FA

seg005:004560FF

seg005:004560FF

seg005:004560FF

seg005:004560FF sub_4560FF  proc near   ; CODE XREF: seg005:00456104p

seg005:004560FF                             ; sub_456109p   //红色

seg005:004560FF                 call    sub_456DEF

seg005:004560FF

seg005:004560FF sub_4560FF      endp

seg005:004560FF

seg005:00456104                 call    sub_4560FF

seg005:00456104

seg005:00456109

seg005:00456109

seg005:00456109

seg005:00456109 sub_456109     proc near  ; CODE XREF: start:loc_4560FAp

seg005:00456109     call    near ptr sub_4560FF+1  //+1表示反汇编出现混乱

 

正常的交叉参考标记是绿色,当显示为红色时则证明与其他部分的反汇编代码产生冲突。另外在jcc,jmp和call后面出现“+X”的符号(X为任意数字),一般也为反汇编出现混乱。在正式分析之前,我们必须找到花指令的规律,编写脚本,除去它的影响。现在我们从最初产生影响的地方开始。点击地址4560FF,按D

 

seg005:004560FF byte_4560FF      db 0E8h;     CODE XREF: seg005:00456p

seg005:00456100 unk_456100      db 0EBh ; ?  ; CODE XREF: sub_456109p

seg005:00456101                 db  0Ch

seg005:00456102                 db    0

seg005:00456103                 db    0

seg005:00456104                 call    near ptr byte_4560FF

注意00456104处也是花指令之一,它的作用就是让IDA误以为004560FF处为有效指令。因此也在该位置上按D,将其转换为数据。而在00456100处按C转换为代码。

 

seg005:004560FA                 call    sub_456109

seg005:004560FA

seg005:004560FA start           endp

seg005:004560FA

seg005:004560FA ; ---------------------------------------------------------------------------

seg005:004560FF                 db 0E8h

seg005:00456100 ; ---------------------------------------------------------------------------

seg005:00456100

seg005:00456100 loc_456100:               ; CODE XREF: sub_456109p

seg005:00456100                 jmp     short loc_45610E

seg005:00456100

seg005:00456100 ; ---------------------------------------------------------------------------

seg005:00456102                 db    0

seg005:00456103                 db    0

seg005:00456104                 db 0E8h

seg005:00456105                 db 0F6h ; ?

seg005:00456106                 db 0FFh

seg005:00456107                 db 0FFh

seg005:00456108                 db 0FFh

seg005:00456109

seg005:00456109

seg005:00456109 sub_456109   proc near  ; CODE XREF: start:loc_4560FAp

seg005:00456109                 call    loc_456100

seg005:00456109

seg005:0045610E

seg005:0045610E loc_45610E:    ; CODE XREF: seg005:loc_456100j

seg005:0045610E                 add     esp, 8

 

现在我们手动修正了一处被花掉的代码。我们知道OPCODE的E8和EB后面的实际是一个相对地址偏移,而不是地址编码(反汇编翻译成地址是便于分析)。因此可能你已经想到通过搜索内存中的相应指令序列,然后告诉IDA什么是代码,什么则不是。读者可以先试试自己找出壳中花指令的规律,然后对比一下结果。

 

经过手动整理之后,发现壳使用了下面4种花指令代码:

 

call    label1

db 0E8h

label2:

jmp    label3

db 0

db 0

db 0E8h

db 0F6h ;

db 0FFh

db 0FFh

db 0FFh

label1:

call    label2

label3:

add     esp, 8

花指令1

 

     Jz     label1

     Jnz    label1

     db 0EBh

db  2

label1:

     jmp   label2

     db 81h

label2:

花指令2

 

push    eax

call    label1

db 29h

db 5Ah

label1:

pop     eax

imul    eax, 3

Call    label2

db 29h

db 5Ah

label2:

add     esp, 4

pop     eax

花指令3

 

Jmp label1

db 68h

Label1:

Jmp label2

db 0CDh, 20h

Label2:

Jmp label3

db 0E8h

Label3:

花指令4

 

在知道花指令结构之后,容易写出下面脚本用NOP(0x90h)来代替干扰的反汇编器的数据:

 

static PatchJunkCode() {

  auto x,FBin,ProcRange;

 

FBin = "E8 0A 00 00 00 E8 EB 0C 00 00 E8 F6 FF FF FF";

// 花指令1的特征码

for (x = FindBinary(MinEA(),0x03,FBin);x != BADADDR;x = FindBinary(x,0x03,FBin)){

 

x = x +5;

PatchByte (x,0x90);

x = x + 3 ;

PatchByte (x,0x90);

x++;

PatchWord (x,0x9090);

x =x +2 ;

PatchDword (x,0x90909090);

 

                                                                      }

 

FBin = "74 04 75 02 EB 02 EB 01 81";

// 花指令2的特征码

for (x = FindBinary(MinEA(),0x03,FBin);x != BADADDR;x = FindBinary(x,0x03,FBin)){

 

x = x + 4;

PatchWord (x,0x9090);

x = x + 4;

PatchByte (x,0x90);

 

                                                                      }

FBin = "50 E8 02 00 00 00 29 5A 58 6B C0 03 E8 02 00 00 00 29 5A 83 C4 04";

// 花指令3的特征码

for (x = FindBinary(MinEA(),0x03,FBin);x != BADADDR;x = FindBinary(x,0x03,FBin)){

 

x = x + 6;

PatchWord (x,0x9090);

x = x + 11;

PatchWord (x,0x9090);

                                                                      }

 

FBin = "EB 01 68 EB 02 CD 20 EB 01 E8";

// 花指令4的特征码

for (x = FindBinary(MinEA(),0x03,FBin);x != BADADDR;x = FindBinary(x,0x03,FBin)){

 

x = x+2;

PatchByte (x,0x90);

x = x+3;

PatchWord (x,0x9090);

x = x+4;

PatchByte (x,0x90);

                                                                      }

              }

 

通过观察可知花指令中并不包含任何有意义的数据,在花指令的前后,堆栈是平衡的,各寄存器的数值也是不变的。IDC提供了隐藏区域的命令,现在来看看以下脚本:

 

static HideJunkCode() {

  auto x,y,FBin;

 

FBin = "E8 0A 00 00 00 E8 EB 0C 00 00 E8 F6 FF FF FF";

 

for (x = FindBinary(MinEA(),0x03,FBin);x != BADADDR;x = FindBinary(x,0x03,FBin)){

MakeUnknown (x,0x17,1);

y = x + 0x17;

HideArea (x,y,atoa(x),atoa(x),atoa(y),-1);

 

                                                                      }

 

FBin = "74 04 75 02 EB 02 EB 01 81";

 

for (x = FindBinary(MinEA(),0x03,FBin);x != BADADDR;x = FindBinary(x,0x03,FBin)){

MakeUnknown (x,0x09,1);

y = x + 0x09;

HideArea (x,y,atoa(x),atoa(x),atoa(y),-1);

 

                                                                      }

 

FBin = "50 E8 02 00 00 00 29 5A 58 6B C0 03 E8 02 00 00 00 29 5A 83 C4 04";

 

for (x = FindBinary(MinEA(),0x03,FBin);x != BADADDR;x = FindBinary(x,0x03,FBin)){

MakeUnknown (x,0x17,1);

y = x + 0x17;

HideArea (x,y,atoa(x),atoa(x),atoa(y),-1);

 

                                                                      }

 

FBin = "EB 01 68 EB 02 CD 20 EB 01 E8";

 

for (x = FindBinary(MinEA(),0x03,FBin);x != BADADDR;x = FindBinary(x,0x03,FBin)){

MakeUnknown (x,0x0a,1);

y = x + 0x0a;

HideArea (x,y,atoa(x),atoa(x),atoa(y),-1);

                                                                      }

}

 

由于花指令的关系,会使IDA错误识别指令,可能隐藏区域的边界刚好在一条指令的机械码中间,这样隐藏的操作便会失败。因此在隐藏指令执行之前,先使用MakeUnknown将目标代码设置为未识别的状态。在完成隐藏和替换之后,再使用分析引擎分析代码。

 

static main() {

  auto x,FBin,ProcRange;

 

HideJunkCode();

 

PatchJunkCode();

 

AnalyzeArea (MinEA(),MaxEA());

              }

CleanJunkCode.idc

 

在运行脚本之后,现在让我们看看修复的成果。

 

seg005:0045639F                 rdtsc

seg005:004563A1                 push    eax

seg005:004563A2                 rdtsc

seg005:004563A4 ; seg005:004563A4     //被隐藏的区域

seg005:004563BB                 sub     eax, [esp-8+arg_4]

seg005:004563BE ; seg005:004563BE

seg005:004563C7 ; ---------------------------------------------------------------------------

seg005:004563C7

seg005:004563C7 loc_4563C7:    ; CODE XREF: sub_4563B3:loc_4563C4j

seg005:004563C7                 add     esp, 4

seg005:004563CA ; seg005:004563CA

seg005:004563E1                 cmp     eax, 0FFFh

seg005:004563E6 ; seg005:004563E6

seg005:004563F0

seg005:004563F0 loc_4563F0:    ; CODE XREF: sub_4563D9:loc_4563EDj

seg005:004563F0                 jbe     short loc_45640D

seg005:004563F0

seg005:004563F2 ; seg005:004563F2

seg005:004563FC

seg005:004563FC loc_4563FC:   ; CODE XREF: sub_4563D9:loc_4563F9j

seg005:004563FC                 int     3   ; Trap to Debugger

seg005:004563FD                 mov     ax, 0FEh

seg005:00456401 ; seg005:00456401

seg005:0045640A

seg005:0045640A loc_45640A:  ; CODE XREF: sub_4563D9:loc_456407j

seg005:0045640A          out     64h, ax    ; AT Keyboard controller 8042.

seg005:0045640A                   ; Resend the last transmission

seg005:0045640A

seg005:0045640D ; seg005:0045640D

修复之后的代码

 

除了“sub eax, [esp-8+arg_4]”(实际上是sub eax,[esp])看起来有点怪之后,一切正常。作为一个壳,在解决了花指令之后,剩下的问题便只有反调试代码和解密(解压缩)代码了。例如上面列出的代码是通过时间校验检查调试器,一旦检查到,便使用特权级指令,让程序发生异常,无法继续运行下去。当然,我们在静态的环境下,反调试技巧对于我们来说,毫无意义。尽管如此,我们仍然需要知道程序会在什么时候运行到什么地方,最常见的利用系统的机制莫过于SEH了,现在来看看下面代码:

 

seg005:00456A9B                 call    $+5

seg005:00456AA0                 add     dword ptr [esp+0], 136Fh

seg005:00456AA7                 push    large dword ptr fs:0

seg005:00456AAE                 mov     large fs:0, esp

设置SEH的代码

 

“call $+5”指令后堆栈里的内容便是它的下一条指令在内存中的地址。这是病毒常用的重定位技巧。shift+/输入0x00456AA0+0x136F便能计算出异常处理函数的地址(457E0F)了。

 

seg005:0045745C                 xor     eax, eax

seg005:0045745E                 movzx   eax, byte ptr [eax]

产生异常的代码

 

现在我们应该跳到457E0F继续分析。我想你已经了解如何在静态环境下跟踪程序的流程,现在就让我们跟着程序的流程把解密相关的代码找出来。

 

seg005:00459191                 push    ecx

seg005:00459192                 xor     ecx, ecx

seg005:00459194                 call    $+5

seg005:00459199                 pop     edi

seg005:0045919A                 add     edi, 9C4h

seg005:004591A0                 pop     edx

seg005:004591A1                 add     edx, 15h

seg005:004591A4 loc_4591A4:           ; CODE XREF: sub_459149+6Bj

seg005:004591A4                 movzx   eax, byte ptr [ecx+edi]

seg005:004591A8                 xor     eax, edx

seg005:004591AA                 mov     [ecx+edi], al

seg005:004591AD                 inc     ecx

seg005:004591AE                 cmp     ecx, 93h

seg005:004591B4                 jb      short loc_4591A4

解密代码

 

       容易看出这就是解密代码,在循环之中,且有修改内存的指令。至于解密的KEY,其实就是00459191处ECX的值+15h。我希望你还记得到达这里之前曾经看过下面代码:

 

seg005:004587B6                 mov     eax, [esp+0Ch]

seg005:004587BA                 xor     ecx, ecx

seg005:004587BC                 xor     ecx, [eax+4]

seg005:004587BF                 xor     ecx, [eax+8]

seg005:004587C2                 xor     ecx, [eax+0Ch]

seg005:004587C5                 xor     ecx, [eax+10h]

 

       这一段是检查硬件断点的代码,假如没有设置硬件断点,那么ECX的结果应该是0。假如你不能理解为什么,我建议你看看SEH以及关于反硬件断点的一些文章。

       在知道解密代码的所有关键要素之后,就可以开始动手写脚本了。

 

 

 

 

#include "idc.idc"

 

static main() {

  auto StartAddr,cKey,Cbuffer,Counter;

 

StartAddr = 0x00459199 + 0x9c4;

cKey = 0x15;

 

for (Counter = 0 ; Counter < 0x93; Counter ++){

Cbuffer = Byte(StartAddr) ^cKey;         // movzx   eax, byte ptr [ecx+edi]

                                    // xor     eax, edx

PatchByte(StartAddr,Cbuffer);               // mov     [ecx+edi], al

StartAddr++;

                                          }

              }

Patch1.idc

 

       在00459BF7和0045B1FC处可以看到类似的加密代码,就不把脚本给出来了,我把它放在附件中,分别为PATCH2.idc和PATCH3.idc。在第三次解密之后,终于看到不同的解密代码了,代码比较多,我把隐藏区域的部分删掉:

 

seg005:00461F8D                 call    $+5

seg005:00461F92                 pop     ecx

seg005:00461F9D                 sub     ecx, 5

seg005:00461FAA                 xor     ebx, ebx

seg005:00461FB6                 mov     eax, 0BE9Ch

seg005:00461FC5                 mov     edi, ecx

seg005:00461FD1                 sub     edi, eax

seg005:00461FDD                movzx   eax, byte ptr [edi]

seg005:00461FEA                 add     ebx, eax

seg005:00461FF6                 inc     edij

seg005:00462001                 cmp     edi, ecx

seg005:0046200D                 jb      short loc_461FDD

自校验代码

 

自校验代码的两个特征,一是读取代码,二是循环,对于那种单纯与校验结果比较控制流程的程序,我们是不需要理会自校验的。但是在这个例子里,紧跟后面的代码便是解密代码,并且自校验值作为解密KEY,我们就得计算出它的校验值。

 

seg005:0046200F                 mov     edi, offset unk_447000

seg005:00462014                 mov     ecx, 0BC00h

seg005:00462019 ; seg005:00462019

seg005:00462023                 movzx   eax, byte ptr [edi]

seg005:00462030                 add     bl, bh

seg005:00462032                 xor     bl, bh

seg005:00462034                 xor     al, bl

seg005:00462040                 mov     [edi], al

seg005:0046204C                 inc     edi

seg005:00462057                 dec     ecx

seg005:00462062                 jnz     short loc_462019

自校验后的解密代码

 

相信有了前面的经验,要编写出以下脚本并不难。要注意的是由于之前修复花指令曾经修改过文件,因此在编写好脚本之后,必须重新加载程序,然后按顺序把解密脚本运行一次,确保解出正确的代码。此外还需注意下面代码:

 

seg005:00462064                 call    $+5

seg005:00462069                 pop     ecx

seg005:0046206A                 sub     [ecx+16h], ebx

seg005:0046206D                 popa

seg005:0046206E                 pusha

seg005:0046206F                 mov     esi, offset unk_447000

seg005:00462074                 lea     edi, [esi-46000h]

seg005:0046207A                 push    edi

seg005:0046207B                 or      ebp, 0FFFFFFFFh

seg005:0046207E                 push    offset sub_4528D0

seg005:00462083                 retn

自修改代码

 

这里0046206A的代码实际就是以前面的校验值对0046207E处的指令修改,校验不正确便无法得出正确的返回地址。在写脚本的时候遇到一个问题是,解密代码使用了BL和BH,即BX的低八位和高八位的寄存器。我们可以先将校验值写进一个DWORD,然后获取其中第一个BYTE和第二个BYTE,便可以得到它的值了。由此便可得出下面的脚本:

 

#include "idc.idc"

 

static main() {

  auto StartAddr,EndAddr,cKey,lKey,hKey,Cbuffer,Kbuffer,Counter;

 

EndAddr = 0x00461F92 - 0x5;

cKey = 0;

 

for (StartAddr = EndAddr - 0x0BE9C; StartAddr < EndAddr; StartAddr ++){

 

cKey = cKey + Byte(StartAddr);    // movzx   eax, byte ptr [edi]

                              // add   ebx, eax

                                    }

 

Kbuffer = Dword(MinEA());       //从镜象基址借用1Dword

PatchDword(MinEA(),cKey);    

lKey=Byte(MinEA());           //转换成bl

hKey=Byte(MinEA()+1);         //转换成bh

StartAddr = 0x447000;

 

for (Counter = 0x0BC00 ; Counter !=0 ; Counter --){

 

lKey=lKey + hKey;              // add     bl, bh

lKey=lKey ^ hKey;              // xor     bl, bh

Cbuffer = Byte(StartAddr) ^lKey;  // movzx   eax, byte ptr [edi]

                              // xor     al, bl

PatchByte(StartAddr,Cbuffer);            // mov     [edi], al

StartAddr++;

                                    }

 

StartAddr = 0x462069+0x16;

PatchByte(MinEA(),lKey);

cKey = Dword (MinEA());

Cbuffer = Dword(StartAddr) - cKey;

PatchDword(StartAddr,Cbuffer);

PatchDword(MinEA(),Kbuffer);          //恢复原来的数据

        }

Patch4.idc

 

在还原代码之后,容易看出0046207E处,PUSH + RET相当于一个绝对跳转,现在让我们看看4528D0处的代码。在4528D0处按P,IDA将认为该处为函数的起点,并为函数建立图形视图。

 

IDA实例教程_第10张图片

流程的缩略图

 

看起来很复杂。或者的确复杂,但是我们只需要将它还原成IDC代码就可以了,甚至不需要我们理解算法的思想。可能你觉得在去除花指令影响之后,用OD改EIP直接运行相关代码也可以,内联汇编,写插件也可以。实际工作的时候,当然效率优先,选择最高效率的方法,但是将低级语言代码还原成高级语言代码,还是有一定意义的,例如你觉得C代码更容易理解一点,那么你可以先把汇编转成C代码,再理解。现在让我们切换到反汇编窗口再看代码:

 

seg001:004528D0                 jmp     short loc_4528E2  //跳到开始位置

seg001:004528D0

seg001:004528D2 ; ---------------------------------------------------------------------------

seg001:004528D2                 nop

seg001:004528D3                 nop

seg001:004528D4                 nop

seg001:004528D5                 nop

seg001:004528D6                 nop

seg001:004528D7                 nop

seg001:004528D7

seg001:004528D8

seg001:004528D8 loc_4528D8:        ; CODE XREF: sub_4528D0:loc_4528E9j

seg001:004528D8                 mov     al, [esi]       ; 1

seg001:004528DA                 inc     esi

seg001:004528DB                 mov     [edi], al

seg001:004528DD                 inc     edi

seg001:004528DD

seg001:004528DE

seg001:004528DE loc_4528DE:      ; CODE XREF: sub_4528D0+BAj

seg001:004528DE                             ; sub_4528D0+D1j

seg001:004528DE                 add     ebx, ebx

seg001:004528E0                 jnz     short loc_4528E9

seg001:004528E0

seg001:004528E2

seg001:004528E2 loc_4528E2:            ; CODE XREF: sub_4528D0j

seg001:004528E2                 mov     ebx, [esi]  //从这里开始

seg001:004528E4

seg001:004528E4 loc_4528E4:

seg001:004528E4                 sub     esi, -4

seg001:004528E7                 adc     ebx, ebx

seg001:004528E7

seg001:004528E9

seg001:004528E9 loc_4528E9:              ; CODE XREF: sub_4528D0+10j

seg001:004528E9                 jb      short loc_4528D8

 

     我们发现开始的地方需要访问ESI指向的内存,往回看发现解密代码需要的参数,在前面说的自修改代码部分(0046206F)已经处理过了。该处代码很容易转成高级语言,现在来看看如何重整代码的流程。跳转向上的时候,代表一个循环。这与高级语言是相通的,值得注意的是向下的跳转。达到某一条件,就绕过一部分代码,向后执行,这跟高级语言中的IF控制语句,即遇到某一条件就执行随后的代码。也就是说,我们得反转比较条件。

       以给出的代码为例子,与自身相加,相当于乘2,实际就是以个向左位移操作。想想十进制中,把1向左移动一位,实际就是将1乘以10。在二进制中也是一样,将一个二进制数向左移动一位,则是乘以2。汇编指令jb仅在进位标记CF=1时跳转,也就是说004528E7处的adc  ebx, ebx及后面的jb  short loc_4528D8的意义为,将EBX中的数向左移一位,并检查的最高位是否为1,1则向上跳转,也就是循环,0则继续执行,即终止循环的条件。现在我们可以构造下面循环的框架:

 

auto EBX,HigtBitfla;

 

while (HigtBitflat != 0){

 

HigtBitflat = EBX & 0x80000000;    //0x80000000进行and运算

                                //最高位不为0HigtBitflat0

                                //0x80000000最高位为1,其他位0

                                //不明白的读者看将其展开计算

EBX = EBX + EBX;               //向左位移

 

                   }

 

现在再来看看004528DE处的代码,jnz在ZF=0时产生跳转,即当最高位之外任意一位不为0时产生跳转。正如上面说的,将跳转条件反转,我们便能使用IF语句了。

 

Auto EBX,IsNotZero;

 

IsNotZero = EBX & 0x7FFFFFFF;    //0x7FFFFFFF最高位为0

                                //屏蔽最高位,以检查后面的位

                                //仅当最高位外全为0IsNotZero0

If (IsNotZero == 0){

//  此处可以填上004528E2到004528E7的代码

}

EBX = EBX + EBX;               //注意这里与汇编的区别

                                //先判断,然后才移位

 

注意这里与汇编代码的区别,由于我们无法在IDC上访问标记寄存器,也无法使用跳转。这里只能先判断最高位,然后才进行位移。下面让我们来直接看最后得出的IDC脚本:

 

#include "idc.idc"

 

static main() {

  auto MyAddr,DeCodeAddr,HigtBitflat,EBX;

auto EAX,ECX,EBP,ESI,EDX,CF,IsNotZero,Counter;

 

MyAddr = 0x447000;

DeCodeAddr =0x447000 - 0x46000;

ESI=DeCodeAddr;

Counter = 0;       //初始化循环条件

CF = 0;             //代表标志寄存器的CF

EBX = Dword(MyAddr);

MyAddr = MyAddr + 4;

HigtBitflat = EBX & 0x80000000; 

EBX = EBX + EBX;

EBX++;

//    为了统一循环入口,将部分代码移出循环执行。

while (Counter != 1){

while (HigtBitflat != 0){

       PatchByte (DeCodeAddr,Byte(MyAddr));

       MyAddr++;

       DeCodeAddr++;

       IsNotZero = EBX & 0x7FFFFFFF;

       if (IsNotZero == 0){

              CF=1;   //sub esi, -4add esi,4的区别就是前者CF=1

              EBX = Dword(MyAddr);

               MyAddr = MyAddr + 4;

                            }

       HigtBitflat = EBX & 0x80000000;

       EBX = EBX + EBX;

        EBX = EBX + CF;      //加上CF,模拟ADC指令

       CF = 0;

                               }

 

EAX = 1;

while (Counter != 1){

//4528F045291A,以JMP构成一个循环。因此使用while语句,构造

//一个无限循环。在符合终止循环条件处使用break指令结束循环。

IsNotZero = EBX & 0x7FFFFFFF;

if (IsNotZero == 0){

       CF=1; 

       EBX = Dword(MyAddr);        

        MyAddr = MyAddr + 4;

                     }

HigtBitflat = EBX & 0x80000000;

EBX = EBX + EBX;

EBX = EBX + CF;

CF = 0;

EAX = EAX + EAX;

if (HigtBitflat != 0) EAX++;

HigtBitflat = EBX & 0x80000000;

if (HigtBitflat != 0){

       IsNotZero = EBX & 0x7FFFFFFF;

       if (IsNotZero != 0) {  //00452901   jnz  short loc_45291C

       EBX = EBX + EBX;

       break;

                            }

       EBX = Dword(MyAddr);

       MyAddr = MyAddr + 4;

       HigtBitflat = EBX & 0x80000000;

       if (HigtBitflat != 0) {     //0045290A   jb  short loc_45291C

       EBX = EBX + EBX;

       EBX++;

       break;

                            }

       CF = 1;  

                            }

EBX = EBX + EBX;

EBX = EBX + CF;

CF = 0;

EAX--;  

IsNotZero = EBX & 0x7FFFFFFF;

if (IsNotZero == 0){

       CF=1; 

       EBX = Dword(MyAddr);        

        MyAddr = MyAddr + 4;        

                     }

HigtBitflat = EBX & 0x80000000;

EBX = EBX + EBX;

EBX = EBX + CF;

CF = 0;

EAX = EAX + EAX;

if (HigtBitflat != 0) EAX++;

                                           }

 

ECX = 0;        //xor ecx,ecx常见的为寄存器赋值为0的语句。

//注意00452921  jb  short loc_452934处,程序分开两条路线

//loc_45293F处汇合。因此这里使用if 。。else语句重整程序流程。

if (EAX < 3){    //此处直接使用减法指令作比较,而不是使用CMP

EAX = EAX - 3;  //因此只能在比较之后再减

IsNotZero = EBX & 0x7FFFFFFF;

if (IsNotZero == 0){

       CF=1; 

       EBX = Dword(MyAddr);

        MyAddr = MyAddr + 4;

                     }

HigtBitflat = EBX & 0x80000000;

EBX = EBX + EBX;

EBX = EBX + CF;

CF = 0;

}

else{

EAX = EAX - 3;

EAX = EAX << 8;

EAX = EAX + Byte(MyAddr);

MyAddr++;

EAX = EAX ^ 0xffffffff;

if (EAX == 0) break;

HigtBitflat = EAX & 1;  //检查sar eax,1是否影响CF

EAX = EAX >> 1;      //检查结束再执行位移

EBP = EAX;

}

ECX = ECX + ECX;

if (HigtBitflat != 0) ECX++;

IsNotZero = EBX & 0x7FFFFFFF;

if (IsNotZero == 0){

       CF=1; 

       EBX = Dword(MyAddr);

        MyAddr = MyAddr + 4;

                     }

HigtBitflat = EBX & 0x80000000;

EBX = EBX + EBX;

EBX = EBX + CF;

CF = 0;

ECX = ECX + ECX;

if (HigtBitflat != 0) ECX++;

if (ECX == 0 ){

ECX++;

HigtBitflat = 0;

//00452960   jnb     short loc_452951

//0045296B   jnb     short loc_452951

//此处有两个跳转指向循环入口,将00452960处的条件反转,翻译成if

//语句。便可得到下面循环:

while (HigtBitflat == 0){

IsNotZero = EBX & 0x7FFFFFFF;

if (IsNotZero == 0){

       CF=1; 

       EBX = Dword(MyAddr);        

        MyAddr = MyAddr + 4;        

                     }

HigtBitflat = EBX & 0x80000000;

EBX = EBX + EBX;

EBX = EBX + CF;

CF = 0;

ECX = ECX + ECX;

if (HigtBitflat != 0) ECX++;

HigtBitflat = EBX & 0x80000000;

if (HigtBitflat != 0){

IsNotZero = EBX & 0x7FFFFFFF;

if (IsNotZero != 0) {

EBX = EBX + EBX;

break; 

}

EBX = Dword(MyAddr);        

MyAddr = MyAddr + 4;

CF = 1;

HigtBitflat = EBX & 0x80000000;

                     }

EBX = EBX + EBX;

EBX = EBX + CF;

CF = 0;

                             }

ECX = ECX + 2;

                     }

//高级语言的比较为有符号数的比较,而0045297F  jbe  short loc_452990

//是无符数的比较。因此要先比较其最高位,模拟无符号数的比较

HigtBitflat = EBP & 0x80000000;

if (HigtBitflat !=0){

if (EBP < 0xfffffb00) CF =1;

                     }

else{

CF =1;

       }

ECX ++;

ECX = ECX + CF;

CF=0;

EDX = DeCodeAddr + EBP;

if (HigtBitflat !=0){

if (EBP > -4) CF=1;

                     }

//0045297F  jbe  short loc_452990将此处分开两条路线,

//jmp  loc_4528DE重新汇合。这里同样使用if….else语句。

if (CF==1){

CF=0;

while (ECX !=0){

PatchByte(DeCodeAddr,Byte(EDX));

EDX ++;

DeCodeAddr ++;

ECX --;

              }

              }

else{

while(Counter != 1){

PatchDword(DeCodeAddr,Dword(EDX));

EDX = EDX + 4;

DeCodeAddr = DeCodeAddr + 4;

if (ECX <= 4){

ECX= ECX -4;

break;

}

ECX = ECX - 4;

}

DeCodeAddr = DeCodeAddr + ECX;

       }

//反汇编代码的循环入口(4528DE)与我们转换的循环入口不同(4528E9

//跟开始的时候一样,入口之前的代码放到循环外面。

IsNotZero = EBX & 0x7FFFFFFF;

if (IsNotZero == 0){

       CF=1; 

       EBX = Dword(MyAddr);        

        MyAddr = MyAddr + 4;        

                     }

HigtBitflat = EBX & 0x80000000;

EBX = EBX + EBX;

EBX = EBX + CF;

CF = 0;

                            }

              }

Patch5.idc

 

至此,我们成功将004528D0到004529A1处的代码转换成C代码。在完成如此复杂的代码还原之后,004529A6到004529D8处的反汇编代码只是小菜一碟。里面的代码也很好理解,将符合E8 01和E9 01的机械码解密。位移指令可以通过借用程序中的一个闲置的Dword,使用IDC提供的Pactch系列指令来模拟,详见Patch6.idc。在完成最后的解密代码后,便是IAT的修复了。现在看看下面代码:

 

004529DA                 lea     edi, [esi+50000h]

004529E0 loc_4529E0:   

004529E0                 mov     eax, [edi]

004529E2                 or      eax, eax

004529E4                 jz      short loc_452A22

004529E4

004529E6                 mov     ebx, [edi+4]

004529E9                 lea     eax, [eax+esi+549B0h]

004529F0                 add     ebx, esi

004529F2                 push    eax

004529F3                 add     edi, 8

004529F6                 call    dword ptr [esi+54A3Ch]

004529FC                 xchg    eax, ebp

004529FD loc_4529FD:   

004529FD                 mov     al, [edi]

004529FF                 inc     edi

00452A00                 or      al, al

00452A02                 jz      short loc_4529E0

00452A02

00452A04                 mov     ecx, edi

00452A06                 push    edi

00452A07                 dec     eax

00452A08                 repne scasb

00452A0A                 push    ebp

00452A0B                 call    dword ptr [esi+54A40h]

00452A11                 or      eax, eax

00452A13                 jz      short loc_452A1C

00452A13

00452A15                 mov     [ebx], eax

00452A17                 add     ebx, 4

00452A1A                 jmp     short loc_4529FD

 

在分析该处代码之前,显然应该先把ESI的值计算出来。鼠标点击ESI,以高亮显示该寄存器,向上滚动反汇编窗口,发现从004529A6  pop  esi处开始,ESI便没有被修改过,而该处对应于:

 

seg005:0046206F                 mov     esi, offset unk_447000

seg005:00462074                 lea     edi, [esi-46000h]

seg005:0046207A                 push    edi

 

       可见ESI=0x401000,容易计算出004529F6和00452A0B处CALL的地址分别为455A3Ch和455A40h。跳转到该地址:

 

 

 

       显然,这里便是壳填充IAT的地方了。那么004529DA  lea  edi, [esi+50000h]中,EDI便是保存API名字的数据表。做脱壳机的任务就留给读者作课后练习,正如前面介绍的那样,只需要API的名字为相关IAT地址重命名,便能分析了。也就是说00452A0B处,调用GetProcAddress,跟踪它的参数lpProcName (00452A06   push    edi),以及它的返回值(00452A15   mov     [ebx], eax),当然这里的跟踪,可以象刚才那样手动确认,也可以通过与调试器配合快速得出结果。不难得出下面脚本:

 

#include "idc.idc"

 

static main() {

   auto ESI,EDI,EAX,EBX,Counter,cBuffer,BufLen,straa;

 

ESI = 0x447000 - 0x46000;

EDI = ESI + 0x50000;

Counter = MaxEA() - MinEA();

MakeUnknown(MinEA(),Counter,1);   //将整个程序标记未分析

AnalyzeArea (MinEA(),MaxEA());     //分析整个程序

Counter = 0;

while (Counter != 1){

EAX = Dword(EDI);

if (EAX == 0) break;

EBX = Dword(EDI+4);

EBX = EBX + ESI;

EDI = EDI + 8;

while (Counter != 1){

EAX = Byte(EDI);

EDI++;

if (EAX == 0) break;

cBuffer = GetString(EDI,-1,ASCSTR_C);

straa = cBuffer + "_";    //IDA不允许重复命名,加上“_”避免重复

MakeNameEx(EBX,straa,SN_AUTO);

EBX = EBX + 4;

EDI = EDI + strlen(cBuffer);

EDI++;

                     }

                     }

}

IATPATCH.idc

 

       注意解密后,必须将整个程序标记为未分析,并重新分析,然后才能进行重命名。

IDA实例教程_第11张图片

程序的OEP

      

       到此,静态脱壳完毕。从这个例子也可以知道,对于掌握反汇编器的人来说,除非反调试机制与解密KEY关联,否则根本就没有强度可言。然而,IDA博大精深,还有更多强大的功能,本文也只是抛砖引玉而已。下面给出几个链接,方便大家更进一步学习:

 

IDA的官方网站:

www.datarescue.com

 

看雪论坛9月翻译专题:

http://bbs.pediy.com/showthread.php?s=&threadid=31023

 

IDA Pro的插件开发SDK

http://bbs.pediy.com/showthread.php?s=&threadid=31441

 

IDA逆向工程入门:

http://bbs.pediy.com/showthread.php?s=&threadid=40765

 

IDA简易教程:

www.pediy.com/practise/IDA.htm

 

你可能感兴趣的:(逆向工程)