Windows运行机理——线程的机制(4)

PE结构分析

 

因为PE结构是一个很复杂的结构,所以下面我们在讨论PE时把它分为PE头标、表节、文件导入/导出、资源分别介绍。如果你只对某部分内容感兴趣,可以直接跳到此节阅读。


P E头标

 

PE 的意思就是 Portable Executable(可移植的执行体)。它是 Win32环境自身所带的执行体文件格式。它的一些特性继承自 Unix Coff (common object file format)文件格式。Portable Executable(可移植的执行体)意味着此文件格式是跨Win32平台的:即使Windows运行在非IntelCPU上,任何win32平台的PE装载器都能识别和使用该文件格式。当然,移植到不同的CPU上的PE执行体必然得有一些改变。所有Win32执行体(除了VxD16位的DLL)都使用PE文件格式,包括NT的内核模式驱动程序(Kernel Mode Drivers)。

我们在PE结构中最先看见的PE格式中的是PE结构的头标。像所有其他微软可执行文件格式一样,PE文件在一个已知(或容易找到的)位置上,有一系列域来定义该文件其余部分看起来像什么。PE头标包含了至关重要的一些信息,诸如代码和数据区的位置和大小、该文件要用什么操作系统以及初始的堆栈大小。我们在学习PE结构时最好用PEDUMPDUMP一个EXEDLL文件比较好学习点(PEDUMP可以在X:Msvc\COMMON\TOOLS找到,XVC的安装目录)。

 

1. DOS

 

与其他微软的可执行格式相似的是,在PE头标前面还有一个百多个字节的DOS头。这个DOS区域是一小段DOS程序。这一段程序只有几行简单的汇编程序,在Windows 3.1中可以自己定义。把一个很大的DOS程序当成PE结构的头也是可以的,例如说做一个从DOS下启动的游戏,就可以把DOS启动的内容放在前面。到了Windows 9x中的PE结构,在VC 4.0以后,DOS头就不可定义了。

现在,它的作用是如果此程序在DOS平台运行时,它将打印出“该程序不能在DOS模式下运行”之类的信息。这样就能提示程序的用户到Windows平台去运行此程序。下图PE结构图。


Windows运行机理——线程的机制(4)

PE文件的所有结构都能在WINNT.H文件中找到,其结构如下:

typedef  struct  _IMAGE_DOS_HEADER  // DOS .EXE header

    WORD   e_magic;             
// Magic number

    WORD   e_cblp;              
// Bytes on last page of file

    WORD   e_cp;                 
// Pages in file

    WORD   e_crlc;              
// Relocations

    WORD   e_cparhdr;          
// Size of header in paragraphs

    WORD   e_minalloc;         
// Minimum extra 

//paragraphs needed

    WORD   e_maxalloc;       
// Maximum extra 

//paragraphs needed

    WORD   e_ss;                 
// Initial (relative) SS value

    WORD   e_sp;            
// Initial SP value

    WORD   e_csum;         
// Checksum

    WORD   e_ip;             
// Initial IP value

    WORD   e_cs;             
// Initial (relative) CS value

    WORD   e_lfarlc;           
// File address of relocation table

    WORD   e_ovno;          
// Overlay number

    WORD   e_res[
4];           // Reserved words

    WORD   e_oemid;       
// OEM identifier (for e_oeminfo)

    WORD   e_oeminfo;     
// OEM information; 

//e_oemid specific

    WORD   e_res2[
10];        // Reserved words

    LONG   e_lfanew;           
// File address of new exe header

  }
 IMAGE_DOS_HEADER,  * PIMAGE_DOS_HEADER;


e_lfanew是相对实际PE头标的相对偏移量(或RVA)。要得到内存中一个指向PE头标的指针,只需将该域的值与映像的基相加:


     // Ignoring typecasts and pointer conversion issues for clarity…

    pNTHeader
=  dosHeader  +  dosHeader -> e_lfanew;

其他字段的意义是和DOS头有关的字节,这里没有什么大的作用,就不做介绍了。

 

2. IMAGE_NT_HEADERS

 

PE头标是一个IMAGE_NT_HEADERS类型的结构,该类型在WINNT.H中定义。

在内存中,Windows中把IMAGE_NT_HEADERS结构作为它内存中的模块数据库。在Windows中,每个被装入的EXEDLL都用一个IMAGE_NT_HEADERS结构来说明。其结构如下:


typedef  struct  _IMAGE_NT_HEADERS  {

    DWORD Signature;

    IMAGE_FILE_HEADER FileHeader;

    IMAGE_OPTIONAL_HEADER32 OptionalHeader;

}
 IMAGE_NT_HEADERS32,  * PIMAGE_NT_HEADERS32;


Signature表示此文件所表示的类型,其意义定义如下:


#define  IMAGE_DOS_SIGNATURE     0x4D5A         //  MZ

#define  IMAGE_OS2_SIGNATURE     0x4E45         //  NE

#define  IMAGE_OS2_SIGNATURE_LE  0x4C45         //  LE

#define  IMAGE_NT_SIGNATURE        0x50450000   //  PE00

如果是PE格式,则SignaturePE\0\0PE后跟两个0)。

 

3. IMAGE_FILE_HEADER

 

PE头标中紧随PEWORD记号的是一个IMAGE_FILE_HEADER类型的结构,如下所示:


typedef  struct  _IMAGE_FILE_HEADER  {

    WORD    Machine;

    WORD    NumberOfSections;

    DWORD   TimeDateStamp;

    DWORD   PointerToSymbolTable;

    DWORD   NumberOfSymbols;

    WORD    SizeOfOptionalHeader;

    WORD    Characteristics;

}
 IMAGE_FILE_HEADER,  * PIMAGE_FILE_HEADER;


这个结构的域只包含了关于文件的最基本的信息。

Machine表示该文件运行所要求的CPU,有如下的CPU ID定义:


#define  IMAGE_FILE_MACHINE_UNKNOWN            0

#define  IMAGE_FILE_MACHINE_I386                 0x014c  

//  Intel 386.

#define  IMAGE_FILE_MACHINE_R3000              0x0162  

//  MIPS little-endian, 0x160 big-endian

#define  IMAGE_FILE_MACHINE_R4000            0x0166  

//  MIPS little-endian

#define  IMAGE_FILE_MACHINE_R10000        0x0168  

//  MIPS little-endian

#define  IMAGE_FILE_MACHINE_WCEMIPSV2    0x0169  

//  MIPS little-endian WCE v2

#define  IMAGE_FILE_MACHINE_ALPHA          0x0184  

//  Alpha_AXP

#define  IMAGE_FILE_MACHINE_POWERPC       0x01F0  

//  IBM PowerPC Little-Endian

#define  IMAGE_FILE_MACHINE_SH3             0x01a2  

//  SH3 little-endian

#define  IMAGE_FILE_MACHINE_SH3E           0x01a4  

//  SH3E little-endian

#define  IMAGE_FILE_MACHINE_SH4             0x01a6  

//  SH4 little-endian

#define  IMAGE_FILE_MACHINE_ARM            0x01c0  

//  ARM Little-Endian

#define  IMAGE_FILE_MACHINE_THUMB          0x01c2

#define  IMAGE_FILE_MACHINE_IA64            0x0200  

//  Intel 64

#define  IMAGE_FILE_MACHINE_MIPS16         0x0266  

//  MIPS

#define  IMAGE_FILE_MACHINE_MIPSFPU       0x0366  

//  MIPS

#define  IMAGE_FILE_MACHINE_MIPSFPU16     0x0466  

//  MIPS

#define  IMAGE_FILE_MACHINE_ALPHA64       0x0284  

//  ALPHA64

#define  IMAGE_FILE_MACHINE_AXP64         

// IMAGE_FILE_MACHINE_ALPHA64

NumberOfSection表示在EXEOBJ中的节数。这个很重要,因为它直接表示节表数组的大小。

TimeDateStamp表示连接器生成该文件的时间。该值是指从 1969 12 31 下午4点整开始至文件生成时之间的秒数。

PointerToSymbolTable表示文件的COFF符号表的偏移量。该域只用在OBJ文件和带有COFF调试信息的PE文件中,此信息只在调试文件中有用。

NumberOfSymbols表示在COFF符号表中的符号数目,参见前一个域,此信息只在调试文件中有用。

SizeOfOptionalHeader表示紧跟该结构之后的一个可选头标的大小。在可执行文件中,它是紧随该结构的image_file_header结构的大小。这个值必须有效。

Characteristics表示文件的信息化标记。一些重要的域描述如下:

//  Relocation info stripped from file.

#define  IMAGE_FILE_RELOCS_STRIPPED             0x0001

//  File is executable  (i.e. no unresolved external references).

#define  IMAGE_FILE_EXECUTABLE_IMAGE           0x0002

//  Line nunbers stripped from file.

#define  IMAGE_FILE_LINE_NUMS_STRIPPED         0x0004

//  Local symbols stripped from file.

#define  IMAGE_FILE_LOCAL_SYMS_STRIPPED       0x0008

//  Agressively trim working set

#define  IMAGE_FILE_AGGRESIVE_WS_TRIM          0x0010

//  App can handle >2gb addresses

#define  IMAGE_FILE_LARGE_ADDRESS_AWARE           0x0020

//  Bytes of machine word are reversed.

#define  IMAGE_FILE_BYTES_REVERSED_LO          0x0080

//  32 bit word machine.

#define  IMAGE_FILE_32BIT_MACHINE                0x0100

//  Debugging info stripped from file in .DBG file

#define  IMAGE_FILE_DEBUG_STRIPPED              0x0200

//  If Image is on removable media, copy and run from the swap file.

#define  IMAGE_FILE_REMOVABLE_RUN_FROM_SWAP   0x0400

//  If Image is on Net, copy and run from the swap file.

#define  IMAGE_FILE_NET_RUN_FROM_SWAP          0x0800

//  System File.

#define  IMAGE_FILE_SYSTEM                        0x1000

//  File is a DLL.

#define  IMAGE_FILE_DLL                            0x2000

//  File should only be run on a UP machine

#define  IMAGE_FILE_UP_SYSTEM_ONLY              0x4000

//  Bytes of machine word are reversed.

#define  IMAGE_FILE_BYTES_REVERSED_HI          0x8000

我们常见的意义如下。

Ø         0x0001:该文件中没有重定位。

Ø         0x0002:文件是一个可执行的映像(即不是一个OBJLIB)。

Ø         0x2000:文件是一个动态连接库,不是一个程序。


4. IMAGE_OPTIONAL_HEADER

 

PE头标的第三部分是一个IMAGE_OPTIONAL_HEADER类型结构。对于PE文件,这部分是必要的。除了标准的IMAGE_FILE_HEADER外,COFF格式还允许单独定义一个附加信息结构。

IMAGE_OPTIONAL_HEADER分为两种,一种是32位的,一种是64位的,我们可以在WINNT.H中找到对应的结构,其名分别为:

IMAGE_OPTIONAL_HEADER32IMAGE_OPTIONAL_HEADER64我们在这里只对32位进行介绍,其结构如下:


typedef  struct  _IMAGE_OPTIONAL_HEADER  {

    
//

    
// Standard fields.

    
//

 

    WORD     Magic;

    BYTE      MajorLinkerVersion;

    BYTE      MinorLinkerVersion;

    DWORD     SizeOfCode;

    DWORD     SizeOfInitializedData;

    DWORD     SizeOfUninitializedData;

    DWORD     AddressOfEntryPoint;

    DWORD     BaseOfCode;

    DWORD     BaseOfData;

 

    
//

    
// NT additional fields.

    
//

 

    DWORD     ImageBase;

    DWORD     SectionAlignment;

    DWORD     FileAlignment;

    WORD      MajorOperatingSystemVersion;

    WORD      MinorOperatingSystemVersion;

    WORD      MajorImageVersion;

    WORD      MinorImageVersion;

    WORD      MajorSubsystemVersion;

    WORD      MinorSubsystemVersion;

    DWORD     Win32VersionValue;

    DWORD     SizeOfImage;

    DWORD     SizeOfHeaders;

    DWORD     CheckSum;

    WORD      Subsystem;

    WORD      DllCharacteristics;

    DWORD     SizeOfStackReserve;

    DWORD     SizeOfStackCommit;

    DWORD     SizeOfHeapReserve;

    DWORD     SizeOfHeapCommit;

    DWORD     LoaderFlags;

    DWORD     NumberOfRvaAndSizes;

    IMAGE_DATA_DIRECTORY 

DataDirectory[IMAGE_NUMBEROF_DIRECTORY_ENTRIES];

}
 IMAGE_OPTIONAL_HEADER32,  * PIMAGE_OPTIONAL_HEADER32;

Magic表示标志映像文件状态的一个WORD记号。值定义如下:

#define  IMAGE_NT_OPTIONAL_HDR32_MAGIC        0x10b

#define  IMAGE_NT_OPTIONAL_HDR64_MAGIC        0x20b

#define  IMAGE_ROM_OPTIONAL_HDR_MAGIC          0x107


Ø         0x0107:一个ROM映像。

Ø         0x010B:一个普通的可执行映像(大多数文件含此值)。

MajorLinkerVersionMinorLinkerVersion表示生成该文件的连接器版本号。该数字以十进制形式显示,而不是十六进制,一个典型的连接器版本号是2.23

SizeOfCode表示所有代码段组合聚集在一起的尺寸大小,内存中整个PE映像体的尺寸。它是所有头和节经过节对齐处理后的大小。

SizeOfInitializedData表示由初始化的数据(不包括代码段)组成的所有节的总尺寸。

SizeOfUninitializedData表示初始化的数据的大小。未初始化的数据通常被归入称为.bss的一节中。

AddressOfEntryPoint表示映像开始执行位置的地址。PE装载器准备运行的PE文件的第一个指令的RVA。若您要改变整个执行的流程,可以将该值指定到新的RVA,这样,新RVA处的指令首先被执行。

BaseOfCode表示文件代码节开始处的RVA。典型情况下,代码节在PE头标之后,并在数据节之前进入内存。在微软生成的EXE文件中,该RVA通常是0x1000

BaseOfData表示文件的数据节开始处的RVA。典型情况下,数据节最后进入内存,排在PE头标和代码节后面。

ImageBase表示当连接器创建一个可执行文件时,它假设该文件将被内存映射到内存中的一个指定位置上。也就是PE文件的优先装载程序的地址。因为在Windows操作系统中,总是把可执行程序安装到虚拟空间中去,每个虚拟空间在逻辑上都是相对独立的,不相干的。此值就是表示程序装在虚拟空间的什么地方开始。

SectionAlignment表示内存中节对齐的粒度。例如,如果该值是4096 (1000h),那么每节的起始地址必须是4096的倍数。若第一节从401000h开始且大小是10个字节,则下一节必定从402000h开始,即使401000h402000h之间还有很多空间没被使用。

FileAlignment表示文件中节对齐的粒度。例如,如果该值是(200h),,那么每节的起始地址必须是512的倍数。若第一节从文件偏移量200h开始且大小是10个字节,则下一节必定位于偏移量400h: 即使偏移量5121024之间还有很多空间没被使用/定义。

MajorOperatingSystemVersionMinorOperatingSystemVersion表示使用该可执行文件所要求的操作系统最小版本。该域含义有点模棱两可,因为subsystem域(后面的一些域)页体现类似的目的。在大多数Win32文件中,该域为版本1.0

MajorImageVersionMinorImageVersion表示一个用户自定义域。该域允许你具有一个EXE或一个DLL的不同版本。可用连接器的/VERSION开关来置该域的值,如LINK/VERSION2.0 myobj.obj

MajorSuvsystemVersionMinorSubsystemVersion表示运行该可执行文件所要求的最小子系统版本。该域的一个典型值是4.0(意为Windows 4.0,即Windows 95)。

Reserved1一般总为0

SizeOfImage一般是装载器不得不关心的映像部分的总尺寸。它是从映像基地址开始直到最后一节的尾端这个范围的长度。最后一节的尾端是被调整为最接近节对齐值的倍数的。

SizeOfHeaders表示PE头标和节(对象)表的尺寸。这些节的生数据直接跟在所有头标部分之后。

SizeOfHeaders =所有头+节表的大小

也就等于文件尺寸减去文件中所有节的尺寸。

CheckSum总是值0

Subsystem表示该可执行文件为它用户接口而使用的子系统类型。WINNT.H定义了如下值:

//  Unknown subsystem.

#define  IMAGE_SUBSYSTEM_UNKNOWN                0 

//  Image doesn't require a subsystem.

#define  IMAGE_SUBSYSTEM_NATIVE                      1 

//  Image runs in the Windows GUI subsystem.

#define  IMAGE_SUBSYSTEM_WINDOWS_GUI            2 

//  Image runs in the Windows character subsystem.

#define  IMAGE_SUBSYSTEM_WINDOWS_CUI            3 

//  image runs in the OS/2 character subsystem.

#define  IMAGE_SUBSYSTEM_OS2_CUI                  5 

//  image runs in the Posix character subsystem.

#define  IMAGE_SUBSYSTEM_POSIX_CUI                   7 

//  image is a native Win9x driver.

#define  IMAGE_SUBSYSTEM_NATIVE_WINDOWS        8 

//  Image runs in the Windows CE subsystem.

#define  IMAGE_SUBSYSTEM_WINDOWS_CE_GUI       9


表示的意义如下。

Ø         native=1:不需要子系统(例如,一个设备驱动器)

Ø         WINDOWS_GUI=2:在Windows GUI子系统中运行

Ø         WINDOWS_GUI=3:在Windows字符子系统中运行(一个控制台应用程序)

Ø         OS2_GUI=5:在OS/2字符子系统中运行(只对OS/2 1.x的应用程序)

Ø         POSIX_CUI=7:在Posix字符子系统中运行

DllCharacteristics (在NT 3.5中标为obsolete)指示什么情况下一个DLL的初始化函数,例如DllMain()要被调用的标志集合。该值看起来总被置为0,然而操作系统仍为4个事件调用了DLL初始化函数。

被定义的值如下。

Ø         1:当DLL第一次被装入一个进程的地址空间时调用;

Ø         2:当一个线程中止时调用;

Ø         4:当一个线程启动时调用;

Ø         8:当DLL退出时调用。

SizeOfStakeReserve表示为初始线程栈保留的虚拟内存量。然而,这些内存不是都要交付的(见后一个域)。该域默认为0x1000001MB)。如果你对CreateThread()指定一个0作为栈的大小,结果线程仍是得到一个域默认值相同的栈。

SizeOfStackCommit表示为初始线程栈首先交付的内存量。在微软连接器中,该域默认值是0x1000字节(1页),而TLINK默认为0x2000字节(2页)。

SizeOfHeapReserve表示为初始进程堆保留的虚拟内存量。该堆句柄可通过调用GetProcessHeap()来获得。这些内存也不是都要交付的(见下一个域)。

SizeOfHeapCommit表示在进程堆中初始交付的内存量。连接器在该域的默认值是0x1000字节。

Loaderflags(在NT 3.5中标记为obsolete)它们一般是与调试支持有关的域。

NumberOfRvaAndSizes表示在DataDiretory数组中项的数目。目前的工具总把该域的值置为16

DataDirectory[IMAGE_NUMBEROF_DIRECTORY_ENTRIES]是一个IMAGE_DATA_DIRECTORY结构数组。数组中前面的元素包含了该可执行文件重要部分的起始RVA和尺寸。数组尾端的元素目前还未用到。数组的第一个元素总是引出函数表(如果有的话)的地址和尺寸。第二个数组项是引入函数表的地址和尺寸,如此等等。对于一个完整的数组项的定义列表,在WINNT.H中的IMAGE_DIRECTORY_ENTRY_xxx #defins中有如下的几项:


//  Export Directory

#define  IMAGE_DIRECTORY_ENTRY_EXPORT               0

//  Import Directory

#define  IMAGE_DIRECTORY_ENTRY_IMPORT               1

//  Resource Directory

#define  IMAGE_DIRECTORY_ENTRY_RESOURCE             2

//  Exception Directory

#define  IMAGE_DIRECTORY_ENTRY_EXCEPTION           3

//  Security Directory

#define  IMAGE_DIRECTORY_ENTRY_SECURITY            4

//  Base Relocation Table

#define  IMAGE_DIRECTORY_ENTRY_BASERELOC           5

//  Debug Directory

#define  IMAGE_DIRECTORY_ENTRY_DEBUG                 6 

//  Architecture Specific Data

#define  IMAGE_DIRECTORY_ENTRY_ARCHITECTURE       7 

//  RVA of GP

#define  IMAGE_DIRECTORY_ENTRY_GLOBALPTR           8 

//  TLS Directory

#define  IMAGE_DIRECTORY_ENTRY_TLS                   9 

//  Load Configuration Directory

#define  IMAGE_DIRECTORY_ENTRY_LOAD_CONFIG        10 

//  Bound Import Directory in headers

#define  IMAGE_DIRECTORY_ENTRY_BOUND_IMPORT     11 

//  Import Address Table

#define  IMAGE_DIRECTORY_ENTRY_IAT                   12 

//  Delay Load Import Descriptors

#define  IMAGE_DIRECTORY_ENTRY_DELAY_IMPORT       13 

//  COM Runtime descriptor

#define  IMAGE_DIRECTORY_ENTRY_COM_DESCRIPTOR    14


该数组的目的是允许装载器可迅速地找到一个映像的特定节(例如引入函数表),而不必遍历映像的每一个节并逐一比较它们的名字。数组的大多数项描述了一个完整的节的数据。然而,IMAGE_DIRECTORY_ENTRY_ DEBUG元素只含了.rdata节中一小部分字节。

你可能感兴趣的:(windows)