office 复合文档数据结构解析“初探”

 

一、OLE(Object Linking and Embedding) 文件二进制结构

Office 文档(如:.doc、.ppt、.xls等)很多是复合文档(OLE文件),所有文件数据都是存储在一个或多个流中。每
个流都有一个相似的数据结构,用于存储元数据的数据结构。这些元数据有用户和系统的信息、文件属性、格式信
息、文本内容、媒体内容。宏代码信息也是以这种方式存储在复合文档中的。为了在 Office 文档文件中提取出宏代
码,以及进行其他相关安全研究,必须学会解析复合文档的二进制格式。


① 复合文档将数据分成许多流(Steams),流存储在不同的 Storages 里。

② 复合文档采用NTFS(NT File System)格式。
③ 流又分成更小的数据扇区(sectors),数据扇区可能包含控制数据用户数据

④ 整个文件由一个头结构(Header) 结构以及 Sectors 组成,头结构确定了 Sectors 的大小,每个 Sector 的大小相同。
 

二、准备

1、工具:offvis(如下) + 010editor

链接: https://pan.baidu.com/s/1ivh3VgkkIn3oUnpUP-7C8Q 提取码: e6u2

2、doc、docx 和 docm 文档

 

三、关于 doc、docx、docm

Office文档主要基于三种格式:ole、xml、ooxml —— ooxml 以 xml 为基础,可以理解为 zip文件。
doc、xls、ppt 三种扩展名文档属于97-2003版Office,可解析出ole格式文件。
docm、xlsm、pptm 是启用宏的Office文档,存储 Visual Basic Applications(VBA)宏代码,可解析出 xml 文件。
docx、xlsx、pptx 三种扩展名文档可解析出 xml 文件。
ppsx 是 2007 的PPT的一种格式,打开就是幻灯片播放模式。

 

1、 .doc 是一种普通的OLE文件(复合文件),可以包含宏代码,而.docx和.docm文件,实际上都是是压缩文件。二进制文件头数据截取如下,其中docx文件得输入一点内容,不然解析为空。

>> Office 2007 之前的版本可以看作二进制文件。其中十六进制文件头为 D0 CF 11 E0 A1 B1 1A E1,这是固定的 OLESS 文档格式文件头。

office 复合文档数据结构解析“初探”_第1张图片

>> Office
2007 之后的样本,可以发现文件头为PK。这代表着ZIP算法的发明者 Phil Katz。Office 2007之后的文档本质上是一个压缩包。由于文档中包含 ooxml 文件,因此不能用 offvis 进行解析,按下 offvis 的 Parser 按钮确实无法解析文件,这类文档可以通过解析出 .xml 和 .rels 来获取内容和逻辑关系。

office 复合文档数据结构解析“初探”_第2张图片

office 复合文档数据结构解析“初探”_第3张图片

每个PK包都必须有一个[Content_Types] .xml,在包的根目录中找到。此文件包含包中所有部件的内容类型的列表,每个部分及其类型必须列在[Content_Types] .xml中。
office 复合文档数据结构解析“初探”_第4张图片

2、将 docx.docx 文件重命名为 docx.zip ,然后以压缩包形式打开,可以看到文档的内容被存储在不同的文件里,文件的主要内容大部分都在 Word 目录中。这里涉及到一个新名词:OPC-Open Package Convention 开放打包协定,是一种基于 zip+xml 定义的文件存储格式。

office 复合文档数据结构解析“初探”_第5张图片

>> 这里面要理解三个概念:Part、Relationship、ContentTypes。
zip 中的每个文件都是一个 part,可以是任何格式,比如图片、xml等。
Relationship 是一种特殊的 Part,它描述了各个Part之间的依赖关系,存储在_rels文件夹中,存储为rels文件。
ContentTypes 在zip压缩包的根目录下,文件名为Content_Types.xml,它记录了 OPC 文件中除了他自己以外的所有文件的类型。

>> 比较重要的几个文件如下:

office 复合文档数据结构解析“初探”_第6张图片

3、利用同样方式打开 .docm 文件,发现内容大致相同。有的文章里说 .docm 的压缩包中会比 .docx 多一个 vbaProject.bin 的复合文件,用来记录 VBA 工程信息,这也是合理的。

office 复合文档数据结构解析“初探”_第7张图片

 

四、开始解析 OLE 文件数据格式

用 offvis 打开 doc 文件,可以看到清晰的文件结构。

office 复合文档数据结构解析“初探”_第8张图片

 

1、Header(文件头)

固定大小 512 字节,header 中记录着文件解析必需的所有参数,每个参数都很重要,自己标注了一下

office 复合文档数据结构解析“初探”_第9张图片

office 复合文档数据结构解析“初探”_第10张图片

2、FAT

FAT 实际记录了该扇区 sector 指向的下一个扇区的地址,成为一个索引表。数据在硬盘上的存储是离散的,需要有一个索引表能找到这些数据,索引表中存放着数据的起始地址(即扇区的起始地址)。

office 复合文档数据结构解析“初探”_第11张图片

一个 sector 只能存放一种类型的数据,但是复合文档怎么知道扇区中存储的是哪一种类型的数据?因而在复合文档的 FAT 数据中,除了表示扇区 ID 的数字,还有些特殊的数字 ID 表示一些特定的扇区。

office 复合文档数据结构解析“初探”_第12张图片

office 复合文档数据结构解析“初探”_第13张图片

一个扇区大小为512字节,一组FAT信息占据4个字节。因而一个FAT扇区中,最多能够存放128组FAT信息。可以利用 DIFAT列表把不同的FAT扇区串联起来。

3、MiniFAT 和 FAT 解析类似

4、DirectoryEntries

复合文档从字面上理解就是很多内容放在一起复合形成文档,这么多内容当然需要有个目录,而 DirectoryEntries 就是这个目录。DirectoryEntries 起始的 SectorID 需要从 Header 读取,定位的方法: 512+ 扇区大小 * 扇区ID。DirectoryEntries 中每个DirectoryEntry 固定为 128字节,其主要结构如表所示:

office 复合文档数据结构解析“初探”_第14张图片

office 复合文档数据结构解析“初探”_第15张图片

 

五、深入理解OLE

先看明白这篇再往下读:https://www.cnblogs.com/renyuan/p/5758139.html

 

下面解释打开一个 OLE 文档时发生了什么?

office 复合文档数据结构解析“初探”_第16张图片

===================== OLE 对象的初始化 ======================

>> 意思就是说当你打开一个Office文档,如果里面包含OLE对象,则将会对这个OLE对象进行初始化,那么如何来初始化一个文档中已经插入的OLE对象呢,通过 ole32.dll 中的 OleLoad() 函数来实现。其具体步骤分为 6点,如下图。

① 如果必要的话,自动执行对象的转换

② 调用 IStorage:Stat 方法从打开的存储对象中获取 CLSID

③ 调用 CoCreateInstance 方法生成一个实例的处理器,如果处理器代码不能用,将会用默认的处理器

④ 调用 IOleObject::SetClientSite 方法 with the pClientSite parameter 通知对象其客户端站点

⑤ 为 IPersistStorage 接口调用 QueryInterface 方法,如果成功的话, IPersistStorage::Load 方法会被对象调用

⑥ 查询并返回由 riid 参数标识的接口

office 复合文档数据结构解析“初探”_第17张图片

>> 这里阐述比较重要的两点:

① 调用 CoCreateInstance 生成一个用来初始化对象的处理器

② 调用  IPersistStorate 来初始化 OLE 对象的数据

>>>>>>>>>> step 1:调用 CoCreateInstance 初始化生成一个对象的处理器

office 复合文档数据结构解析“初探”_第18张图片

注意第一个标红的参数 CLSID ,OLE对象由 CLSID 指定,CLSID 在 rtf 和 open-xml 文档中都可以被获取,也就是说可以由攻击者自由配置,它指明了想要初始化哪一个 OLE 对象,CoCreateInstance 的作用与结果就是加载了与 CLSID 所属的 DLL 到进程(这也是此漏洞的关键所在)。那么如何去定位、去获取到这个 CLSID 呢,不同类型的文档有不同类型文档格式,CLSID 的定位方式也不一样,下面是 4 种常见的文档格式类型:

office 复合文档数据结构解析“初探”_第19张图片

如下只举例 Open-XML 格式和 RTF 格式类型的文档的定位 CLSID 的方法:

···········① open-xml 是通过 OLESS 格式的二进制数据中读入的(用 offvis 看看)

···········② rtf 是通过 OLE对象头部的 progID 进行转化得来的-查看二进制数据可得(Objdata往下第3行8个十六进制数)

office 复合文档数据结构解析“初探”_第20张图片

>>>>>>>>>> step 2: IPersistStorage:Load

当 OLE对象 被确定之后(找到了对应的 CLSID,加载了 CLSID 关联的DLL),OLE对象的 IPersistStorage 接口中的 Load() 被调用,用来初始化 OLE 对象的初始状态。(这个“初始化”在我理解就是将 Storage Data(OLE Native Data) 进行分片读取、处理,获取具体的字段值与意义,如下下下图
office 复合文档数据结构解析“初探”_第21张图片

>> 关于 Storage Data:

可以在上图中看到 HRESULT Load() 函数中的字段 IStorage *pStg 是一个指针,会指向二进制数据中 Storage Data 的具体位置(由于是 HRESULT 类型,因此无论读取成功与否都会返回一个状态码,这里不细讲),而 Storage Data 就保存在文档的二进制数据中,见下下图。 

······以上两步其实就分别读取了到了 具体的 CLSID(OLE对象标识) 和 Storage Data,Office 读取 CLSID 是为了找到并初始化对应的 OLE对象,Office 读取 Storage Data 是为了将读到的数据传递给 OLE对象,由 OLE对象 负责处理读取的 Storage Data数据。

office 复合文档数据结构解析“初探”_第22张图片

>> 以 8570 的 exp.rtf 举例

一个 OLE文档可以包含多个对象(使劲儿往里插就得了),下面这个 rtf 文档包含了两个对象。上面是一个 Package对象,下面的是一个 链接对象

office 复合文档数据结构解析“初探”_第23张图片

以 Package对象为例:其中 ActiveX 就是 ActiveX控件,指的是一类控件:

office 复合文档数据结构解析“初探”_第24张图片

Storage Data 是实现恶意功能的主要数据区域,因此多数已发现的 OLE漏洞都是利用 IPersistStorage::Load 方法。当 Storage Data 读取完毕并传递给 OLE对象去处理之后,到此为止 OLE对象的初始化算是结束,下面开始第二部分。

 

===================== “Verb” 动作的执行 ======================

>> 来到了 Verb 动作的执行,可以看到红框上方的两点解释,触发“Verb”动作有两种方法:

① 用户点击、双击插入的 OLE对象(图片、链接等)

② “Verb” 自动执行,比如 PPT 中某些动画事件,又比如 ppsx 文档一打开就是自动执行

office 复合文档数据结构解析“初探”_第25张图片

Verb动作本质上是依靠调用 IOleObject::DoVerb 方法完成的,见下图,需要注意的是第一个参数 iVerb,这个参数的 MSDN 定义是:IOleObject ::EnumVerbs 返回的 OLEVERB结构中的 verb动作的编号。

office 复合文档数据结构解析“初探”_第26张图片

 

六、关于 OLE漏洞的简单总结

https://blog.csdn.net/Cody_Ren/article/details/104018589

 

 

 

 

参考:

知识星球博主 crazyman 的系列文章《宏病毒的研究与实例分析-2》

https://blog.csdn.net/qq_42855619/article/details/92852284

https://blog.csdn.net/chaoguodong/article/details/80402291

https://bbs.pediy.com/thread-218941.htm

 

 

你可能感兴趣的:(Windows编程,Windows原理)