PDF格式分析(四)文档结构概要

本章将对PDF文档结构进行一个简单的描述,好让大家有个简单的认识。
标准的PDF文档一般包括四个部分:
文件头:用来存储PDF版本
文件体:用来存储间接对象,这是构成PDF比重最大的内容
交叉索引表:用来保存各个间接对象在文件中的起始地址
trailer:用来存储交叉索引表的起始位置,根对象(Root),加密对象(Encrypt),文档信息对象(Info)等
PDF格式分析(四)文档结构概要_第1张图片

PDF是一个大的对象集合,有个根对象(Root),该对象中保存着PDF的很多基本信息,并通过间接引用,辐射到所有的间接对象。
根对象下一层就是Pages对象,该对象保存着所有的页对象信息,默认页面的大小等等。
下一层是Page对象,该对象中包含页的各种属性,包括页面的大小(MediaBox,Cropbox等),图片信息,文本信息,字体信息等
完整的文档结构如下图:
PDF格式分析(四)文档结构概要_第2张图片

你可能感兴趣的:(PDF分析)