PDF格式详解

 PDF(Portable   Document   Format,便携式文档结构)是一种很有用的文件格式,其最大的特点是  
 平台无关而且功能强大(支持文字/图象/音乐/视频).今天先讲一下pdf的文件(物理)结构  

1. 文件结构


 PDF文件结构可分为以下几块:  
1.header:
 pdf文件的第一行,格式如下:  
 %PDF-1.3  
 表示当前文件的版本是1.3(目前最高版本为1.7)  
2.body:
 pdf文件中用到的所有对象,包括文本/图象/音乐/视频/字体/超连接/加密信息等等,格式如下:  
 2   0   obj  
 ...  
 end   obj  
 其中省略号部分是pdf规定的任意合法对象(一共8种)  
3.cross   reference   table:
 所有pdf对象的引用表,其格式如下:  
 xref  
 0   5  
 0000000000   65535   f  
 0000000009   00000   n  
 0000000074   00000   n  
 0000000120   00000   n  
 0000000179   00000   n  
 其中,xref是开始标志,表示以下为引用表内容;0   5表示从对象号为0的开始,  
 连续有5个对象(0,1,2,3,4),分别用5行来表示.每行的前10个数字代表这个  
 这个对象相对文件头的偏移地址,后面5个数字只有当这个对象被删除的时  
 候才有用,表示这个对象被删除后又被重新生成后的对象号最后一位f或n表  
 示对象是否被使用(n表示使用,f表示被删除或没有用)  
4.trailer:
 整个pdf文件的入口点,形式如下:  
 trailer  
 <<  
 /Size   8  
 /Root   1   0   R  
 >>  
 startxref  
 553  
 %%EOF  
 /size   :这个pdf中总共使用了多少个对象  
 /root   :这个pdf文件的catalog对象的对象号,这是pdf中最顶层的对象  
 /startxref:   后面的数字表示cross   reference   table的开始位置  
 /%%EOF   :文件结束符.  
 实际一个pdf文件是很复杂的,但是上面几个部分是确定的,只能多不能少.

2.数据类型

下一讲我说一下pdf里面8种类型.

1.booleam  
用关键字true或false表示,可以是array对象的一个元素,或dictionary对象的一个条目.

2.numeric  
包括整形和实型,不支持非十进制数字,不支持指数形式的数字.

例:  
1)整数 123 4567 +111 -2      
   范围:正2的31次方-1到负的2的31次方  
2)实数 12.3 0.8 +6.3 -4.01 -3. +.03  
   范围:±3.403 × 10的38次方     ±1.175 × 10的-38次方  
   注意:如果整数超过表示范围将转化成实数,如果实数超过范围就出错了  
3.string  
由一系列0-255之间的字节组成,一个string总长度不能超过65535.string有以下两种方式:  
1)由()包含起来的一个字串,中间可以使用转义符"/".  
  例:  
  (abc)  表示abc  
  (a//)  表示a/  
2)由<>包含起来的一个16进制串,两位表示一个字符,不足两位用0补齐  
  例:  
  <Aabb>  表示AA和BB两个字符  
  <AAB>  表示AA和B0两个字符  
4.name  
由一个前导/和后面一系列字符组成,最大长度为127.和string不同的是,name是不可分割的  
和唯一的,不可分割就是说一个name对象就是一个原子,比如/name,不能说n就是这个name的  
一个元素;唯一就是指两个相同的name一定代表同一个对象.从pdf1.2开始,除了ascii的0,别  
的都可以用一个#加两个十六进制的数字表示.  
例:  
 /name  表示name  
 /name#20is 表示name is  
 /name#200 表示name 0  
5.array  
用[]包含的一组对象,可以是任何pdf对象(包括array).虽然pdf只支持一维array,但可以通过  
array的嵌套实现任意维数的array(但是一个array的元素不能超过8191)  
例:  
[549 3.14 false (Ralph) /SomeName]  
6.Dictionary  
用"<<"和">>"包含的若干组条目,每组条目都由key和value组成,其中key必须是name对象,并且  
一个dictionary内的key是唯一的;value可以是任何pdf的合法对象(包括dictionary对象).  
例:  
<< /IntegerItem 12  
/StringItem (a string)  
/Subdictionary << /Item1 0.4  
/Item2 true  
/LastItem (not!)  
/VeryLastItem (OK)  
>>  
>>  
7.stream  
由关键字stream和endstream包含一系列字节.内容和string很相似,但有区别:stream可以分几次  
读取,分开使用不同的部分,string必须作为一个整体一次全部读取使用;string有长度限制,但  
stream却没有这个限制.一般较大的数据都用stream表示.  
例:(略)  
8.NULL  
用null表示,代表空.如果一个key的值为null,则这个key可以被忽略;如果引用一个不存在的  
object则等价于引用一个空对象.  
例:(略)

给大家说点有用的东西:为什么有的pdf不允许打印?  
 pdf有自己的加密措施,其中就有限制打印.  
 找到trailer,如果这个pdf是加密的话会有一个/Encrypt的name,他的值一般形式是n 0 R,表示这个pdf  
 文件的加密信息在n 0这个obj里面记录.找到这个obj,其下有一个/P的name,他的值是一个数字(32位)  
 其中第三位代表是否有打印权限:)


原文出处:http://blog.csdn.net/bobob/article/details/751381

你可能感兴趣的:(pdf,文件格式)