定栓

PDF结构详解

文章目录

介绍
- 前言
- 高保真的文件
- 什么是PDF？
- PDF的一些优点
- 版本摘要
- 谁在使用PDF？
- 有用的免费软件
- 谁应该阅读
构建一个简单PDF文件
- 基本PDF语法
- - File Structure
  - Document Content
  - Page Content
- 构建简单PDF
- - 文件头
  - 目录，交叉引用表和文件尾
  - 主要对象
  - 图形内容
- 把它放在一起
文件结构
- 文档布局
- - 文件头
  - Body
  - 交叉引用表
  - 文件尾
- 词汇约定
- 对象
- - 整数和实数
  - 字符串
  - - 十六进制字符串
  - 名称
  - 布尔值
  - 数组
  - 字典
  - 间接对象
- 流和过滤器
- Incremental Update 增量更新
- Object and Cross-Reference Stream 对象和交叉引用流
- Linearized PDF 线性化 PDF
- 如何读取PDF文件
- 如何编写PDF文件
文档结构
- Trailer 字典
- 文档信息字典
- 文档目录
- 页面和页面树
- 文本字符串
- 日期
- 把它放在一起
参考

介绍

前言

可移植文档格式（PDF）是描述页面打印的世界领先语言，在印刷行业几乎无处不在。同时适用于电子文档交换和在线文档分页展示。

高保真的文件

今天我们认为高保真的PDF文件交换是理所当然的，因为知道这里发送的文件在哪里看起来都是相同的，并且它可以在屏幕上和纸上同等地显示。

但其他文件交换情况并非如此。例如word，当进行文字排版并设置相应字体后，在其他机器上若没有相应字体，则会面临显示不一致问题。

像PDF这样的页面描述语言是使用高度结构化的数据描述打印或屏幕页面的内容（文本和图形）的方式，通常是额外的描述文档各个方面的元数据（例如打印信息或文本注释或如何查看或打印）。这样，关于如何光栅化文档（由打印机或屏幕转换为像素）的决定可以留到生产过程结束。PDF文件可以包含文本和相关的字体定义，矢量和位图图形，导航（例如超链接和书签）以及交互式表单。

PDF用于内容的确切呈现是很重要的地方（例如，用于印刷广告或书籍）。当内容在最后时刻被布置或回流时通常是不合适的。

什么是PDF？

典型的PDF文件包含数千个对象，多种压缩机制，不同的字体格式，以及矢量和光栅图形的混合以及各种元数据和辅助内容。我们在这里简要介绍这些元素，以供下文使用。

文本和字体

PDF文件可以包含从所有常用格式（Type1，TrueType，OpenType，旧版位图字体等）字体中提取的文本。字体文件嵌入在文档中，因此字符形状始终可用，这意味着文件应在任何计算机上呈现相同的形状。支持各种字符编码，包括Unicode。

文本可以填充任何颜色，图案或透明度。一段文本可以用作剪辑其他内容的形状，允许复杂的图形效果，同时文本仍然可选择和可编辑。

通常，信息在PDF文档中以编码形式存在，且允许文本提取，尽管该过程并不总是直截了当。
矢量图像

PDF中的图形内容基于Adobe PostScript语言中首次使用的模型。它由直线和曲线构成的路径组成。可以填充每个路径，以绘制线，或两者。线条可以有不同的厚度，连接样式和破折号图案。

路径可以填充任何颜色，具有由其他对象定义的重复图案，或者具有两种颜色之间的平滑渐变。

可以使用各种普通或渐变透明度渲染路径，其中几种不同的混合模式定义了半透明对象如何相互作用。出于透明的目的，可以将对象组合在一起，因此可以一次将单个透明度应用于整个对象组。

路径可用于剪切其他对象，以便仅显示与剪切路径重叠的那些对象的部分，这些剪辑区域可以彼此嵌套。

PDF有一种机制，允许图形定义一次然后使用多次（在不同的时间背景下）。这可以用于跨越多个页面使用相同的图案。
光栅图像

PDF文档可以在每个组件中包括1到16位之间的位图图像，在几个颜色空间中（例如，三分量RGB或四分量CMYK）。可以使用各种无损或有损压缩机制来压缩图像。

图像可以以任何比例或旋转放置，用于创建填充图案，并且可以具有掩模，该掩模定义它们如何使用透明度与它们所放置的背景混合。
色彩空间

PDF可以使用与特定电子或打印设备（灰度，RGB，CMYK）相关的色彩空间以及与人类色彩感知相关的色彩空间。此外，还有印刷业的色彩空间，如专色。如果简单的PDF程序（如屏幕上的查看器）不支持更高级的颜色空间，则它们可以回退到基本的颜色空间。
元数据

PDF文档有一组标准元数据，如标题，作者，关键字等。这些是在图形内容之外定义的，对文档没有影响。还记录创建者（创建内容的程序）和制作者（编写PDF文件的程序）。每个文档还有一组唯一标识符，允许通过工作流跟踪它们。

从PDF 1.4开始，元数据可以使用Adobe的可扩展元数据平台（XMP）存储在嵌入PDF中的XML（可扩展标记语言）文档中。这定义了一种存储PDF中对象的元数据的方法，该方法可以用第三方扩展以保存与其特定工作流程或产品相关的信息。
导航

在屏幕上查看时，PDF文档有两种导航方法：
- 文档大纲（通常称为文档的书签）是文档中的目标结构列表。单击一个可将视图移动到该页面或位置。
- 文档或文档图形中的超链接允许用户单击以移动到文档中的其他位置或打开外部URL。
可选内容

PDF中的可选内容组允许将页面内容的一部分组合在一起并显示。基于某些其他因素（用户选择，文档是在屏幕上还是在打印时，缩放因子）或者不显示。可以定义组之间的关系，以便它们彼此依赖。一个用途是模拟图形包中的“图层”。例如，当使用PDF查看器读取其生成的文档时，将保留Adobe Illustrator图层。
多媒体

PDF文档可以包括各种多媒体元素。其中许多都破坏了PDF中固有的可移植性，并且在Adobe产品之外通常得不到很好的支持。来自PDF 1.2 可以嵌入声音和电影。来自PDF 1.4 可以定义幻灯片，以便在具有转换的页面之间自动移动效果。来自PDF 1.5 引入了包含任意媒体类型的更通用的系统。来自PDF 1.6 可以嵌入3D图稿。
互动表格

PDF中有两种不兼容的表单体系结构：AcroForms（一种开放标准）和Adobe XML Forms Architecture（XFA），它已被记录但需要Adobe的商业软件。

表单允许用户填写文本字段，并使用复选框和单选按钮。数据完成后，可以将其保存到文档中（如果允许）或提交到URL进行进一步处理。嵌入式JavaScript通常与表单结合使用，以处理字段值或类似任务的验证。
逻辑结构和回流

逻辑结构工具允许将有关结构内容（章节，页面，图形，表格和脚注）的信息与图形内容一起包含在内。特定元素可由第三方定制。

标记的PDF是具有基于一组Adobe定义的元素的逻辑结构的PDF。读取器遵循这些约定，以便以不同的页面大小或文本大小显示相同的文本，例如在电子书阅读器中。
安全

可以使用RC4或AES加密方法对PDF文档进行加密以确保安全性。有两个密码，分别为所有者密码和用户密码。所有者密码为所有更改解锁文件，用户密码只允许在文件最初加密时由所有者选择的一系列操作（例如，允许或禁止打印或文本提取）。用户密码通常是空白的，因此文件似乎正常打开，但功能受到限制。

从PDF 1.3开始，数字签名可用于验证用户的身份或文档的内容。
压缩

PDF中的图像和其他数据流可以使用第三方定义的各种无损和有损方法进行压缩。通过仅压缩这些流（而不是整个文件），PDF对象的结构始终可用，无需解压缩整个文件，只有在需要时才能处理压缩的部分。有几组压缩方法：
- 双级（例如，黑色和白色）图像的无损压缩。PDF支持双层图像的标准传真编码方法，以及PDF 1.4的JBIG2标准，它为同一类图像提供更好的压缩。
- 有损图像滤镜，如JPEG和PDF 1.5，JPEG2000。
- 适用于图像数据和一般数据压缩的无损压缩机制，例如Flate（Zip算法），Lempel-Ziv-Welch（LZW）和行程编码。

PDF的一些优点

随机访问和线性化

PDF文档中的任何对象（页面，图形等）都可以在恒定时间内随意访问。这意味着阅读第150页并不比第1页更难。线性化是在文件中排列对象的过程，使得给定页面所需的所有对象都位于相邻位置。这解释了为什么你在Web浏览器窗口中或在Acrobat Reader中可以快速跳转查看PDF中的任何页面。这是因为查看器不需要加载整个文件，它只（web文档则从服务器）获取显示所需的特定页面内容。
流创建和增量更新

流创建是PDF格式中固有的能力，允许从头到尾按顺序创建文件，即使最终文件大于可用内存。

增量更新意味着，在编辑文件时，可以将更改写入文件末尾而无需修改任何现有部件。这样可以非常快速地保存更改的版本，并且可以用于提供撤消机制，回退到上一版本）。
嵌入字体

PDF中使用的字体与文档一起嵌入。这意味着无论在给定计算机上安装哪种字体，都始终正确呈现。创建PDF文档的程序将从字体中删除不必要的数据（例如度量和未使用的字符），因此文件不会变得过大。PDF支持所有常见的字体格式，例如TrueType和Type 1。
可搜索的文本

大多数PDF文件都维护信息，以将构成文本的字符形状映射到Unicode字符代码。这意味着你可以复制和粘贴文档中的文本，或轻松搜索文本。PDF的最新发展允许文档中文本的逻辑顺序与页面上文本的布局分开存储，从而保留更多结构化信息。
ISO标准化

PDF于2008年由国际标准化组织（ISO）作为开放标准发布.ISO-32000-1:2008文档与Adobe先前发布的PDF文件格式文档大致相同。

这种独立性为PDF标准提供了合法性和监督，这会鼓励其进一步采用。但是，由于没有真正的工具来检测文件是否符合标准（Adobe Reader会很乐意加载格式错误的文件，因为很多工具都会创建它们），真正的严谨性还需要一段时间。
专业的PDF格式

PDF格式有几种专门的变体 - 标准化和开发中。这些是PDF格式的子集。每个文件都是有效的PDF文档，但对所使用的设施或内容本身有限制。其中两个，PDF/A和PDF/X，现在是ISO标准。
- PDF/A
  
  PDF/A标准（ISO 19005-1:2005）为在图书馆，国家档案馆和政府机构中长期存档的文件定义了一套规则。它还需要“符合标准的阅读器”以某种方式，使用嵌入字体，使用颜色管理等。
- PDF/X
  
  PDF/X标准是印刷行业图形交换的ISO标准系列，其中最新的是PDF/X-5（ISO 15930-8:2010）。

版本摘要

PDF完全向后兼容（你可以将PDF版本1.0文档加载到为PDF 1.7设计的程序中）。并且大部分向前兼容（为PDF 1.0编写的程序通常可以加载PDF 1.7文件）。确保前向兼容性是因为读者忽略了他们不理解的内容 - 只有在引入新的压缩方法或对象存储机制时才会被忽略。自2003年的PDF 1.5以来，这种变化很小。如下表格总结了PDF版本及其功能。

PDF 版本	Acrobat Reader 版本	推出	新功能摘要
1.0	1.0	1993	首发
1.1	2.0	1996	设备无关的颜色空间，加密（40位），文章线程，命名目标和超链接
1.2	3.0	1996	AcroForms（交互式表单），电影和声音，更多压缩方法，Unicode支持。
1.3	4.0	2000	更多色彩空间，嵌入（附加）文件，数字签名，注释，蒙版图像，渐变填充，逻辑文档结构，印前支持
1.4	5.0	2001	透明度，128位加密，更好的表单支持，XML元数据流，标记PDF，JBIG2压缩
1.5	6.0	2003	对象流和交叉引用流，用于更紧凑的文件，JPEG 2000支持，XFA表单，公钥加密，自定义加密方法，可选内容组
1.6	7.0	2004	OpenType字体，3D内容，AES加密，新颜色空间
1.7 (later ISO 32000-1:2008)	8.0	2006	XFA 2.4，新类型的字符串，公钥体系结构的扩展
1.7 Extension Level 3	9.0	2008	256位AES加密
1.7 Extension Level 5	9.1	2009	XFA 3.0.
1.7 Extension Level 8	X	2011	未知

谁在使用PDF？

PDF广泛用于各行各业，我们在这里描述一些。

印刷业

PDF支持商业打印所需的色彩空间，页面尺寸信息（如介质，裁剪，艺术和出血盒），陷印支持和分辨率独立性。与其他技术一起，PDF是出版印刷工作流程的关键部分。PDF元数据的可扩展性允许各种方案用于将额外数据与文档包括一起，并且在整个发布过程中将其与文档保持在一起。
电子书和出版

PDF是主流电子书格式之一。为了支持在各种屏幕上显示，PDF文档可以用回流信息标记，允许在每个设备上以不同的宽度显示文本行。这与PDF的其他用途不一致，其中固定文本布局是印刷业必需的。
PDF表格

当现有的纸质系统转换为电子系统或必须与它们一起存在时，PDF表格特别有用。PDF格式（在线填写然后打印出来）看起来与在纸上手动填写的格式相同，并且可以以相同的方式由现有的人或计算机系统处理。

从PDF查看器中自动提交表单，使用JavaScript添加（例如确保数字以税表形式添加），以及使用数字签名签署填写表格都是使用PDF格式的电子表格。
文档存档

通过PDF/A，PDF是长期归档的理想格式，结合了扫描和电子内容的精确表示，以及Unicode语言支持，以及各种数据的压缩机制，包括用于单色图像的重要CCITT传真和JBIG2方法。作为ISO标准（以及几乎无处不在的标准）保证这些文档可以在将来很长时间内阅读。

PDF可用于光学字符识别（OCR），允许从原始文本创建可搜索的文本，精确的视觉表示与识别的文本一起保留。
作为文件格式

乍一看，PDF不适合用作可编辑的矢量图形格式。例如，页面圆圈不会像原始矢量圆圈一样保持可编辑状态，因为它将被转换为多条曲线（PDF中没有圆形元素）。

但是，如果适当地使用它的可扩展性来存储辅助数据，那么它就是一个很好的解决方案。例如，Adobe Illustrator 现在使用扩展形式的PDF作为其文件格式。该文件可以在任何PDF查看器中查看，但Illustrator 可以在将数据加载回程序时使用扩展数据。

有用的免费软件

在本书中，我们使用各种软件来帮助我们举例。幸运的是，你需要的一切都是免费提供的。你需要一个PDF查看器：

Acrobat Reader是Adobe自己的PDF查看器。它支持PDF的所有版本和功能，并在大多数平台上附带浏览器插件。它适用于Microsoft Windows，Mac OS X，Linux，Solaris和Android。

有个关键的命令行工具：

pdftk是一个多平台命令行工具，用于以各种方式处理PDF文件。它可以以预构建的形式下载，适用于Microsoft Windows，Mac OS X和Linux，也可以源代码形式下载。

谁应该阅读

本文适合：

希望了解其提供的设施背后原因的Adobe Acrobat用户，而不仅仅是如何使用它们。例如：加密选项，修剪和裁剪框以及页面标签。
希望使用命令行软件批量处理PDF文档的高级用户，通过合并，拆分和优化它们。
程序员编写代码来读取，编辑或创建PDF文件。
想要了解如何使用PDF的元数据和工作流功能来构建连贯系统的搜索，电子出版和打印行业专业人士。

构建一个简单PDF文件

我们将在文本编辑器中手动构建PDF内容。然后我们将使用
免费的pdftk程序将其转换为有效的PDF文件，并在PDF查看器中查看输出。

基本PDF语法

PDF文件至少包含三种不同的部分:

file structure 文件结构，包括header(文件头)，trailer(文件尾)和交叉引用表，帮助程序找到并读取文件的内容。
document content 文档内容，包含多个具有引用关系的对象，形成有向图。这些对象描述了文档的结构（页面，元数据，字体和资源）。
page content 页面内容，描述了使用一系列操作符将文本和图形放在一个页面上。

File Structure

文件结构包括：

用于将文件区分为PDF文档的header(文件头)。
一个交叉引用表，列出了文档中每个对象的字节偏移量 - 这个
允许任意访问对象，而不是必须按顺序读取。
trailer(文件尾)，包括交叉引用表的字节偏移，后跟文件结束标记。

Document Content

文档内容包括由以下元素构建的对象：

名称，如写为 /Type
整数，如 50
带圆括号的字符串，如 (The Quick Brown Fox)
引用其他对象，如 2 0 R，对对象2的引用。
对象的数组（有序集合），如 [50 30 /Fred]，是一个包含三个项目的数组，按顺序：50, 30 和 /Fred。
字典（从名称到对象的无序映射），如 <>，映射 /Three 到 3 和 /Five 到 5。
stream(流)，它由字典和一些二进制数据组成。这些用于存储PDF图形运算符的流，以及其他二进制数据，如图像和字体。

例如，这是一个页面对象，它是一个包含许多项目的字典，每个与名称相关联：

<< 
  /Type /Page
  /MediaBox [0 0 612 792]
  /Resources 3 0 R
  /Parent 1 0 R
  /Contents [4 0 R]
>>

这个词典包含五个条目：

/Type /Page

字典键 /Type与名称 /Page 相关联。
/MediaBox [0 0 612 792]

字典键 /MediaBox 与四个整数 [0 0 612 792] 的数组相关联。
/Resources 3 0 R

字典键 /Resources 与对象编号3相关联。
/Parent 1 0 R

字典键 /Parent 与对象编号1相关联。
/Contents [4 0 R]

字典键 /Contents 与间接引用 [4 0 R] 的单元素数组相关联。

Page Content

页面内容是运算符列表，每个运算符前面都有零个或多个操作数。

如下是一系列操作符，用于在36号字体选择/F0字体并放置当前位置的文字:

/F0 36.0 Tf
(Hello, World) Tj

这里，Tf 和 Tj 是运算符，而 /F0, 36.0 和 (Hello, World) 是操作数。

你可以看到一些语法元素（例如，名称和字符串）是共享的跨页面内
容。

构建简单PDF

我们将要构建的示例只是最简单有意义的PDF文件。我们会：

使用简短的header。
跳过了页面内容流的长度，因此我们不必手动计数字节数。
省略几乎所有的交叉引用表
使用0表示交叉引用表的字节偏移量，以避免必须计数它手动。

然而，它还需要另外较多的元素。除上所述，最小的PDF文档还必须包含许多基本部分：

trailer字典，提供了如何阅读文件中其余的对象内容
文档目录，它是对象图的根。
页面树，它枚举文档中的页面。
至少有一页。且每个页面必须具有：
- resources(资源)，包括例如字体。
- 其它页面内容，其中包含绘制文本和图形的说明在页面上。

这种安排如下图所示。

在编写我们的示例文件时，我们将对许多文件结构使用不完整的值，
依靠pdftk来填写细节。例如，我们手动编写交叉引用表是不切实际的。

注：文本编辑器选择的行结尾并不重要（[在 Unix 和 Mac OS X 中]和[在 Windows 中]都很好）。

文件头

文件头通常由两行组成。第一行将文件标识为PDF和给出它的版本号：

%PDF-1.0    % PDF 版本号为 1.0 的文件头

第二行很难输入文本编辑器，因为它包含不可打印的字符。我们将有pdftk为我们处理。

目录，交叉引用表和文件尾

pdf文件读取是从下往上进行读取。

最后一行，文件结束标记 %%EOF。

向上两行，给出交叉引用表开始的字节偏移量（我们写0，pdftk将进行替换处理）。

再向上是trailer部分，给出了交叉引用表的行数，以及文档目录的引用对象。

交叉引用表在示例中是xref开头至trailer中间部分，它给出了文件中的每个对象的字节偏移量。我们将用pdftk为我们填写此内容。

由trailer获得的文档目录引用对象为5 0 R，则向上找到5 0 obj对象。该对象包含的是文档目录的根对象图。

5 0 obj
<< /Type /Catalog   % 这是一个文档目录
   /Pages 1 0 R     % 页面列表
>>
endobj
xref    % 我们跳过了交叉引用表后续每个对象的字节偏移量
0 6
trailer
<< /Size 6      % 交叉引用表中的行数（对象数加1）
   /Root 5 0 R  % 文档目录
>>
startxref
0       % xref开始的字节偏移量，我们将其设置为0
%%EOF   % 文件结束标记

主要对象

到文件的主体(对象)，/Kids对应的是Page列表，它是链接到文档中页面对象的字典。

1 0 obj % 对象1
<< /Type /Pages     % 这是一个页面列表
   /Count 1         % 只有一页
   /Kids [2 0 R]    % 页面对象编号列表，这里是对象2
>>
endobj  % 对象1结束

接下来是页面，它是一个字典，包含纸张大小，父页面对象引用，以及图形内容和引用资源。

2 0 obj
<< /Type /Page              % 这是一个页面
   /MediaBox [0 0 612 792]  % 纸张尺寸为美国信肖像（612点x792点）
   /Resources 3 0 R         % 对象3的资源引用
   /Parent 1 0 R            % 父页面对象引用
   /Contents [4 0 R]        % 图形内容在对象4中
>>
endobj

现在，资源(resource)在这里，只有一个条目，字体字典，在我们的
示例包含单个字体，我们将使用该字体在页面上写入一些文本。

3 0 obj
<< /Font  % 字体字典
     << /F0  % 只有一种字体，称为/F0
          << /Type /Font  % 这三行引用了内置字体Times Italic
            /BaseFont /Times-Italic
            /Subtype /Type1 
          >>
     >>
>>
endobj

图形内容

页面内容流包含用于放置文本和图形的一系列运算符。在页面上。它通过页面字典中的 /Contents 条目链接。

流对象由字典后跟原始数据流组成，包含一个一系列PDF操作数和运算符。通常，这将被压缩以减少文件大小，但我们手动输入，所以我们不压缩它。我们还必须以字节为单位指定流的长度（pdftk将为我们添加所需的/Length 条目到流字典）。

4 0 obj     % 页面内容流
<< >>       % 内容流长度
stream      % 流的开始
1. 0. 0. 1. 50. 700. cm % 位置在（50,700）
BT  % 开始文本块
 /F0 36. Tf         % 在36pt选择/F0字体
 (Hello, World) Tj % 放置文本字符串
ET  % 结束文本块
endstream   % 流结束
endobj

页面上的图形运算符流的结果如图2-2所示。

现在我们准备将这些部分放在一起了

把它放在一起

无效的hello-broken.pdf PDF文件适合手动创建

%PDF-1.0    % 文件header
1 0 obj     % 主要对象
<< /Type /Pages
   /Count 1
   /Kids [2 0 R]
>>
endobj
2 0 obj
<< /Type /Page
   /MediaBox [0 0 612 792]
   /Resources 3 0 R
   /Parent 1 0 R
   /Contents [4 0 R]
>>
endobj
3 0 obj
<< /Font
     << /F0
          << /Type /Font
             /BaseFont /Times-Italic
             /Subtype /Type1 
          >>
     >>
>>
endobj
4 0 obj     % 图形内容
<< >>
stream
1. 0. 0. 1. 50. 700. cm
BT
 /F0 36. Tf
 (Hello, World) Tj
ET
endstream
endobj
5 0 obj     % 目录，交叉引用表和trailer
<< /Type /Catalog
   /Pages 1 0 R
>>
endobj
xref
0 6
trailer
<< /Size 6
   /Root 5 0 R
>>
startxref
0
%%EOF

就目前而言，hello-broken.pdf不是有效的PDF文件。

注：Reader 2023.006.20380 Chinese Windows(64Bit) 已经可以直接打开 hello-broken.pdf 文件。打开后关闭时，会提示是否需要保存。查看保存的 PDF 发现使用 PDF 1.6 规范并且已经线性化。

我们可以使用免费的pdftk工具来修复hello-broken.pdf文件，将输出写入hello.pdf：

pdftk hello-broken.pdf output hello.pdf

pdftk读取文件及其对象，并为缺失部分计算正确的数据，生成有效文件。注意一些语法的间距和格式已经改变（每个PDF制做人对此有不同的选择）。

完成的PDF文件hello.pdf。你可以使用文本编辑器查看现有的PDF文件。但是，有些数据（例如构成页面内容的图形运算符）很可能被压缩，因此不可读。

%PDF-1.0
%忏嫌       % ❶
1 0 obj
<<
/Kids [2 0 R]
/Count 1
/Type /Pages
>>
endobj
2 0 obj
<<
/Parent 1 0 R
/Resources 3 0 R
/MediaBox [0 0 612 792]
/Contents [4 0 R]
/Type /Page
>>
endobj
3 0 obj
<<
/Font
<<
/F0
<<
/BaseFont /Times-Italic
/Subtype /Type1
/Type /Font
>>
>>
>>
endobj
4 0 obj
<<
/Length 66  % ❷
>>
stream
1. 0. 0. 1. 50. 700. cm
BT
 /F0 36. Tf
 (Hello, World) Tj
ET

endstream
endobj
5 0 obj
<<
/Pages 1 0 R
/Type /Catalog
>>
endobj xref
0 6         % ❸
0000000000 65535 f
0000000015 00000 n
0000000074 00000 n
0000000192 00000 n
0000000291 00000 n
0000000409 00000 n
trailer

<<
/Root 5 0 R
/Size 6
>>
startxref
450         % ❹
%%EOF

一些不可打印的字符已添加到PDF标题中 —— 这可确保文件被识别为二进制（而不是文本），例如，通过FTP等文件传输程序。
已填写流的字节长度。
交叉引用表已填入了每个对象的字节偏移量。
已填写交叉引用表开头的字节偏移量。

文件结构

在该段落，我们将详细描述PDF文件的四个主要部分的布局和内容，以及构成每个部分的对象的语法。我们将概述PDF文件读入高级数据结构的过程，以及反向将该结构写入PDF文件的操作。

文档布局

一个简单有效的PDF文件按顺序包含四个部分:

header，提供PDF版本号。
body 包含页面，图形内容和大部分辅助信息的主体，全部编码为一系列对象。
交叉引用表，列出文件中每个对象的位置便于随机访问。
trailer包括trailer字典，它有助于找到文件的每个部分，并列出可以在不处理整个文件的情况下读取各种元数据。

我们从上文经pdftk处理后的pdf作为示例进行讲解。四个部分中的每一部分的第一行都有注释。

%PDF-1.0 % Header从这里开始
%忏嫌
1 0 obj % Body从这里开始
<<
/Kids [2 0 R]
/Count 1
/Type /Pages
>>
endobj 
2 0 obj 
<<
/Parent 1 0 R
/Resources 3 0 R
/MediaBox [0 0 612 792]
/Contents [4 0 R]
/Type /Page
>>
endobj 
3 0 obj 
<<
/Font 
<<
/F0 
<<
/BaseFont /Times-Italic
/Subtype /Type1
/Type /Font
>>
>>
>>
endobj 
4 0 obj 
<<
/Length 66
>>
stream
1. 0. 0. 1. 50. 700. cm
BT
	/F0 36. Tf
	(Hello, World) Tj
ET

endstream 
endobj 
5 0 obj 
<<
/Pages 1 0 R
/Type /Catalog
>>
endobj 
xref % 交叉引用表从这里开始
0 6
0000000000 65535 f 
0000000015 00000 n 
0000000074 00000 n 
0000000182 00000 n 
0000000281 00000 n 
0000000400 00000 n 
trailer % 预览块从这里开始

<<
/Root 5 0 R
/Size 6
>>
startxref
450
%%EOF

PDF文件中的对象集合形成图形。这个图的意思与饼图或直方图无关，而是指通过链接连接在一起的节点集合。

在我们的例子中，节点是PDF对象，链接是间接引用。读一个PDF文档是在文件中创建PDF对象的图形的过程。这个图是直接链接只走一条路。

我们现在依次仔细研究这四个部分中的每一个，使用上图作为参考。

文件头

PDF文件的第一行给出文档的版本号。在我们的示例中，是：

%PDF-1.0

这将文件PDF版本定义为1.0。PDF是向后兼容的，它在很大程度上也是向前兼容的，因此PDF 1.5的程序可以读取PDF 1.3文档。所有大多数PDF程序都会尝试读取任何PDF文件，无论假设的版本号是什么。

由于PDF文件几乎总是包含二进制数据，因此如果更改行结尾（例如，如果文件通过FTP以文本模式传输），它们可能会损坏。为了允许传统文件传输程序确定文件是二进制文件，通常在标头中包含一些字符代码高于127的字节。

例如：

%忏嫌

百分号标识一行注释，其他几个字节是超过127的任意字符代码。因此，我们示例中的整个header是：

%PDF-1.0
%忏嫌

Body

文件正文由一系列对象组成，每个对象前会有单独的一行，该行包括一个对象编号，一个世代号以及关键字obj。紧跟在对象之后的是endobj关键字，它同样独占一行。

例如：

1 0 obj
<<
/Kids [2 0 R]
/Count 1
/Type /Pages
>>
endobj

这里，对象编号是1，并且世代号是0（几乎总是为0）。对象1的内容位于1 0 obj和endobj两行之间。在这种情况下，它是字典<>

交叉引用表

交叉引用表列出了文件正文中每个对象的字节偏移量。这允许随机访问对象，因此不必按顺序读取它们。这意味着，即使在大型文件上，像计算PDF文档中的页数这样的简单操作也可以很快。

PDF文件中的每个对象都有一个对象编号和一个世代编号。当重用交叉引用表条目时使用世代号 —— 我们在这里不考虑它们（它们将始终为零）。

在我们的文件中，我们可以认为交叉引用表由一个表示条目数的标题行组成，然后是一个特殊条目，然后是文件体中每个对象的一行。

0 6 % 表中的六个条目，从0开始
0000000000 65535 f % 特别条目
0000000015 00000 n % 对象1的字节偏移量为15
0000000074 00000 n % 对象2的字节偏移量为74
0000000182 00000 n % 等等...
0000000281 00000 n
0000000400 00000 n % 对象5的字节偏移量为400

请注意，字节偏移量以前导零（不足位数补0）存储，以确保每个条目都相同长度。因此，我们也可以通过随机访问来读取交叉引用表。

文件尾

Trailer的第一行只是Trailer关键字。之后是Trailer字典，至少包含 /Size 条目（给出交叉引用表中的条目数）和 /Root 条目（给出文档根目录对象编号，它是正文中对象图的根元素）。

接下来一行只包含startxref关键字，再一行包含一个数字（文件中交叉引用表开头的字节偏移量），然后是行%%EOF，它表示PDF文件的结尾。

trailer
<< % 字典
/Root 5 0 R
/Size 6
>>
startxref % 交叉引用表开始关键字
450 % 交叉引用表的字节偏移量
%%EOF % 文件结束标记

从文件末尾向上读取Trailer：找到文件结束标记，提取交叉引用表的字节偏移量，然后解析Trailer字典。Trailer关键字标记Trailer解析行为的结束。

词汇约定

PDF文件是8位字节的序列，这些字符可以分组为标记（例如关键字和数字）和文件解析。

有三种标记字符：常规字符，空白字符和分隔符。

如上hello.pdf源码中，最顶行插入如下包含空白字符的字符串，可正常打开。

Example 3-1. A small PDF file

分隔符是() <> [] {} / ％，用于定义数组，字典等。所有其他字符都是常规字符，没有特殊含义。

文件解析字符含义如下表格所列：

字符代码	含义
0	Null
9	Tab
10	Line feed
12	Form feed
13	Carriage return
32	Space

PDF文件可以使用，或序列来结束一行。但请注意，更改行结尾（例如，在文本编辑器中）可能会破坏文件，因为它将改变在压缩二进制数据部分中发生的任何行结束序列。

对象

PDF文件由对象图组成，将对象链接在一起的方法：间接引用，它形成从一个对象到另一个对象的链接。

PDF支持五个基本对象：

整数和实数，例如42和3.1415。
字符串，括在括号中，并有各种编码。例如 (The Quick Brown Fox)。
名称，用于词典中的键，以及其他用途。它们带有/，例如/Blue。
布尔值，由关键字true和false表示。
null对象，由关键字null表示。

和三个复合对象：

数组，包含其他对象的有序集合，如[1 0 0 0]。
字典，由无序的对集合组成，将名称映射到对象。

例如，<>，其将/Contents映射到间接引用4 0 R，/Resources映射到间接引用5 0 R。
间接对象，PDF文件中的任何对象都可标记为间接对象。这为对象提供了一个唯一的对象标识符，其他对象可通过它来引用该对象（例如，作为数组的一个元素或字典条目的值）。

整数和实数

整数写为一个或多个十进制数字0~9，可选地以加号或减号开头：

0 +1 -1 63

实数被写为一个或多个十进制数字，可选地前面带有加号或减号，并且可选地有一个小数点，可以是内部，或以下：

0.0 0. .0 -0.004 65.4

通常，规范允许给定对象是整数或实数。其他时候它必须是整数。此外，整数和实数的范围和准确性由PDF实现定义，而不是标准。在某些实现中，如果整数超出可用范围，则将其转换为实数。

字符串

字符串由一系列字节组成，写在括号之间：(Hello, World)

反斜杠\字符和括号字符()必须通过在它们前面加上反斜杠进行转义。例如，写作：(Some \\ escaped \(characters)表示字符串"Some \ escaped (characters"。外部存在已经平衡的括号对在字符串内不需要转义。例如(Red(Rouge))表示字符串“Red(Rouge)”。

反斜杠也可用于引入其他字符代码以实现可读性（参见表3-2）。

字符序列	含义
\n	换行
\r	回车
\t	水平制表符
\b	退格
\f	换页符
\ddd	三个八进制数字的字符代码

十六进制字符串

字符串也可以写为<和>之间的十六进制数字序列，每对代表一个字节：

<4F6Eff00> Bytes 0x4F, 0x6E, 0xFF, and 0x00

当存在奇数个数字时，假设最后一个为十六进制字符串通常用于使用户二进制数据可读。

它在功能上与以通常方式描述字符串相同。

名称

名称在整个PDF中使用，作为字典的键来定义各种值对象。一个名称引入正斜杠。例如：

/French

/字符是名称的一部分 —— 事实上，/它本身就是一个有效的名称。名称可能不包含空格或分隔符，但名称需要与之对应一些具有这些字符的外部名称（例如空格），我们可以使用哈希符号后跟两个十进制数字：

/Websafe#20Dark#20Green

这表示名称/Websafe Dark Green，因为在ASCII中，
十六进制20是空格的代码。名称区分大小写（/French和/french不同）。

布尔值

PDF允许布尔值为true和false。它们经常在字典条目中用作标志。

数组

数组表示PDF对象的有序集合，包括其他数组。对象不一定都是同一类型。例如，数组：

[0 0 400 500]

按顺序包含四个数字：0,0,400,500。数组：

[/Green /Blue [/Red /Yellow]]

包含三个项目：名称/Green，名称/Blue和两个名称的数组[/Red /Yellow]。

字典

字典表示键值对的无序集合。字典将键映射到值 —— 提供键，值是在字典中查找的结果。键是名称，值可以是任何PDF对象。字典写在<<和>>之间。例如：

<>

将名称/One映射到整数1，将名称/Two映射到整数2，将名称/Three映射到整数3.字典当然可以包含其他字典。嵌套字典构成了大多数PDF文件中的大部分非图形结构化数据。

间接对象

为了将PDF内容拆分为单独的对象（因此只有在需要时才能读取数据），
我们将它们与间接引用连接在一起。对对象6的间接引用写为：

6 0 R

这里，6是对象编号，0是世代号（这里我们不考虑），R是间接参考关键字。

例如，这是使用间接引用的典型字典：

<< /Resources 3 0 R
   /Contents [4 0 R] 
>>

在此示例中，对象3和4在字典的值中被引用。

流和过滤器

流用于存储二进制数据。它们由字典和一大块二进制数据组成。字典根据流所放置的特定用途列出数据的长度，以及可选的其他参数。

从语法上讲，流由字典组成，后跟stream关键字，换行符（或），零个或多个字节的数据，另一个换行符，最后是endstream关键字。从我们的示例文件中：

4 0 obj % 对象4
<<
/Length 66 % 数据长度
>>
stream % 流关键字
1. 0. 0. 1. 50. 700. cm % 66字节的数据，这里是图形流
BT
  /F0 36. Tf
  (Hello, World) Tj
ET
endstream % 结束流关键字
endobj % 对象的结束

这里，字典只包含/Length条目，它以字节为单位给出流的长度。

所有流必须是间接对象。流几乎总是使用各种机制进行压缩，如下表所示。

方法名称	描述
/ASCIIHexDecode	为压缩数据中的每对十六进制数字生成一个字节的未压缩数据。`>`表示数据结束。空格被忽略。这个过滤器和/ASCII85Decode旨在将数据减少到7位 ——/ASCII85Decode更复杂，但更紧凑
/ASCII85Decode	这种7位编码格式使用可打印的字符从 `!` 到 `u` 和 `Z`。（译者注：即通过五个ASCII字符来表示四个字节的二进制数据。）`~>`标识数据结束
/LZWDecode	实现Lempel-Ziv-Welch压缩，如TIFF图像格式所使用
/FlateDecode	Flate压缩，由开源zlib库使用。在RFC 1950中定义。/LZWDecode和/FlateDecode都可以在流字典中具有预测变量，它们定义数据的后处理以反转在压缩时完成的预处理
/RunLengthDecode	一个简单的基于字节的游程压缩器
/CCITTFaxDecode	实现传真机使用的第3组和第4组编码。适用于单色（位深度为1）图像，不适用于一般数据
/JBIG2Decode	一种更现代，更好的压缩机制，适用于与/CCITTFaxDecode一起使用的各种数据，但也适用于灰度和彩色图像和一般数据。实现JBIG2压缩方法
/DCTDecode	JPEG有损压缩。整个JPEG文件可以放在这里，包括JPEG文件头
/JPXDecode	JPEG2000有损和无损压缩。仅限于JPX基准功能集，但有一些例外

以下是压缩流的示例：

796 0 obj
<> % 流
HTKO0÷ü % 这里还有 268 字节被隐藏，即总计 275 字节
endstream
endobj

通过为流的字典中的/Filter条目指定数组而不是名称，可以使用多个过滤器。
例如，使用JPEG方法压缩然后使用ASCII85编码的图像可能具有以下过滤条目：

/Filter [/ASCII85Decode /DCTDecode]

需要外部参数的过滤器（例如，在数据流本身之外定义压缩参数）也会将这些参数存储在流字典中。

Incremental Update 增量更新

增量更新允许通过将修改附加到文件末尾来更新文件，因此不需要再次写入整个文件（对于大文件，可能需要很长时间）。更新构成新的或更改的对象，以及对交叉引用表的更新。这意味着保存更改所花费的时间更少，但文件可能会变得臃肿（因为不再需要的对象无法删除）。

此更新过程可能会发生多次。副作用是以这种方式更新的文件能进行撤销一次或多次，从而能检索到文档的早期版本。

更改经过数字签名的文档时，必须以增量方式进行所有更新，否则，
数字签名将无效。收件人可以撤消增量更新以检索原始的，经过认证的文档。

当一个文件以递增方式更新时，会添加一个新的trailer，其中包含前一个trailer中的所有条目，以及一个/Prev条目，它给出了之前交叉引用表的字节偏移量。因此，已逐步更新的文件将具有多个trailer词典和文件结束标记。

通过这种方式，PDF应用程序可以以相反的顺序读取交叉引用部分，以构建文件中每个对象的最新版本的列表。

Object and Cross-Reference Stream 对象和交叉引用流

从PDF 1.5开始，引入了一种新机制，通过允许将多个对象放入单个
对象流中来进一步压缩PDF文件，整个流被压缩。同时，引入了一种用于引用这些流中的对象的新机制 —— 交叉引用流。

文件通常使用几组对象流，将特定时间所需的对象组合在一起，例如第一页上的所有对象，第二页上的所有对象，等等。这保留了文档的随机访问属性，如果将文件中的所有对象放入单个对象流中，该属性将丢失。对象流不能包含其他流。

使用这些机制压缩的文件很难手动读取，因此我们可以像往常一样使用pdftk中的解压缩操作，将它们重写为解压缩以供检查。

Linearized PDF 线性化 PDF

在网络环境中查看大型PDF文件时，尤其是当数据速率较低或网络延迟较高时，用户不希望等待整个文件下载以查看它。

在Web浏览器中查看文档时，这一点尤为重要。我们希望第一页快速显示，并且要更改为另一页（通过单击超链接或书签）尽可能快。

网络传输机制例如HTTP（超文本传输协议，用于在Web浏览器中获取网页）通常允许获取任意数据块。但是，因为延迟，我们希望获取一个包含页面所有数据的块，而不是数百个小块，每个对象一个。

PDF 1.2引入了这样一种机制，线性化PDF。这将添加有关如何对文件中的对象进行排序的规则。该系统是向后兼容的，因此线性化的PDF文件可以由不理解线性化PDF的阅读器读取。

线性化的PDF文件可以通过文件顶部直接在标题之后存在线性化字典来识别。例如：

%PDF-1.4
%âãÏÓ
4 0 obj
<< /E 200967
 /H [ 667 140 ]
 /L 201431
 /Linearized 1
 /N 1
 /O 7
 /T 201230
>>
endobj

如何读取PDF文件

要读取PDF文件，将其从一系列平坦的字节转换为内存中对象的图形，
通常可能会发生以下步骤：

从文件开头读取PDF header，确认这确实是PDF文档并检索其版本号。
现在通过从末尾向后搜索找到文件结束标记。现在可以读取trailer字典，以及startxref的字节偏移量检索交叉引用表。
现在可以读取交叉引用表，知道每个对象是在文件哪里了。
在此阶段，可以读取和解析所有对象，或者我们可以离开此过程直到实际需要每个对象，按需阅读。
我们现在可以使用数据，提取页面，解析图形内容，提取元数据等。

这不是详尽的描述，因为存在许多可能的复杂性（线性化，对象和交叉引用流，加密）。

以下伪代码中给出的递归数据结构可以包含PDF对象。

pdfobject ::= Null
            | Boolean of bool
            | Integer of int
            | Real of real
            | String of string
            | Name of string
            | Array of pdfobject array
            | Dictionary of (string, pdfobject) array Array of (string, pdfobject) pairs | Stream of (pdfobject, bytes) Stream dictionary and stream data
            | Indirect of int

例如，对象<< /Kids [2 0 R] /Count 1 /Type /Pages >>可能表示为：

Dictionary
  (
    (Name (/Kids), Array (Indirect 2)),
    (Name (/Count), Integer (1)), 
    (Name (/Type), Name (/Pages))
  )

如何编写PDF文件

将PDF文档写入文件中的一系列字节要比阅读它简单得多，我们不需要支持所有PDF格式，只需要支持我们打算使用的子集。写作PDF文件非常快，因为它只是将对象图展平为一系列字节。

输出header。
删除PDF中未引用的对象,这个避免编写不再需要的对象。
重新编号对象，使它们从1到n运行，其中n是对象的数量文件。
逐个输出对象，从对象编号1开始，在交叉引用表中记录每个对象偏移量，并编写交叉引用表。
编写trailer字典，交叉引用表偏移量和文件结束标记

文档结构

现在我们考虑下文档结构。trailer字典，文档目录和页面树。我们枚举每个对象中的必需条目。然后我们看看PDF文件中的两个常见结构：文本字符串和日期。

下图显示了典型文档的逻辑结构。

Trailer 字典

这个字典驻留在文件的trailer而不是文件的主体中，是程序想要读取PDF文档时要处理的第一件事。它包含允许读取交叉引用表的条目，从而可进行后续文件对象的读取。

键	值类型	值
/Size*	整数	文件交叉引用表中的条目总数（通常等于文件中的对象数加1）
/Root*	间接引用字典	文件目录
/Info	间接引用字典	文档信息字典
/ID	两个字符串的数组	唯一标识工作流程中的文件。第一个字符串在首次创建文件时确定，第二个字符串在工作流系统修改文件时进行修改

这是一个示例trailer词典：

<<
   /Size 421
   /Root 377 0 R
   /Info 375 0 R
   /ID [<75ff22189ceac848dfa2afec93deee03> <057928614d9711db835e000d937095a2>]
>>

一旦处理了trailer字典，我们就可以继续阅读文档信息字典和文档目录。

文档信息字典

文档信息字典包含文件的创建日期和修改日期，以及一些简单的元数据。文档信息字典条目在如下表格描述。

键	值类型	值
/Title	文本字符串	该文件的标题。请注意，这与第一页上显示的任何标题无关
/Subject	文本字符串	该文件的主题。同样，这只是元数据，没有关于内容的特定规则
/Keywords	文本字符串	与此文档相关的关键字。没有给出关于如何构建这些的建议
/Author	文本字符串	文件作者的姓名
/CreationDate	日期字符串	文档创建的日期
/ModDate	日期字符串	上次修改文档的日期
/Creator	文本字符串	最初创建此文档的程序的名称，如果它以另一种格式（例如，“Microsoft Word”）启动
/Producer	文本字符串	将此文件转换为PDF的程序的名称，如果它以另一种格式（例如，字处理器的格式）启动

这是一个示例Info词典：

<<
   /ModDate (D:20060926213913+02'00') 
   /CreationDate (D:20060926213913+02'00')
   /Title (catalogueproduit-UK.qxd)
   /Creator (QuarkXPress: pictwpstops filter 1.0) 
   /Producer (Acrobat Distiller 6.0 for Macintosh) 
   /Author (James Smith)
   /Subject (subject test)
   /Keywords (keywords test)
>>

文档目录

文档目录是主对象图的根对象，可以通过间接引用从中到达所有其他对象。在如下表格中，我们列出了必需(带*)的文档目录字典条目，以及许多可选的文档目录字典条目。

键	值类型	值
/Type*	name	必须是/Catalog
/Pages*	间接引用字典	页面树的根节点
/PageLabels	number tree	一个数字树，给出了该文档的页面标签。这种机制允许文档中的页面具有比1,2,3更复杂的编号…例如，书籍的前言可以编号为i，ii，iii …，而主要内容再次以1,2,3开始…这些页面标签显示在PDF查看器中 - 它们与打印输出无关
/Names	dictionary	名字词典。它包含各种名称树，它们将名称映射到实体，以防止必须使用对象编号直接引用它们
/Dests	dictionary	将名称映射到目标的字典。目的地是向用户发送的PDF文档中的超链接位置的描述
/ViewerPreferences	dictionary	一个查看器首选项字典，允许标志指定在屏幕上查看文档时的PDF查看器的行为，例如打开文档的页面，初始查看比例等
/PageLayout	name	指定PDF查看器要使用的页面布局。值为/SinglePage，/OneColumn，/TwoColumnLeft，/TwoColumnRight，/TwoPageLeft，/TwoPageRight。（默认值：/SinglePage）。详情见ISO 32000-1:2008的表28
/PageMode	name	指定PDF查看器要使用的页面模式。值为/UseNone，/UseOutlines，/UseThumbs，/FullScreen，/UseOC，/UseAttachments。（默认值：/UseNone）。详情见ISO 32000-1:2008的表28
/Outlines	间接引用字典	大纲字典是文档大纲的根，通常称为书签
/Metadata	间接引用流	文档的XMP元数据

页面和页面树

PDF文档中的页面字典汇集了使用指令来操作资源（字体，图像和其他外部数据）从而绘制图形和文本内容的说明。它还包括页面大小，以及定义裁剪等。

如下表格总结了页面字典中的条目。

键	值类型	值
/Type*	name	必须是/Page
/Parent*	间接引用字典	页面树中此节点的父节点
/Resources	dictionary	页面的资源（字体，图像等）。如果完全省略此条目，则资源将从页面树中的父节点继承。如果确实没有资源，请包含此条目但使用空字典
/Contents	对这些引用的流或数组的间接引用	一个或多个部分中页面的图形内容。如果缺少此条目，则页面内容为空
/Rotate	整数	页面的查看旋转，以度为单位，从北向顺时针。值必须是90的倍数。默认值：0。这适用于查看和打印。如果缺少此条目，则其值将从页面树中的父节点继承
/MediaBox*	rectangle	页面的媒体框（媒体大小，即纸张）。对于大多数用途，页面大小。如果缺少此条目，则它将从页面树中的父节点继承
/CropBox	rectangle	页面的裁剪框。这定义了在显示或打印页面时默认可见的页面区域。如果不存在，则将其值定义为与媒体框相同

媒体框和其他框的矩形数据结构是四个数字的数组。这些定义了矩形的对角相对的角：数组的前两个元素是一个角的x和y坐标，后两个元素是另一个角的x和y坐标。

通常，给出左下角和右上角，如下示例：

/MediaBox [0 0 500 800] 
/CropBox [100 100 400 700]

定义一个500 x 800点的页面，裁剪框在页面的每一侧删除100个点。

页面使用页面树而不是简单的数组链接在一起。这种树结构使得在具有数百或数千页的文档中查找给定页面变得更快。

好的PDF应用程序构建了一个平衡树（一个节点数量最小的树）。这可确保快速定位特定页面。没有子节点的节点就是页面本身。

下表总结了中间或根页面树节点中的条目（即，不是页面本身）。

键	值类型	值
/Type*	name	必须是/Pages
/Kids*	间接引用数组	此节点的直接子页面树节点
/Count*	整数	页节点（不是其他页面树节点）的数量，它们是此节点的最终子节点
/Parent	间接引用页面树节点	引用此节点的父节点（此节点是其子节点）。如果不是页面树的根节点，则必须存在

下图显示了七页的示例页面树结构。

PDF对象编写如下，

1 0 obj % Root node
<< /Type /Pages /Kids [2 0 R 3 0 R 4 0 R] /Count 7 >>
endobj
2 0 obj % Intermediate node
<< /Type /Pages /Kids [5 0 R 6 0 R 7 0 R] /Parent 1 0 R /Count 3 >> endobj
3 0 obj % Intermediate node
<< /Type /Pages /Kids [8 0 R 9 0 R 10 0 R] /Parent 1 0 R /Count 3 >> endobj
4 0 obj % Page 7
<< /Type /Page /Parent 1 0 R /MediaBox [0 0 500 500] /Resources << >> >> endobj
5 0 obj % Page 1
<< /Type /Page /Parent 2 0 R /MediaBox [0 0 500 500] /Resources << >> >> endobj
6 0 obj % Page 2
<< /Type /Page /Parent 2 0 R /MediaBox [0 0 500 500] /Resources << >> >> endobj
7 0 obj % Page 3
<< /Type /Page /Parent 2 0 R /MediaBox [0 0 500 500] /Resources << >> >> endobj
8 0 obj % Page 4
<< /Type /Page /Parent 3 0 R /MediaBox [0 0 500 500] /Resources << >> >> endobj
9 0 obj % Page 5
<< /Type /Page /Parent 3 0 R /MediaBox [0 0 500 500] /Resources << >> >> endobj
10 0 obj % Page 6
<< /Type /Page /Parent 3 0 R /MediaBox [0 0 500 500] /Resources << >> >> endobj

在此树中，任何页面最多可以找到两个远离根节点的间接引用。

文本字符串

页面的实际文本内容之外的字符串（例如，书签名称，文档信息等）被称为文本字符串。它们使用PDFDocEn编码或（在最近的文档中）Unicode编码。PDFDocEncoding基于ISO Latin-1编码。它完全记录在ISO标准32000-1:2008的附录D中。

编码为Unicode的文本字符串通过查看前两个字节来区分：这些字符将是254后跟255.这是Unicode字节顺序标记U + FEFF，表示UTF16BE编码。这意味着PDFDocEncoding字符串不能以þ（254）后跟ÿ（255）开头，但这在任何合理的情况下都不太可能发生。

日期

文档信息字典中的创建和修改日期/CreationDate和/ModDate是PDF日期格式的示例，对字符串中的日期进行编码，包括有关时区的信息。

日期字符串的格式为： (D:YYYYMMDDHHmmSSOHH'mm')

其中括号表示通常的字符串。该日期的其他部分在如下表格中进行了总结。

Portion	含义
YYYY	年份，有四位数，例如2008年
MM	月份，从01到12的两位数
DD	天数，从01到31的两位数
HH	小时，从00到23的两位数
mm	分钟，从00到59两位数
SS	秒钟，从00到59两位数
O	本地时间与世界时的关系，+，- 或Z。 +表示本地时间晚于UT，- 更早，Z等于世界时
HH’	世界时的偏差绝对值，以小时为单位，以00到23的两位数表示
mm’	通用时间偏移的绝对值，以分钟为单位，从00到59两位数

一年之后的所有日期都是可选的。例如，（D：1999）完全有效。但是，很明显，如果省略一个部分，
则必须省略后面的所有内容，否则结果将是模糊的。DD和MM的默认值为01，对于所有其他部分，默认值为零。

例如：(D:20060926213913+02'00')

如果当前在中国，为东8区，则当前时间为2006年9月27日3:39:13。

把它放在一起

这是一个手动创建的文本，由pdftk处理成有效的PDF文件，它是一个三页文档，包含文档信息字典和页面树。

相应的对象图

%PDF-1.0 % 文件头
1 0 obj % Top-level of page tree: has two children—page one and an intermediate page tree node 
<< /Kids [2 0 R 3 0 R] /Type /Pages /Count 3 >>
endobj
4 0 obj % Contents stream for page one
<< >>
stream
1. 0.000000 0.000000 1. 50. 770. cm BT /F0 36. Tf (Page One) Tj ET
endstream
endobj
2 0 obj % Page one
<<
   /Rotate 0 
   /Parent 1 0 R 
   /Resources
     << /Font << /F0 << /BaseFont /Times-Italic /Subtype /Type1 /Type /Font >> >> >> 
   /MediaBox [0.000000 0.000000 595.275590551 841.88976378]
   /Type /Page
   /Contents [4 0 R]
>>
endobj
5 0 obj % Document catalog
<< /PageLayout /TwoColumnLeft /Pages 1 0 R /Type /Catalog >> endobj
6 0 obj % Page three
<<
  /Rotate 0 
  /Parent 3 0 R 
  /Resources
    << /Font << /F0 << /BaseFont /Times-Italic /Subtype /Type1 /Type /Font >> >> >> 
  /MediaBox [0.000000 0.000000 595.275590551 841.88976378]
  /Type /Page
  /Contents [7 0 R] 
>>
endobj
3 0 obj % Intermediate page tree node, linking to pages two and three
<< /Parent 1 0 R /Kids [8 0 R 6 0 R] /Count 2 /Type /Pages >> 
endobj
8 0 obj % Page two
<<
  /Rotate 270 
  /Parent 3 0 R 
  /Resources
     << /Font << /F0 << /BaseFont /Times-Italic /Subtype /Type1 /Type /Font >> >> >> 
  /MediaBox [0.000000 0.000000 595.275590551 841.88976378]
  /Type /Page
  /Contents [9 0 R]
>>
endobj
9 0 obj % Content stream for page two
<< >>
stream
q 1. 0.000000 0.000000 1. 50. 770. cm BT /F0 36. Tf (Page Two) Tj ET Q
1. 0.000000 0.000000 1. 50. 750 cm BT /F0 16 Tf ((Rotated by 270 degrees)) Tj ET 
endstream
endobj
7 0 obj % Content stream for page three
<< >>
stream
1. 0.000000 0.000000 1. 50. 770. cm BT /F0 36. Tf (Page Three) Tj ET
endstream
endobj
10 0 obj % Document information dictionary
<<
   /Title (PDF Explained Example) 
   /Author (John Whitington) 
   /Producer (Manually Created) 
   /ModDate (D:20110313002346Z) 
   /CreationDate (D:2011)
>>
endobj 
xref
0 11
trailer % Trailer dictionary 
<<
  /Info 10 0 R
  /Root 5 0 R
  /Size 11
  /ID [<75ff22189ceac848dfa2afec93deee03> <057928614d9711db835e000d937095a2>]
>> 
startxref 
0
%%EOF

显示的效果

参考

PDF 解析中文版
pdf1.7 标准英文参考

你可能感兴趣的:(PDF,pdf)

发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Excel控件Spire.XLS 更新至7.12.144 | 附下载 cocacola456 文档管理更新 Excel控件 Spire.XLS更新 Spire.XLS Spire.XLS下载
Excel控件Spire.XLS更新至7.12.144，修复了转换PDF时字幕对齐的问题。Spire.XLS7.12.144更新修复修复了将Chart转换为Image时图表数据标签重复的问题。修复了CalculateAllValue方法抛出异常的问题。修复了将工作表转换为PDF时图表字幕对齐不正确的问题。
【亲测免费】 S7-1200PLC使用SCL语言编程实现数控G代码指令编程控制苗璋希Eldwin
S7-1200PLC使用SCL语言编程实现数控G代码指令编程控制资源介绍本仓库提供了一个资源文件，标题为：S7-1200PLC使用SCL语言编程实现数控G代码指令编程控制(附上源程序).pdf。该资源文件详细介绍了如何使用S7-1200PLC的SCL（StructuredControlLanguage）语言进行编程，以实现数控G代码指令的编程控制。资源中不仅包含了详细的理论说明，还附带了完整的源程
python把竖着的变成横着的数_python – Reportlab：如何切换纵向和横向？ weixin_39524703
我正在使用reportlab从动态数据自动生成pdf报告.由于内容有时太大,无法以纵向显示,所以我正在为大量内容切换到景观.以下是我的报告生成工作原理：主功能：doc=DocTemplate(...)//DoctemplateisacustomedBaseDocTemplateclassarray=[]some_data="Hereissomedatadisplayedinportrait"arr
【数据攻略】字节面试真题（含答案）+100道面试题库六哥（数据攻略）面试数据分析 java
整理了一套字节的面试真题，还有100道PDF版的面试题库一、SQL题面试真题1：抖音电商平台，现有一张订单表（order_info），有以下字段：order_idgoods_idorder_amt请统计销量金额前10的商品信息。▼参考答案：此题考察的知识点较为简单，主要是考察GROUPBY和窗口函数。面试真题2：现有一张用户登录表（user_login_log），请统计2021.9.1之前活跃过，
Python提取PDF中的文字和图片西门一刀 python学习 python
一，使用Python提取PDF中的文字#只能处理包含文本的PDF文件#coding=utf-8importsysimportimportlibimportlib.reload(sys)frompdfminer.pdfparserimportPDFParser,PDFDocumentfrompdfminer.pdfinterpimportPDFResourceManager,PDFPageInter
python提取pdf文字,python 提取pdf文字
安装pdfminer库windows下安装pdfminer3kpipinstallpdfminer3kLiunx下安装pdfminerpipinstallpdfminer代码frompdfminer.pdfparserimportPDFParser,PDFDocumentfrompdfminer.converterimportPDFPageAggregatorfrompdfminer.layout
Python|扫描版词书转文字(PyPDF、OCR） NuageL pdf ocr python
心血来潮想把词书pdf(只有扫描版）转化成电子版，然后插到某生词APP去复习然后有两个想法：1.按照A-Z等来分词单2.PDF转文字1.那首先需要把PDF分开，这个用PyPDF2可以达成PDF参考文章：掌握PDF文件处理的神器：PythonPyPDF2库详解-CSDN博客写了一个功能，允许用户一次性输入多个页码范围：fromPyPDF2importPdfReader,PdfWriterdefspl
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
多模态模型在RagFlow中的应用程序猿李巡天 milvus langchain 人工智能大数据 java
在RagFlow的最新版本中（0.19.0）中，为了提升对文档中各类图片的解析效果，也尝试引入了多模态模型（image2text）对图片内容进行增强解析。我们来详细分析一下相关的过程。首先需要在当前租户下配置一个image2text的模型（这里有个坑，后面会讲到），在RagFlow的文档解析过程中主要有三个场景使用到这个image2text模型，我们一一来看下：PDF文档内容提取如果配置了imag
多模态模型在RagFlow中的创新应用与实战案例 AGI大模型老王人工智能 DeepSeek 产品经理学习 AI 大模型大模型教学
在RagFlow的最新版本中（0.19.0）中，为了提升对文档中各类图片的解析效果，也尝试引入了多模态模型（image2text）对图片内容进行增强解析。我们来详细分析一下相关的过程。首先需要在当前租户下配置一个image2text的模型（这里有个坑，后面会讲到），在RagFlow的文档解析过程中主要有三个场景使用到这个image2text模型，我们一一来看下：PDF文档内容提取如果配置了imag
专题：2025供应链数智化与效率提升报告|附100+份报告PDF、原数据表汇总下载拓端研究室 php 开发语言
全文链接：https://tecdat.cn/?p=42926在全球产业链重构与数字技术革命的双重驱动下，供应链正经历从传统经验驱动向数据智能驱动的范式变革。从快消品产能区域化布局到垂类折扣企业的效率竞赛，从人形机器人的成本优化到供应链金融对中小企业的赋能，技术创新与模式重构正在重塑行业价值网络。本报告洞察基于《灼识咨询：2025中国供应链金融科技行业蓝皮书》《中国银河证券：折扣业态供应链效率深度
用Python向PDF添加文本：新建与编辑内容的三种方式
PDF文档的版式特性使其适用于输出不可变格式的报告与合同。但若要在此类文档中插入或修改文本，常规方式难以实现。借助Python，我们可以高效地向PDF添加文本，实现从文档生成到内容审阅的自动化流程。本文将从技术角度详细讲解三种PDF文本添加方式：✅新建PDF文档并添加段落文本；✅向现有PDF文件插入简短说明或批注；✅自定义文本格式、对齐方式与排版区域。本文使用的方法需要用到免费的FreeSpire
【web应用】若依框架中，使用Echarts导出报表为PDF文件 JosieBook #Java全栈前端 echarts pdf
文章目录前言一、Echarts准备工作1、查看是否安装了Echarts2、Echarts导入script中3、使用Echarts创建图表二、报表制作打印html2canvas和jsPDF准备工作1、安装html2canvas和jsPDF依赖包2、html2canvas和jsPDF引用到script中3、制作并打印报表三、导出结果前言若依框架前端中，要使用一些文本、数据、图表制作报表，然后导出，那么
jpeg2k jpeg2000 jp2图像的编码和解码封装丁金金_chihiro_修行 jpeg2k jpeg2k jpeg2000 jp2 图像编码
以下是针对PDFCoreJPEG2000Manager类的介绍大纲，采用技术文档的标准结构，突出核心功能和设计要点：PDFCoreJPEG2000Manager模块技术文档大纲1.模块概述定位：专业级JPEG2000编解码功能封装核心能力：高性能JPEG2000图像解码（支持RGB/RGBA）可配置质量的图像编码（JP2/J2K/JPX）零内存拷贝的元数据提取设计目标：兼容历史接口（Compres
java多线程pdf_Java多线程编程实战指南(核心篇) 中文pdf扫描版[172MB] art Scien java多线程pdf
随着现代处理器的生产工艺从提升处理器主频频率转向多核化，即在一块芯片上集成多个处理器内核(Core)，多核处理器(MulticoreProcessor)离我们越来越近了——如今就连智能手机这样的消费类设备都已配备了4核乃至8核的处理器，更何况商用系统！在此背景下，以往靠单个处理器自身处理能力的提升所带来的软件计算性能提升的那种“免费午餐”已不复存在，这使得多线程编程在充分利用计算资源、提高软件服务
豆包编写Java程序小试 tianyatest java python 开发语言
今天下载了一本第四版电气工程师手册，非常棒的一本书，在给PDF添加目录的时候，由于目录有将近60页，使用老马开发的PdgCntEditor有点卡顿，不过补充下，老马这个PdgCntEditor还是非常好的。所以我决定用Java编一个小程序来对目录文件进行缩进处理，然后再导入到PdgCntEditor中进行保存。之前还没试过用AI编写程序，就采用豆包进行了一个程序测试。输入指令如下：作为一名java
Laravel 动态生成 PDF：基于 KnpSnappy 实现多公司页眉页脚差异化配置 wendyNo laravel pdf android
引言：为什么需要个性化PDF方案？在多公司业务场景中，生成的PDF文件（如对账单、律师函）往往需要根据公司类型展示不同的页眉（如企业Logo）和页脚（如联系方式）。本文基于barryvdh/laravel-snappy（封装自KnpSnappy）和wkhtmltopdf工具，实现「按公司动态配置页眉页脚」的PDF生成方案，适用于需要差异化文档样式的业务系统。一、技术栈与核心依赖框架：Laravel
图片合并pdf antrcp-Assistant 办公软件效率工具图片合并 pdf
文章目录背景目标实现下载背景整合：将零散的图片集合成一个单一文件。有序化：固定图片的排列顺序。标准化：转换为通用、兼容性强的PDF格式。高效管理：便于存储、查找、分享和传输。正式化/文档化：满足提交、报告、存档等正式场景的要求。提升阅读/查看体验：像翻阅文档一样连续查看图片。目标图片格式：jpg、jpeg、png、bmp等常见格式。能力：批量处理，百个千个文件极速处理。操作便捷：免安装、免注册，开
MinerU：高效智能PDF文档解析工具完全指南
MinerU是一款将PDF转化为机器可读格式的工具（如markdown、json），可以很方便地抽取为任意格式。目录一、简介二、主要功能三、环境支持1.软硬件环境支持说明2.系统与硬件要求四、本地部署1.创建Python虚拟环境2.安装MinerU2.1使用pip或uv安装2.2源码安装3.使用MinerU3.1命令行使用方式基础用法查看帮助信息参数详解3.2模型源配置3.3使用本地模型总结一、简
小程序下载pdf，excel，word功能（已解决）
downloadFile(){wx.showLoading({title:'正在下载并打开',})wx.downloadFile({url:'https://xxx.xxx.com/路径.xls',header:{'content-type':'multipart/form-data','Authorization':'Bearer'+wx.getStorageSync('token'),},su
专题：2025大模型2.0：GPT到DeepSeek技术演进与产业落地报告|附200+份报告PDF汇总下载拓端研究室 pdf
原文链接：https://tecdat.cn/?p=42738当OpenAI在2023年推出ChatGPT时，业界或许未曾预料到，短短两年后大模型会以“2.0”形态重塑产业逻辑。本报告汇总解读基于国家工业信息安全发展研究中心与联想集团联合发布的《2025大模型2.0产业发展报告》，以及哈工大计算学部人工智能学院关于DeepSeek系列模型的技术白皮书，深入剖析大模型从“技术验证”向“商业落地”跃迁
专题：2025数据资产AI价值化：安全、战略与应用报告|附400+份报告PDF、原数据表汇总下载拓端研究室人工智能大数据
原文链接：https://tecdat.cn/?p=42885在数字经济加速渗透的今天，数据作为核心生产要素的价值愈发凸显。上市公司作为经济高质量发展的微观主体，其数据价值化进程不仅关乎企业自身竞争力，更折射出中国产业数字化转型的深度与广度。本报告洞察基于《上海数据交易所：上市公司数据价值化研究报告（2025）》《绿盟科技：全球云上数据泄露风险分析报告（第五期）》《DigitalRealty：全球
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程
1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成
大小不足5M，轻量级PDF阅读工具
“你是否也遇见过这样的窘境：明明只需要打开查看几页内容，却要安装一个几十兆甚至上百兆的软件，等待半天才能加载完成，老旧电脑更是卡顿得让人失去耐心。直到我发现了SmartPDF，才明白原来一款纯粹的PDF阅读器可以如此轻巧高效。它像一把精准的手术刀，剔除了所有冗余功能，只留下最核心的阅读体验，却解决了日常使用中的诸多痛点。4.7M的体积，装得下所有阅读需求第一次看到SmartPDF的安装包时，我简直
AI应用工具流量留 AI开发人工智能
GammaAIPPT是一款强大的AI驱动的PPT制作工具，以下是其主要功能特点和应用场景：###功能特点-**一键生成PPT**：用户只需输入主题或导入文档，GammaAI会自动分析内容并生成相应的PPT。-**AI辅助内容创作**：提供AI生成的内容大纲，帮助用户快速构建演示文稿。-**丰富的模板和主题**：提供多种模板和主题，满足不同场景的需求。-**多格式导出**：支持将PPT导出为PDF、
稀缺工具，效率拉满！
在办公场景中，图像和文档是最常接触的两类文件类型。日常工作中经常需要对多个文件进行批量处理，如图片转文档、PDF文件空白页删除、PDF转双层、图片校正等操作。这些重复性操作如果逐个处理不但效率极低下，还可能出现错误，而利用批量操作工具。可以快速完成大量文件的批量操作；分享一款高效的文档、图片批量操作工具：图档批处理助手v1.2.1；图档批处理助手是一款专注于高效处理文档与图像批任务的轻量级工具，软
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方