PDF格式分析(十)PDF / UA-1文件格式要求

PDF / UA-1基于ISO 32000-1(PDF 1.7)。它不会为PDF文件格式添加任何新功能,但会使某些方面成为PDF 1.7中的可选项。所有PDF / UA-1文件都必须满足以下条件:

  • 必须标记该文档。虽然PDF 1.7包含有关嵌套和不同类型结构元素关系的一些要求,但PDF / UA-1扩展并阐明了这些规则(详见下文)。
  • 必须嵌入文档中使用的所有字体(不可见文本的字体除外,例如OCR结果)。
  • 不允许使用某些图层选项。
  • 不允许外部内容(由PDF / X-5强制引用XObjects)。
  • 必须在文档的元数据中指定文档标题。

语义要求
在为PDF / UA-1创建结构层次结构时,必须遵循以下语义方面:

  • 标记必须使用适合文档结构的结构元素:如果它是标题,则必须将其标记为标题。如果它是一个表,则必须将其标记为表。如果是列表,则必须将其标记为列表。
  • 与文档含义无关的内容不得包含在文档层次结构中,而必须标记为Artifact。典型示例是运行页眉和页脚,页码和背景图像。
    结构元素必须按逻辑阅读顺序排列。
  • 如果由于内容的颜色,格式或布局而无法以其他方式访问目标信息,则必须对内容进行适当标记。
  • 如果图形中包含的文本不包含自然语言的文本(例如字体或脚本示例),则它需要Alt属性并附带说明。
  • 图像必须提供替代文字; 图片标题必须标有标题标记。
  • 链接必须附带适当的链接注释。
  • 只能为逻辑上属于一起的图形元素组创建单个图形标记。
  • 脚注,尾注,注释标签和文档中的位置引用必须酌情标记为注释或参考。

由于上面概述的语义要求,很难或不可能自动将现有的无标记PDF文档转换为符合PDF / UA。同样,将OCR技术应用于扫描文档不可能在没有人为干预的情况下完全符合PDF / UA。例如,无法自动导出图像的替代文本。

特定标签的要求
PDF 1.7中定义的所有标准标签均可用于PDF / U

你可能感兴趣的:(PDF分析)