PDFlib TET(文本提取工具包)从任何 PDF 文件中可靠地提取文本、图像和元数据。它可用作库/组件和命令行工具。PDFlib TET 以 Unicode 字符串或结构化 XML 形式提供 PDF 的文本内容,以及详细的字形和字体信息。使用 PDFlib TET,您可以检索 PDF 文档中文本的相应 Unicode 值及其在页面上的位置。
PDFlib TET Crack除了低级文本检索之外,TET 还包含高级内容分析算法,用于确定单词边界、删除冗余重复文本(例如阴影和人工粗体)。使用辅助 pCOS 接口,您可以从 PDF 中检索任意对象,例如元数据、超文本等。
使用PDFlib TET Crack企鹅2315702359,您可以:
从 PDF 中提取文本,例如将其存储在数据库中
实现一个用于处理 PDF 的搜索引擎
将 PDF 页面的文本内容转换为 XML 以供其他工具处理
PDFlib TET Crack根据内容处理 PDF
PDFlib TET Crack支持的 PDF 输入
PDFlib TET 支持所有相关类型的 PDF 输入:
PDF 1.0 至 PDF 1.7 扩展级别 8 和 PDF 2.0,对应于 Acrobat 1-XI
所有字体和编码类型:基本 14 种字体、TrueType、PostScript、OpenType、CID 字体
具有 40 位和 128 位加密的加密 PDF(需要适当的权限设置或密码)
Unicode
PDFlib TET Crack虽然 PDF 中的文本通常不以 Unicode 编码,但 PDFlib TET 会将文本从 PDF 文档规范化为 Unicode:
TET 将所有文本内容转换为 Unicode。在 C 中,文本将以 UTF-8 或 UTF-16 格式返回,并作为所有其他语言绑定中的本机 Unicode 字符串
连字和其他多字符字形将被分解为其组成的 Unicode 字符序列
识别特定于供应商的 Unicode 分配(私人使用区域,PUA),并在可能的情况下映射到公共 Unicode 区域中的字符
没有适当的 Unicode 映射的字形被标识为这样,并映射到可配置的替换字符
PDFlib TET Crack全面支持 CJK
TET 包括对提取中文、日文和韩文文本的全面支持。识别所有预定义的 CJK CMap(编码);支持水平和垂直书写模式。
内容分析和单词识别
TET 可用于检索低级字形信息,但也包括用于内容分析的高级算法:
检测单词边界以检索单词而不是字符
重新组合连字符的部分
删除重复的文本实例,例如阴影和人工粗体文本
将段落重新组合成阅读顺序
重新排列散布在页面上的文本
PDFlib TET Crack重建文本行
几何
TET 为文本提供精确的度量,例如页面上的位置、字形宽度、文本方向。页面上的特定区域可以排除或包含在文本提取中,例如忽略页眉和页脚或边距。
用于简单访问 PDF 对象的 pCOS 接口
TET 包括用于检索任意 PDF 对象的 pCOS(PDFlib 综合对象系统)接口。使用 pCOS,您可以使用简单的查询界面检索 PDF 元数据、超文本或实际页面描述之外的任何其他信息,而无需进行低级编程。
PDFlib TET Crack编程和性能
TET 的开发考虑到了可移植性、性能和健壮性。TET 是线程安全的,可以部署在多线程服务器应用程序中。核心库采用高度优化的 C 代码编写,以实现最高性能和最低开销。其他语言绑定可用于 COM、C、C++、Java 和 .NET。