pptx文档提取信息

目录

  • 一、前言
  • 二、python-pptx提取核心代码
  • 三、LibreOffice 转换pdf再提取的核心代码

一、前言

pptx文档提取解析常用的库。
pptx文档提取信息_第1张图片

  • 如果只需要解析 .pptx 的文本、表格、图片,推荐使用 python-pptx(开源,轻量级)。 如果需要高性能、支持

  • .ppt、动画、格式转换,推荐 Aspose.Slides(收费)。

  • 如果需要 PPTX 转 PDF 或者 HTML,适用于 Linux
    服务器,推荐 LibreOffice 方案。

  • 如果在 Windows 上运行,并且 PowerPoint 已安装,可以用 comtypes
    直接调用 PowerPoint 解析。

二、python-pptx提取核心代码

def parse_pptx_file(pptx_

你可能感兴趣的:(知识图谱,python)