Python利器：如何处理PDF表格数据

公众号：尤而小屋
作者：Peter
编辑：Peter

大家好，我是Peter~

在很多情况下，我们都需要处理PDF格式的文件。尤其当我们遇到PDF表格数据需要进行提取，真的是一个令人头疼的问题。

因为PDF文件不能像Word那样直接复制，即使复制了再黏贴也可能会出现格式排版错乱甚至乱码问题。如何从一个PDF文件提取出表格数据？本文提供两个解决方案：

camelot
tabula

神器1：camelot

首先提供的一种方法是从文字 PDF 中提取表格信息的工具：Camelot，它能够直接将大部分表格转换为 Pandas 的 Dataframe。

更多的详细信息，请参考项目地址：https://github.com/camelot-dev/camelot

安装camelot

camelot的安装有多种方式。如果有报错，网上一般有解决方式：

1、通过conda安装

conda install -c conda-forge camelot-py

2、使用pip进行安装

pip install "camelot-py[base]"

3、通过GitHub进行安装

首先将项目复制到本地：

git clone https://www.github.com/camelot-dev/camelot

然后进入文件中进行安装：

cd camelot

pip install ".[base]"

使用案例

下面通过一个案例来讲解如何使用camelot。假设我们现在有一个只有一页的PDF文件test.pdf：

image

1、先读取文件

tables = camelot.read_pdf("test.pdf")
tables

image

导出成csv格式的数据（方式1）

tables.export('test.csv',   # 导出文件名
              f='csv',   # 导出格式
              compress=True # 文件压缩
             )

查看tables的相关信息：

image

导出方式2：

tables[0].to_csv("test1.csv")

将数据转换成DataFrame：

image

神器2：tabula

tabula的功能比camelot更加强大，可以同时对多个表格数据进行提取。项目的具体地址请参考：https://github.com/chezou/tabula-py

安装

tabula的安装是非常简单的：

pip install tabula-py  # 安装python扩展

image

安装之后检验这个库是否安装成功：

image

读取PDF文件

通过tabula这个库来读取PDF文件：

df1 = tabula.read_pdf("test.pdf",pages="all")

image

然后我们发现列表中唯一的一个元素就是dataframe：

image

输出成csv文件

将读取到的数据输出成CSV格式的文件：

# 方式1：间接输出成csv格式
df2.to_csv("test2.csv")

# 方式2：直接输出成csv格式
tabula.convert_into("test.pdf","test3.csv",output_format="csv",pages='all')

image

上面读取的PDF文件是比较简单的，只有一页，而且刚好是一个很标准的表格形式的数据，下面看一个比较复杂的例子：

PDF文件总共有3页
每页的表格数据格式有差异

下面是第一页，第一列可以看成是索引：

image

在第二页中有两份表格，而且中间有很多的空白行：

image

第三页的数据比较标准：

image

这3页是在同一个PDF文件中，这3页是在同一个PDF文件中，这3页是在同一个PDF文件中

读取第一个表格

tab1 = tabula.read_pdf("data.pdf",stream=True)
len(tab1)

image

上面的红色提示中我们看到：当没有指定pages参数的时候，只会默认读取第一页的数据，所以列表的长度为1。

转成dataframe后将原来的索引变成新的一列（部分数据）

image

读取PDF全部数据

通过pages来读取全部数据：

tab2 = tabula.read_pdf("data.pdf",pages="all")   # 获取全部数据all
len(tab2)

image

通过指定pages="all"：

获取到了4个表格的数据，列表长度为4
第一个表格转成了dataframe数据后原来的行索引不存在，这个是和上面（没有pages参数）不同的地方

获取指定页面的数据

tab3 = tabula.read_pdf("data.pdf", 
                       pages=3,   # 表示第3页的数据
                       stream=True)
tab3[0]

image

同时获取两个表格的数据：

tab4 = tabula.read_pdf("data.pdf", 
                       pages="1,3",  # 同时2个表格数据
                       stream=True)
len(tab4)  # 长度为2

image

读取指定位置（面积）的数据

通过area参数来指定：

image

删除不需要的信息

删除在读取的表格中我们不需要的字段信息

image

输出不同格式文件

可以将得到的数据输出成不同格式的文件，以json格式为例：

 tabula.convert_into("data.pdf",  # 源文件
                    "test4.json",   # 输出文件名
                    output_format="json")  # 文件格式

我们可以看到

Python利器：如何处理PDF表格数据

神器1：camelot

安装camelot

使用案例

神器2：tabula

安装

读取PDF文件

输出成csv文件

读取第一个表格

读取PDF全部数据

获取指定页面的数据

读取指定位置（面积）的数据

删除不需要的信息

输出不同格式文件

你可能感兴趣的:(Python利器：如何处理PDF表格数据)