如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据

在数据获取的时候总会碰到很多非标准格式的文档,比如为了web显示良好,很多网站将excel文件转换成了pdf格式,还可能直接使用图片格式,而这类文档中的数据是无法直接用来作数据分析的。举个例子如下:

环境保护部2008年中国环境统计年报就为pdf格式,我们想获取其中的一份数据表,一般的想法我们认为可以采用复制黏贴的方式复制数据,原始数据表如下:

如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据_第1张图片

手工复制到excel中会发现所有同一行数据会被分配到一个单元格中:

如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据_第2张图片

这时,虽然我们可以使用excel的分列功能进行操作,但是如果pdf文档中数据表较多,那么我们就需要对每张表进行复制黏贴然后再分列调整,明显效率不高,而且分列侯还是有很多小细节还是需要手工调整。

 

有一个很方便的工具可以解决这个问题,那就是在线转换网站Zamzar。下面进行介绍:

 

网址:http://www.zamzar.com/

如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据_第3张图片

该网站无需注册即可使用,支持1200余种格式转换,包括图片、文档、音视频等。并且经过测试无需即可使用。

使用方式也十分简单,我们以上面的《2008年中国环境统计年报.pdf》为例。

按上图中的四个步骤分部进行:

如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据_第4张图片

这里我们在step2中选择xlsx,点击Convert后就等待邮件到达了。一般几分钟就转换好了。查看邮箱:


如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据_第5张图片


点击下载链接下载即可

打开该xlsx文件,我们发现原来的pdf文件按照页面分成了多个excelsheet表:

如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据_第6张图片

点击sheet表找到需要的数据项,我们看到数据已经被整理成了标准表格,这时复制即可

如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据_第7张图片

另外转换成doc/docx格式效果也很好,在word里面数据表直接以表格方式体现。这就按需选择即可。

 

有一点需要注意,非注册用户使用文件大小限制在100M以下,且下载链接只保留1天。如果需要更大的转换文件,则需要注册,但是是需要付费的。

 

更多的功能待读者自己探索。

我一直坚持认为:技术之所以重要,在于其提高了效率,即生产力。如果有一种更方便简单的方式能够完成同一件本需要复杂技术要求的工作,那么应该毫不犹豫的选择它。用10%的时间完成90%的工作,剩下的时间可以用来享受生活。



你可能感兴趣的:(数据收集)