非结构化excel文档抽取/多模态excel文档抽取,抽取图片以及文字信息,工业文档抽取

对于非结构化的excel文档中的图片以及文字信息抽取。

步骤如下:

1.先将xls文件另存为xlxs文件(另存为!),如果已经是xlsx则不需要

2.将xlxs文件改后缀名为rar

3.解压缩

你会得到该excel的一个底层文件包目录格式如下:

非结构化excel文档抽取/多模态excel文档抽取,抽取图片以及文字信息,工业文档抽取_第1张图片

 打开其中xl文件,主要的信息都在该文件夹中,其目录结构如下:

非结构化excel文档抽取/多模态excel文档抽取,抽取图片以及文字信息,工业文档抽取_第2张图片

这里推荐xml文件查看器:

----------------------------------------------以下先介绍文字提取相关--------------------------------------------------

 其中sharedString.xml文件对应excel中的文本信息:

非结构化excel文档抽取/多模态excel文档抽取,抽取图片以及文字信息,工业文档抽取_第3张图片

这相当于一个数组,每个数组元素里面存储了文字信息

在worksheet文件夹中(只介绍只有一个sheet的情况):

非结构化excel文档抽取/多模态excel文档抽取,抽取图片以及文字信息,工业文档抽取_第4张图片

sheet1.xml文件中的sheetData  row里面的最底层v则是上面提到的文字数组,0便是数组的索引:

在这个xml文件中也有文字的位置信息。以上便是文字提取相关文件,下面介绍提取图片相关。

----------------------------------------------以下介绍图片提取相关----------------------------------------------------

在xl文件中,有一个media文件:

非结构化excel文档抽取/多模态excel文档抽取,抽取图片以及文字信息,工业文档抽取_第5张图片

该media文件则存放的是以image开头的图片形式(这里因工作原因不方便展示)。

在xl文件中,有drawing文件:

 打开_rels会得到drawin1.xml.rels:

打开会看到很多

在每一个

 有一个唯一得rId与之前media中的image相对应。

而在drawing1.xml中就是靠rId与图片相对应,我们在该xml文件中搜索rId1(使用ctrl+f搜索)结果如下:

非结构化excel文档抽取/多模态excel文档抽取,抽取图片以及文字信息,工业文档抽取_第6张图片

 其中xdr:from是该图片从哪一行哪一列开始

xdr:to是图片到哪一行哪一列结束

知道这些对应信息以及图片的对应关系,我们就可以对半结构化excel中的图片与文字进行匹配。

你可能感兴趣的:(学习,知识图谱,python,数据挖掘,java,pycharm)