Python被动收入教程之从非结构化文档中提取信息的结构化方法

在结构化数据集(例如表格数据、发票等)领域已经进行了很多探索和征服,我们已经预先定义了要遵循的步骤以获得良好的结果,而在从保险文件、合同、医疗报告等非结构化文件中提取信息时等,没有这样的指南。


image.png

在本文中,我将介绍一些从非结构化文档中获得所需结果的一般步骤,并提供示例代码以开始使用。我还将为想要进一步探索该主题的人们提供一些参考资料。

总之,该方法可分为 4 个主要步骤。首先,文档页面将被拆分为单独的图像。其次,每张图像将通过黑盒视觉模型发送,该模型将从文档中识别出不同的对象,例如表格、标题、段落、图形/图表、徽标、签名、二维码等。第三,一旦检测到这些对象,它们将根据用例进行过滤。例如,人们可能希望从文档中的特定部分提取信息,或者只想识别特定类型的徽标。最后,一旦识别出相关部分,它将通过另一个黑盒模型(文本相关算法)根据用例和业务需求提取信息,最后可以将结果保存为 CSV、JSON 或其他要求的格式。

内容:

商业机会
方法论
— 将文档拆分为页面
— 对象检测
— 对象分类
— 基于文本的信息提取方法
结论

商业机会

你可能感兴趣的:(Python被动收入教程之从非结构化文档中提取信息的结构化方法)