python提取图片中的表格,Python从图像中的表中提取值

我要从PDF表格中提取值,然后将数据保存在json文件中,

我使用pytesseract从将pdf转换为的图像中获取文本,

现在的问题是,它给了我一个包含所有数据的大字符串。

我尝试通过SP进行拆分,这逐行给了我数据,我现在想要的是一种基于列名分离数据并保存为json格式的方法。

以下是具有表的图像。

就是说,我需要一个数组,我可以在其中保存值是SP的所有者,

资产包含该列中的所有数据,

**以下是从图像中获取全文的代码:**

import cv2

import pytesseract as tess

tess.pytesseract.tesseract_cmd = r'C:\Users\faisa\AppData\Local\Tesseract-OCR\tesseract.exe'

from PIL import Image

# img = Image.open("image.png")

img = cv2.imread("Test 1.png")

text = tess.image_to_string(img)

print(text)

结果是:

Filing ID #20018011

PERIODIC TRANSACTION REPORT

Clerk of the House of Representatives » Legislative Resource Center ¢ 135 Cannon Building « Washington, DC 20515

FILer INFORMATION

Name: Hon. Nancy Pelosi

Status: Member

State/District: CA12

TRANSACTIONS

ID Owner Asset Transaction Date Notification Amount Cap.

Type Date Gains >

$200?

SP AllianceBernstein Holding L.P.

你可能感兴趣的:(python提取图片中的表格)