如何提高Python图像表格数据提取的准确率?

Python图像表格数据提取

    • 1、数据来源
    • 2、目标图像
    • 3、图像文本提取
    • 4、图像灰度化与二值化可以提高识别准确率吗


1、数据来源


国家统计局:http://www.stats.gov.cn/sj/

如何提高Python图像表格数据提取的准确率?_第1张图片

数据来源:国家统计局中国统计年鉴2022年人口数及构成

2、目标图像


数据(部分)如下:

如何提高Python图像表格数据提取的准确率?_第2张图片

数据形式:http://www.stats.gov.cn/sj/ndsj/2022/html/C02-01.jpg

通过网页分析,数据格式为图片形式

如何提高Python图像表格数据提取的准确率?_第3张图片

3、图像文本提取


本次图像文本识别使用EasyOCR模块,详细介绍见:Python图像文本识别

import easyocr
import numpy as np
import pandas as pd
# 读取HTTP图像
url = r'http://www.stats.gov.cn/sj/ndsj/2022/html/C02-01.jpg'

# 定义列字段
cols = ['年份', '年末总人口(万)', '男.人口数(万)', '男.比重', '女.人口数(万)', '女.比重', '城镇.人口数(万)', '城镇.比重', '乡村.人口数(万)',<

你可能感兴趣的:(#,Python,#,数据分析,python,图像处理)