国家统计局:http://www.stats.gov.cn/sj/
数据来源:国家统计局中国统计年鉴2022年人口数及构成
数据(部分)如下:
数据形式:http://www.stats.gov.cn/sj/ndsj/2022/html/C02-01.jpg
通过网页分析,数据格式为图片形式
本次图像文本识别使用EasyOCR模块,详细介绍见:Python图像文本识别
import easyocr
import numpy as np
import pandas as pd
# 读取HTTP图像
url = r'http://www.stats.gov.cn/sj/ndsj/2022/html/C02-01.jpg'
# 定义列字段
cols = ['年份', '年末总人口(万)', '男.人口数(万)', '男.比重', '女.人口数(万)', '女.比重', '城镇.人口数(万)', '城镇.比重', '乡村.人口数(万)',<