CASIA -HWDB2.0-2.2和OLHWDB2.0-2.2数据集解析

CASIA -HWDB2.0-2.2数据集解析

  • 下载地址
  • 数据集解释
  • HWDB解析dgrl为图像和txt 标签
    • 转换代码
  • OLHWDB数据集wptt 解析成图像
    • 转换代码
  • 生成class 唯一值文本
  • 生成 训练标签对文本 imgpath/1.jpg label

下载地址

http://www.nlpr.ia.ac.cn/databases/handwriting/Download.html

数据集解释

HWDB2.0-2.2是一个手写汉字文本识别数据集,包含多个版本的训练集和测试集。每个版本的训练集和测试集都包含多个DGRL文件,每个DGRL文件包含多个文本行。其中,HWDB2.0包含了大约37,000个汉字,HWDB2.1包含了大约45,000个汉字,HWDB2.2包含了大约52,000个汉字。这些数据集可以用于训练和测试手写汉字识别模型。

OLHWDB2.0-2.2是一个在线手写汉字识别数据集,也包含多个版本的训练集和测试集。每个版本的训练集和测试集都包含多个WPTT文件

你可能感兴趣的:(图像处理,python,机器学习,深度学习)