联机手写汉字数据集下载总结

中科院CASIA数据集

CASIA-OLHWDB1.0 :手写单字,171 个英文数字符号,3866 个常用汉字(其中3740个属于GB2312 - -级汉字),420套,分别为420个人书写。总共1,694,741个有效样本,分别存在420个POT文件中。

CASIA-OLHWDB1.1 :手写单字,171个英文数字符号,3755个GB2312级汉字,300套,分别为300个人书写。总共1,174,364个有效样本。分别存在300个POT文件中。

下载地址

其他的数据集需要申请。

哈工大HIT-OR3C数据集

HIT-OR3C由5个子集组成 (GB1, GB2, Digit, Letter, 和Document),GB1和GB2是汉字标注库GB2312-80内2个子集的简写。GB1, GB2, Digit, 和 Letter子集已采集完成122套,共832,650 个手写汉字。Document子集包括10个从新浪网收集的文档,每个文档采集2套,共收集了20套。文档子集共有77,168个字符, 覆盖2,442个字符,其中2,286个来自GB1,97个来自GB2,49个来自Letter, 10个来自 Digit。

下载地址

华南理工SCUTCOUCH-2009数据集

SCUT-COUCH2009是一款包括12个子集的完整数据,它们分别是:中文词组、国标一级汉字、国标二级汉字、国标一级汉字对应的繁体字、汉语拼音、英文字母、阿拉伯数字、常用符号、Word8888、Word17366、Word44208和联机文本行数据。每套完整的SCUT-COUCH2009包括6,763个GB2312-80单汉字,5401个Big5繁体字,1384个和GB2312-80一级字库相对应的繁体字,8,888个常用的中文词组,17,366个常用中文词组,摘自《现代汉语大辞典》(第四版)的44,208个词组,2,010个汉语拼音,184个其他符号(包括字母、数字和常用符号)和8,809行联机文本行;现在版本的SCUT-COUCH2009使用PDA或手写屏进行采集,已完成了由190多人书写的完整的数据,字符总数超过3.6百万个。

下载地址(需要申请)

今天是1024哦!

 

你可能感兴趣的:(汉字识别)