中文笔画拆解数据集

引用于github
该数据集可应用于ocr识别的中文字符纠错,ocr识别错误的中文会在笔画上相似,可以用该数据集通过编辑距离计算找到相似字符;

笔画示例


海 nnhphzznhn
每 phzznhn 45729
笔画备注: 对应 ,对应

江 nnhhsh 2254
工 hsh 47101
笔画备注: 对应 , 对应

河 nnhhszhs 16397
可 hszhs 306919
笔画备注: 对应


数据集示例

一 h 1338743
丁 hs 11857
七 hz 14477
万 hzp 28095
丈 hpn 15697
三 hhh 58232
上 shh 501041
下 hsn 272151
不 hpsn 1011516
与 hzh 63861
丐 hshz 843
丑 zshh 5464
专 hhzn 9908
且 szhhh 54544
丕 hpsnh 68
世 hsshz 45216
丘 pshsh 3830
丙 hszpn 347

你可能感兴趣的:(中文笔画拆解数据集)