【人工智能】基于五笔字型规范和人工神经网络的简中汉字识别【五】

数据集的转换

  • 一、给文字编号
  • 二、数据集转化程序


一、给文字编号

CV2指的是OpenCV2,OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows、Android和Mac OS操作系统上。

cv2是我们今后需要使用的一个很常用的库,但是这个库用起来有些麻烦,因为它读取图片的路径中不能包含中文,否则会报错,所以这里我们需要给我们要识别的3500个汉字编个号。

点击下载文字编号文件【WDcode.json】,放在utils/source/底下


二、数据集转化程序

我们需要把VOC数据集转化为YOLO类型的数据集

在项目根目录下创建文件夹WD3500_YOLO_DATAS/,具体如下:

  • WD3500/
    • WD3500_YOLO_DATAS/
      • images/
        • train/
        • val/
      • labels/
        • train/
        • val/
      • YOLOLabel

你可能感兴趣的:(人工智能,python,计算机视觉,汉字识别,深度学习)