java平台使用Tesseract

官方仓库

  • tessdoc
  • tesseract-ocr
  • 训练工具

依赖包

  • net.sourceforge.tess4j:tess4j:5.7.0

使用Mac在Java平台操作

  • 添加依赖

    • 依赖包里已经包含了环境,可以使用在win平台,但是mac需要使用一个libtesseract.dylib文件,需要拷贝到项目里
  • 安装tessdata

    • 参考tessdoc配置环境
  • 测试代码

    • 使用kotlin进行测试

      // tesseract  img.png out -l eng
      fun main(args: Array<String>) {
         //指定图片路径
          val imageFile = File("resources/img.png");
          val instance = Tesseract(); // JNA Interface Mapping
          //使用jar包里的环境或者可以自己指定目录
          //val tessDataFolder = LoadLibs.extractTessResources("tessdata"); 
          //instance.setDatapath(tessDataFolder.getPath());
          instance.setLanguage("new")
          //自己指定路径
          val url = instance::class.java.classLoader.getResource("tessdata")
          instance.setDatapath(url.path)
          try {
              val result = instance.doOCR(imageFile);
              System.out.println("hnpu:" + result);
          } catch (e: TesseractException) {
              System.err.println(e.message)
          }
      }
      

训练

  • 克隆项目tessdata,安装构建,直接使用brew install tesseract安装的不包含训练工具,需要编译项目自己安装,我是参考的Compilation macOS with Homebrew
  • 安装完下载训练工具进行训练
    • 训练工具

你可能感兴趣的:(java,tessdata,Tesseract,ocr,训练)