java文字、图片识别之tess4j Tesseract-OCR

 

目录

Tess4j OCR图像识别框架集成

1.使用

2.下载源码包

3.引用语言包

4.代码示例

5.效果

 运行结果

英文 测试


 

Tess4j OCR图像识别框架集成

Tesseract,
一款由HP实验室开发由Google维护的开源
OCR(Optical Character Recognition , 光学字符识别)引擎,
与Microsoft Office Document Imaging(MODI)相比,
我们可以不断的训练的库,使图像转换文本的能力不断增强;
如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
Tess4J 是Java (JNA) 对 Tesseract OCR API 的封装。

1.使用

创建java项目。引入maven依赖

        
            net.sourceforge.tess4j
            tess4j
            4.5.4
        

2.下载源码包

中文库地址:tessdata/chi_sim.traineddata at main · tesseract-ocr/tessdata · GitHub

点击download 保存到E盘

java文字、图片识别之tess4j Tesseract-OCR_第1张图片

 

 java文字、图片识别之tess4j Tesseract-OCR_第2张图片

 

其他语言包地址:https://github.com/tesseract-ocr/tessdata

3.引用语言包

在任意地方创建一个文件夹tessdata,
将下载的chi_sim.traineddata(中文) 和 eng.traineddata(英文)语言包存放在该目录下,
也可以直接存放到自己项目的resources/tessdata目录下。

这里我放到了e盘下。

4.代码示例


import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

import java.io.File;

/**
 * @author :c
 **/

public class Tess4jDemo {

    public static void main(String[] args) throws TesseractException {
        final ITesseract instance = new Tesseract();
        instance.setDatapath("E:\\tessdata");
        instance.setLanguage("chi_sim");

        File imageLocation = new File("E:\\verifyImg");
        for(File image : imageLocation.listFiles()){
            System.out.println(image.getName()+" -->"+instance.doOCR(image));
        }
    }
}

5.效果

我们随便截一张图片保存到代码指定目录中:E:\verifyImg

java文字、图片识别之tess4j Tesseract-OCR_第3张图片

 java文字、图片识别之tess4j Tesseract-OCR_第4张图片

 运行结果

java文字、图片识别之tess4j Tesseract-OCR_第5张图片

英文 测试

java文字、图片识别之tess4j Tesseract-OCR_第6张图片

 运行结果

java文字、图片识别之tess4j Tesseract-OCR_第7张图片

 

你可能感兴趣的:(java,spring,boot,java,开发语言)