使用JAVA进行图像识别——基于Tess4J实现

基于Tess4J实现的图像识别

最近在思考一个问题,如何实现用户注册的拍照验证功能,图像识别与抓取功能,但之前一直在听说使用Python,难道我大Java就没有实现吗?

果然前辈们已经帮我们集成好了Tess4J,在等待我们拿去用,感动ing

Tess4J是对Tesseract OCR API.的Java JNA 封装。使java能够通过调用Tess4J的API来使用Tesseract OCR。支持的格式:TIFF,JPEG,GIF,PNG,BMP,JPEG,and PDF
Tess4J API 提供的功能:
1、直接识别支持的文件
2、识别图片流
3、识别图片的某块区域
4、将识别结果保存为 TEXT/ HOCR/ PDF/ UNLV/ BOX
5、通过设置取词的等级,提取识别出来的文字
6、获得每一个识别区域的具体坐标范围
7、调整倾斜的图片
8、裁剪图片
9、调整图片分辨率
10、从粘贴板获得图像
11、克隆一个图像(目的:创建一份一模一样的图片,与原图在操作修改上,不相 互影响)
12、图片转换为二进制、黑白图像、灰度图像
13、反转图片颜色

首先,下载Tess4J的相关资源(一个压缩包),官网:http://tess4j.sourceforge.net/codesample.html
使用JAVA进行图像识别——基于Tess4J实现_第1张图片
其中:
lib文件夹下放的是需要用到的Jar包
tessdata下放的是语言库,默认的有英语库,中文库需要另外下载,
新建Java项目,将lib文件夹和tessdata文件夹复制到项目的根目录下,找到dist文件夹下的tess4j.jar(名字可能有版本号),将该文件也复制到项目根目录下的lib文件夹下。
在项目中导入lib文件夹中所有的jar包(Build path --> configure build path),导入后的结果如下:

使用JAVA进行图像识别——基于Tess4J实现_第2张图片
Tess4J的代码比较简短,如下:
Tess4JTest.java

package ocr;
 
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import net.sourceforge.tess4j.util.LoadLibs;
 
import java.io.File;
import java.io.IOException;
 
/**
 * Tess4J测试类
 */
public class Tess4JTest {
 
    public static void main(String[] args){
 
    	String path = "D://Java//Tess4J";		//我的项目存放路径
    	
    	File file = new File(path + "//photo.jpg");
        ITesseract instance = new Tesseract();
 
        /**
         *  获取项目根路径,例如: D:\IDEAWorkSpace\tess4J
         */
        File directory = new File(path);
        String courseFile = null;
        try {
            courseFile = directory.getCanonicalPath();
        } catch (IOException e) {
            e.printStackTrace();
        }
 
        //设置训练库的位置
        instance.setDatapath(courseFile + "//tessdata");
 
        instance.setLanguage("eng");//chi_sim :简体中文, eng	根据需求选择语言库
        String result = null;
        try {
            long startTime = System.currentTimeMillis();
             result =  instance.doOCR(file);
            long endTime = System.currentTimeMillis();
            System.out.println("Time is:" + (endTime - startTime) + " 毫秒");
        } catch (TesseractException e) {
            e.printStackTrace();
        }
        
        System.out.println("result: ");
        System.out.println(result);
    }
 
}

效果如下:

原图:

使用JAVA进行图像识别——基于Tess4J实现_第3张图片

读取结果:

使用JAVA进行图像识别——基于Tess4J实现_第4张图片
对比而言,0和o的分辨不够准确,需要多多训练字体库。

你可能感兴趣的:(java后端,图像识别,java)