Tess4J使用(A)

工作需要研究下文字识别,这部分完全小白,在网络上寻找教程,看了很多篇博客,选用了开源tesseract,终于算是完成tess4j的第一步,帮助最大的是这篇:
原文地址:http://blog.csdn.net/dr_guo/article/details/51340104
感谢原博主!!(光于前裕于后)
以下为转载 + 一些修改 部分:
(注:把自己一些遇到的问题详细化了)


遇到一道机试题
Tess4J使用(A)_第1张图片
当时就懵逼了0.0查了好多资料,大体知道了基本的步骤:1.预处理 2.灰度化 3.二值化 4.去噪 5.分割 6.识别

还好题目要求不严格,可以使用开源程序。机智的我还真找到一个:Tesseract
下面开始正文:
Tess4J官方描述:A Java JNA wrapper for Tesseract OCR API.

原博主好认真!!!

1.先去官网下载:http://tess4j.sourceforge.net/(我用的是目前最新版本3.1)

现在官网还是3.4.0版本。
Tess4J使用(A)_第2张图片
如果要直接下载原博主源代码,切记版本问题,3.4.0版本加载的dll文件名都改了。
如果想要自己来的话,按照原博主步骤来。

2.将下载的文件解压后把下面几个文件夹(图片中选中的)复制到新建的项目中
Tess4J使用(A)_第3张图片
3.将lib下的jar包加到build path 中。注意:lib里面除了jar包还有别的。
4.根据官网的样例在刚建的项目中使用一下:
The following code example shows common usage of the library. Make sure tessdata folder are in the search path,
and the .jar files are in the classpath.注意在第4步之前确保tessdata 文件夹在项目中,jar包在classpath中。前面的2,3两步已经做了。

package net.sourceforge.tess4j.example;

import java.io.File;
import net.sourceforge.tess4j.*;

public class TesseractExample {

    public static void main(String[] args) {
        File imageFile = new File("eurotext.tif");
        ITesseract instance = new Tesseract();  // JNA Interface Mapping
        // ITesseract instance = new Tesseract1(); // JNA Direct Mapping

        try {
            String result = instance.doOCR(imageFile);
            System.out.println(result);
        } catch (TesseractException e) {
            System.err.println(e.getMessage());
        }
    }
}

我稍微改了一下,识别指定文件夹下所有验证码

package blog.csdn.net.dr_guo;

import java.io.File;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
/**
 * 验证码识别(图片名即为验证码数字)
 * @author drguo
 *
 */
public class VCR {
    public static void main(String[] args) {
        File root = new File(System.getProperty("user.dir") + "/imgs");
        ITesseract instance = new Tesseract();

        try {
            File[] files = root.listFiles();
            for (File file : files) {
                String result = instance.doOCR(file);
                String fileName = file.toString().substring(file.toString().lastIndexOf("\\")+1);
                System.out.println("图片名:" + fileName +" 识别结果:"+result);
            }
        } catch (TesseractException e) {
            System.err.println(e.getMessage());
        }
    }
}

直接运行就行了,但这时可能会报错

Exception in thread "main" java.lang.UnsatisfiedLinkError: Unable to load library 'libtesseract304': Native library (win32-x86-64/libtesseract304.dll) not found in resource path ([file:/G:/Eclipse/Demo/bin/, file:/G:/Eclipse/Demo/lib/commons-beanutils-1.9.2.jar, file:/G:/Eclipse/Demo/lib/commons-io-2.4.jar, file:/G:/Eclipse/Demo/lib/commons-logging-1.2.jar, file:/G:/Eclipse/Demo/lib/ghost4j-1.0.1.jar, file:/G:/Eclipse/Demo/lib/hamcrest-core-1.3.jar, file:/G:/Eclipse/Demo/lib/itext-2.1.7.jar, file:/G:/Eclipse/Demo/lib/jai-imageio-core-1.3.1.jar, file:/G:/Eclipse/Demo/lib/jna-4.2.2.jar, file:/G:/Eclipse/Demo/lib/jul-to-slf4j-1.7.19.jar, file:/G:/Eclipse/Demo/lib/junit-4.12.jar, file:/G:/Eclipse/Demo/lib/lept4j-1.1.2.jar, file:/G:/Eclipse/Demo/lib/log4j-1.2.17.jar, file:/G:/Eclipse/Demo/lib/logback-classic-1.1.6.jar, file:/G:/Eclipse/Demo/lib/logback-core-1.1.6.jar, file:/G:/Eclipse/Demo/lib/rococoa-core-0.5.jar, file:/G:/Eclipse/Demo/lib/slf4j-api-1.7.19.jar, file:/G:/Eclipse/Demo/lib/xmlgraphics-commons-1.5.jar])

注意前面的报错信息,把lib下的win32-x86-64拷到项目中的bin目录下就可以了

(这里指的是下载的文件夹Tess4J-3.4.0-src\Tess4J\lib,也就是原博写在最前面我们去官网下载的那个文件夹。)

准确率还是挺高的。
Tess4J使用(A)_第4张图片

如果你还觉得麻烦,直接把我的项目下载下来改吧:https://git.oschina.net/drguo/VerificationCodeRecognition.git
注意我的jdk版本是jdk1.8.0_74,如果你的版本低于我的版本可能会报错~


本人就是下载了原博主的项目,无奈怎么运行都是
java.lang.UnsatisfiedLinkError:找不到指定模块。

鉴于网上很多人都问了这个问题,但没有明确的答案,我才有意写这篇博文的,其实原博主写了,只是我们没在意,下载tess4j-3.1.0jar包放在lib文件夹下并加载。
再次运行就成功了!

本文好歹自己修改过,转载请注明地址,原博主的地址也要注上(尊重原创:http://blog.csdn.net/dr_guo/article/details/51340104
谢谢!

你可能感兴趣的:(tesseract)