java识别验证码-用tess4j实现超简单调用tessreact-ocr来破解验证码

直接上操作,

因为tess4j依赖jna,而新版的tess4j和默认的com.sun.jna 3.0.6版本不兼容,它需要先加入这个jna的依赖:

[html]  view plain  copy
  1. <dependency>  
  2.     <groupId>net.java.dev.jnagroupId>  
  3.     <artifactId>jnaartifactId>  
  4.     <version>4.2.1version>  
  5. dependency>  

然后加入tess4j的依赖(exclude掉默认的jna):

[html]  view plain  copy
  1. <dependency>  
  2.     <groupId>net.sourceforge.tess4jgroupId>  
  3.     <artifactId>tess4jartifactId>  
  4.     <version>2.0.1version>  
  5.     <exclusions>  
  6.         <exclusion>  
  7.             <groupId>com.sun.jnagroupId>  
  8.             <artifactId>jnaartifactId>  
  9.         exclusion>  
  10.     exclusions>  
  11. dependency>  

依赖库就只有这些,不需要加入tessreact-ocr,因为新版tess4j的jar包里面自带了(几十兆)


然后把tessreact项目里面的tessdata文件夹提取出来放在某个位置:https://github.com/tesseract-ocr/tesseract

没完,还要加入验证码识别的相关语言包,姑且叫做训练文件,在这里下载:https://github.com/tesseract-ocr/tessdata

假如你想识别一般的英文数字验证码,就下 eng.traineddata,然后放到tessdata文件夹下,比如:C:\tessdata

最后找一张图片验证码来测试,测试代码:

[java]  view plain  copy
  1. @Test  
  2. public void test() {  
  3.     File imageFile = new File("D:/validcode.jpg");  
  4.        Tesseract tessreact = new Tesseract();  
  5.        tessreact.setDatapath("C:/tessdata");  
  6.        try {  
  7.            String result = tessreact.doOCR(imageFile);  
  8.            System.out.println(result);  
  9.        } catch (TesseractException e) {  
  10.            System.err.println(e.getMessage());  
  11.        }  
  12.    }  

你可能感兴趣的:(Java)