图片识别文字审核敏感词——Java

图片文字识别

什么是OCR?

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程

图片识别文字审核敏感词——Java_第1张图片

 

管理敏感词和图片文字识别集成到项目——Tess4j

导入依赖


    net.sourceforge.tess4j
    tess4j
    4.1.1

工具类

@Getter
@Setter
@Component
@ConfigurationProperties(prefix = "tess4j")
public class Tess4jClient {

    private String dataPath;
    private String language;

    public String doOCR(BufferedImage image) throws TesseractException {
        //创建Tesseract对象
        ITesseract tesseract = new Tesseract();
        //设置字体库路径
        tesseract.setDatapath(dataPath);
        //中文识别
        tesseract.setLanguage(language);
        //执行ocr识别
        String result = tesseract.doOCR(image);
        //替换回车和tal键  使结果为一行
        result = result.replaceAll("\\r|\\n", "-").replaceAll(" ", "");
        return result;
    }

}

spring.factories配置中添加该类

图片识别文字审核敏感词——Java_第2张图片

这样其他服务在导入该模块以来的时候就可以自动注入了

你在哪个服务中使用,就在配置中添加两个属性

tess4j:
  data-path: D:\workspace\tessdata
  language: chi_sim

 

你可能感兴趣的:(java,python,开发语言)