文字识别的已完成部分

package org.example;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

import java.io.File;
/**
 * ClassName: ddd
 * Package: org.example
 * Description:
 *
 * @Author: 闫守瑞
 * @Create: 2023/9/4 - 8:33
 * @Version: v1.0
 */

public class PdfTextExtractor {
    public static void main(String[] args) {
        // 创建 Tesseract 实例
        Tesseract tesseract = new Tesseract();

        // 设置语言数据文件路径(如果需要)
        tesseract.setDatapath("D:\\DAppSapce\\Tesseract-OCR\\tessdata");

        // 设置语言为中文简体
        tesseract.setLanguage("chi_sim");

        try {
            // 读取 PDF 文档,并提取文字
            String extractedText = tesseract.doOCR(new File("D:\\TTEST.pdf"));

            // 输出提取的文字
            System.out.println(extractedText);
        } catch (TesseractException e) {
            System.err.println(e.getMessage());
        }
    }
}

你可能感兴趣的:(#,文字识别,算法)