超级厉害 11k+ star OCRmyPDF让你能搜索扫描版PDF文档 unbutu安装教程

目录

1.安装ocrmypdf

2.安装中文字体 ocr识别需要

3.识别

4.解决问题 上面已经解决了 下面只是记录原因以及解决过程 方便自己反思

第一种情况

第二种情况


安装直接参考官网文档:GitHub - ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched

整理后的文档

1.安装ocrmypdf

apt install ocrmypdf

2.安装中文字体 ocr识别需要

apt-get install tesseract-ocr-chi-sim 

3.识别

#ocemytest 需要转换的文件 转换后的文件

ocemytest inout.pdf output.pdf

#指定中文(ocr识别的内容,否则中文识别后是英文字母)

ocemytest -l chi_sim inout.pdf output.pdf

#指定中文和英文 多种就一直"+"

ocemytest -l eng+chi_sim inout.pdf output.pdf

4.解决问题 上面已经解决了 下面只是记录原因以及解决过程 方便自己反思

查找tesseract目录

king@ubuntu22:~$ sudo find / -name tessdata
/usr/share/tesseract-ocr/5/tessdata
king@ubuntu22:~$ cd /usr/share/tesseract-ocr/5/tessdata
king@ubuntu22:/usr/share/tesseract-ocr/5/tessdata$ ls
chi_sim.traineddata  configs  eng.traineddata  osd.traineddata  pdf.ttf  tessconfigs

查看后发现有中文字体

懵逼了

百度一下 ,立马找到答案了

下面是正确答案:

原文;链接:https://www.cnblogs.com/syxy/p/15381175.html

在deepin中ocrmypdf指定语言进行ocr识别时,出现OCR engine does not have language data for the following requested languages

有2种可能,一种是你没安装语言数据包,另外一种是输错了

第一种情况

既然是没安装语言数据包,直接安装就好。

以安装简体中文语言数据包为例

打开终端,输入

sudo apt-get install tesseract-ocr-chi-sim

回车安装即可

第二种情况

还是以安装简体中文语言数据包为例

你可能输入的是以下的命令

ocrmypdf -l chi-sim test.pdf test-ocr.pdf

你安装的时候语言确实是 chi-sim ,不过这是针对 tesseract-ocr 而言的

ocrmypdf 语言数据包的参数的格式是 chi_sim

注意是下划线 _ ,并非横杠 -

正确的命令应该是

ocrmypdf -l chi_sim test.pdf test-ocr.pdf

其他带横杠的语言数据包以此类推

你可能感兴趣的:(pdf,linux,运维)