制作可检索的PDF文档

好友发了个链接
怎样快速扫描一本书并做成电子版?
让我帮忙看看怎么把一本纸质书制作成可检索的PDF文档,他想用移动工具学习那本书,于是实践后整理出下面步骤。
操作系统:win10+ubuntu16.04

一 拍照

把书本和手机固定一个位置,一页页拍照下来。
这里需要注意照片像素要保持一致,图片命名按照书籍页面顺序排列,方便后期处理。

二 照片预处理

1 安装ScanTailor工具

ScanTailor下载链接
可以在Linux,Windows,macOS等等系统安装使用,这里我们选择了win10。
下载并安装 64-bit installer 0.9.11.1 ,然后打开ScanTailor。

2 使用ScanTailor对照片预处理

打开ScanTailor——New Project,然后导入你想处理的照片
制作可检索的PDF文档_第1张图片
制作可检索的PDF文档_第2张图片
按照下图的1-4点击,这里选择的是600x600。
如果照片像素不一致,会显示在“Need Fixing”里面,如图3840x5120的两张图片和其他不一致,需要更换才能进入下一步。
制作可检索的PDF文档_第3张图片
制作可检索的PDF文档_第4张图片

可以对图片进行以下6种方式的处理:

1 调整方向
2 调整页面
3 调整倾斜度
4 选择主要内容
5 边距设置
6 自动调整页面斜度和输出文件
制作可检索的PDF文档_第5张图片
这6种方式的操作大同小异,接下来介绍下常用的设置操作:
如图每种处理方式都可以选择应用到全部页面或者单页,
一般都选择自动优化,应用于All pages,
自动处理如果有些不满意的可以微调。
制作可检索的PDF文档_第6张图片
然后滚动回到第一页处理的照片,点击下图的开始按钮,即可自动处理,6种方式有6个启动按钮,需要一个个按顺序点击操作:
制作可检索的PDF文档_第7张图片
依次 调整方向 调整页面 调整倾斜度 选择主要内容 边距设置 后就到了最后一步:自动调整页面斜度和输出文件,这里隐藏一个强大的功能,可以把照片上倾斜的文字自动调正!下面是一张文字弯曲的照片:
制作可检索的PDF文档_第8张图片
按照下图步骤设置后点击启动按钮:
制作可检索的PDF文档_第9张图片
刚刚那页就变成这个效果,挺赞!
制作可检索的PDF文档_第10张图片
图片全部处理完毕就准备输出了,选择你喜欢的页面样式,有黑白,原图和混合模式,一般选择原图,按照下图设置后启动操作,就可以在project目录下的相应out目录,看到处理完成的格式为.tif的图片!
制作可检索的PDF文档_第11张图片

三 使用Tesseract-OCR识别图片中的文字并生成PDF

1 配置Tesseract-OCR环境

Tesseract-OCR这个工具可以在Linux,Windows,macOS等等系统上安装使用,详见官网:
tesseract-ocr官网
这里我们选择在Ubuntu16.04上配置安装,之后使用一条命令就能输出可检索的PDF文档了!

安装依赖包(Ubuntu 16.04/14.04):

sudo apt-get install g++ # or clang++ (presumably)
sudo apt-get install autoconf automake libtool
sudo apt-get install pkg-config
sudo apt-get install libpng-dev
sudo apt-get install libjpeg8-dev
sudo apt-get install libtiff5-dev
sudo apt-get install zlib1g-dev
sudo apt-get install libicu-dev
sudo apt-get install libpango1.0-dev
sudo apt-get install libcairo2-dev

安装开源图像处理分析库Leptonica

sudo apt-get install libleptonica-dev

安装tesseract

wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
tar -zxvf 3.04.00.tar.gz
cd tesseract-3.04.00
sudo ./autogen.sh
./configure
make
make install
ldconfig

语言包下载预置

tesseract语言包下载链接
这里我们需要英文eng.traineddata和中文chi_sim.traineddata,然后拷贝到tessdata里面:
cp chi_sim.traineddata /usr/local/share/tessdata
cp eng.traineddata /usr/local/share/tessdata

环境配置完毕!

2 输出可检索PDF

先学习两个简单命令

(1) 处理一张中文图片:
a.jpg是要处理的图片,生成文件名为result0的PDF文档,如果pdf不写,默认输出.txt格式文档,注意命令的 result pdf之间是有空格的:
tesseract -l chi_sim a.jpg result0 pdf

(2) 处理一张中文+英文图片:
这里输出result1.txt
tesseract sss.png result1 -l chi_sim+eng

把ScanTailor处理后的图片制作成可检索PDF:

把刚Window上ScanTailor输出的多张.tif格式图片放入Ubuntu上文件夹booktest,然后
cd booktest
ls . > photo_list.txt
vi photo_list.txt 把里面的“photo_list.txt“删除
tesseract ./photo_list.txt book pdf
tesseract ./photo_list.txt -l chi_sim booktest pdf

大功告成,输出可检索PDF!!识别有一定的误差,但是基本可以满足需要。遇到问题,欢迎留言讨论!

你可能感兴趣的:(生活实用篇)