文章:在简体中文Office2003下OCR繁体中文、日文、韩文

本文章引自:http://www.comicer.com/stronghorse/water/software/officeocr.htm   

在简体中文Office 2003下用Micorsoft Office Document Imaging (MODI)做OCR的步骤为:

  1. 先确保MODI已经正常安装。Office 2003的缺省安装是第一次使用MODI时安装,Office 2007的缺省安装是不装,都需要改过来。
  2. 在资源管理器里选中某个多页TIFF文件,从右键菜单选择用Micorsoft Office Document Imaging打开。
  3. 打开后,先选择“工具->选项”,对OCR选项进行设置。常规设置是去掉“自动拉伸”、“自动旋转”选项,再选择合适的语言。
  4. 选择“工具->将文本发送到Word”,在弹出的对话框中选择“所有页面”,“在输出时保持图片版式不变”,然后选择默认文件夹,点“确定”,即可开始OCR。
  5. OCR结束后,文本自动发送到Word。缺省格式是HTML,当然也可以另存为txt、doc。

与其他商业OCR软件相比,MODI具有下列特点:

  • 支持多页TIFF。某些OCR只支持单页TIFF,OCR以后还需要对结果进行合并。当然MODI支持的TIFF页数也不是无限的,我个人的经验是不要超过300页。单页TIFF文件可以用免费的TiffToy合并成多页TIFF,然后再用MODI进行OCR。TiffToy合并时可以选择每合并多少个文件生成一个新文件。
  • 中文标点、文本段落保持得比较好,后期校对省了很多事。
  • 支持的语言比较多,Office支持的语言基本都支持。但是这一点对大多数用户来说无法体会,因为正常情况下,MODI只支持英文和当前Office语言(如简体中文)的OCR,要想支持更多的语言,需要进行一些设置,这就是本文所要讨论的内容。当然我并非语言天才,对于亚洲主要语言(中、日、韩)还算有所了解,其他语言一概无知,所以本文的讨论也仅限于这三国语言。
  • 提供开放的编程接口。对于软件开发人员来说,到微软网站下载一份MODI编程手册,即可开发出基于MODI的、具有多国语言OCR功能的软件。

在正式开始讨论系统设置前,先透露一点技术背景:

  • MODI所使用的中、日、韩OCR引擎,均为清华文通的OCR引擎。
  • 由于简体中文平台的GBK字符集完全覆盖繁体中文、日文,因此繁体中文、日文的OCR结果在简体中文Office环境下均为GBK编码,可以在支持GBK编码的中文平台下正常显示、编辑。当然如果觉得繁体中文看起来比较麻烦,也可以用Word的繁简转换功能,或TextForever的编码转换功能,将GBK繁体转换成GB编码的简体。但是对于韩文来说就没有这么美好了,因为目前GBK还不兼容韩文,所以韩文的OCR结果如果想在简体Office下编辑,大概只能存为HTML或doc文件,然后用Word编辑。
  • MODI编程手册可以到这里下载:
    http://www.microsoft.com/downloads/details.aspx?FamilyId=8F93E445-B1CF-4477-A373-E17417D616BC&displaylang=en

二、系统配置

1、原理

要想让简体中文Office 2003能够OCR繁体、日文、韩文,需要做的工作包括两个方面:

  • 安装相关语言的OCR模块。MODI本身可以看作一个外壳,真正的OCR功能需要靠不同语言的模块实现。每个语言模块包括相关DLL文件和数据文件,需要复制到MODI的安装文件夹下。
  • 告诉MODI,目前有哪些语言的OCR模块可以使用。这个需要更改注册表,更改后在MODI的OCR选项里即可选择对应的语言。

2、实战

繁体中文配置

找一台安装了繁体中文Office 2003的机器,进入MODI的安装文件夹,缺省为:

C:\Program Files\Common Files\Microsoft Shared\MODI\11.0

将下面的文件复制到安装了简体中文Office 2003的相同文件夹下:

TCCODE.UNI
TCPRINT.DAT
TCPRINT2.DAT
TCSERHT.DAT
TCTREE.DAT
TW_BU.DAT
TW_UB.DAT
TWBIG532.DLL

复制完成后,用记事本创建一个reg文件,把下面内容粘贴后存盘:

Windows Registry Editor Version 5.00

[HKEY_CURRENT_USER\Software\Microsoft\Installer\Components\61BA386016BD0C340BBEAC273D84FD5F]
"1028"=hex(7):28,00,26,00,48,00,42,00,56,00,6e,00,2d,00,7d,00,66,00,28,00,5a,\
00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,\
5f,00,31,00,30,00,32,00,38,00,3e,00,7d,00,60,00,45,00,4d,00,61,00,65,00,2c,\
00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00,\
3d,00,00,00,00,00

双击此reg文件导入注册表后,在MODI的OCR选项卡里,“OCR语言”即可看到“中文(繁体)”。注意导入注册表时必须先关闭所有MODI窗口,导入后再打开。

在简体中文环境下,按照上述步骤设置后,用MODI识别出来的繁体中文是GBK编码的繁体字,可以用Word的繁简转换,或TextForever的编码转换功能 (支持批量)转换成GB编码的简体字。

日文配置

需要从日文MODI复制到简体MODI文件夹下的文件为:

JPCODE.UNI
JPPRINT.DAT
JPPRINT2.DAT
JPSERHT.DAT
JPTREE.DAT
TW_SU.DAT
TW_US.DAT
TWRECJ.DLL
TWSJIS32.DLL

需要导入的reg内容为:

Windows Registry Editor Version 5.00

[HKEY_CURRENT_USER\Software\Microsoft\Installer\Components\61BA386016BD0C340BBEAC273D84FD5F]
"1041"=hex(7):30,00,5d,00,67,00,41,00,56,00,6e,00,2d,00,7d,00,66,00,28,00,5a,\
00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,\
5f,00,31,00,30,00,34,00,31,00,3e,00,2e,00,61,00,45,00,4d,00,61,00,65,00,2c,\
00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00,\
3d,00,00,00,00,00

配置成功后,在MODI的OCR选项卡里,“OCR语言”即可看到“日语”。

在简体中文环境下,按照上述步骤设置后,用MODI识别出来的日文是GBK编码,可以在支持GBK字符集的简体中文环境下正常显示、编辑。

韩文配置

需要从韩文MODI复制到简体MODI文件夹下的文件为:

DATASIM.DAT
HANGULLB.DAT
KRCODE.UNI
KRDIST.DAT
KRPRINT.DAT
KRSERHT.DAT
KRTREE.DAT
TW_KU.DAT
TW_UK.DAT
TWCUTCKR.DLL
TWCUTLKR.DLL
TWKSC32.DLL
TWLAYKR.DLL
TWRECK.DLL

需要导入的reg内容为:

Windows Registry Editor Version 5.00

[HKEY_CURRENT_USER\Software\Microsoft\Installer\Components\61BA386016BD0C340BBEAC273D84FD5F]
"1042"=hex(7):31,00,5d,00,67,00,41,00,56,00,6e,00,2d,00,7d,00,66,00,28,00,5a,\
00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,\
5f,00,31,00,30,00,34,00,32,00,3e,00,30,00,61,00,45,00,4d,00,61,00,65,00,2c,\
00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00,\
3d,00,00,00,00,00

配置成功后,在MODI的OCR选项卡里,“OCR语言”即可看到“朝鲜语”。

在简体中文环境下,按照上述步骤设置后,用MODI识别出来的韩文是韩文编码(charset:129),可以存为HTML、doc,并能在Word里正常显示、编辑。如果存为TXT,则不能在简体中文环境下显示、编辑。

简体中文配置

如果需要在繁体中文环境下OCR简体中文,最正宗的方法是下载、安装一个简体MODI:

http://www.microsoft.com/downloads/details.aspx?familyid=dd172063-9517-41d8-82af-29c38f7437b6&displaylang=zh-tw

当然如果想省事,也可以复制下列文件:

SCCODE.UNI
SCPRINT.DAT
SCPRINT2.DAT
SCSERHT.DAT
SCTREE.DAT
TW_GU.DAT
TW_UG.DAT
TWGB32.DLL

需要导入的reg内容为:

Windows Registry Editor Version 5.00

[HKEY_CURRENT_USER\Software\Microsoft\Installer\Components\61BA386016BD0C340BBEAC273D84FD5F]
"2052"=hex(7):4d,00,6a,00,33,00,47,00,51,00,66,00,5e,00,62,00,54,00,3f,00,42,\
00,3f,00,56,00,50,00,24,00,5e,00,62,00,53,00,6c,00,6c,00,3e,00,25,00,6d,00,\
45,00,4d,00,61,00,65,00,2c,00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,\
00,40,00,45,00,50,00,69,00,3d,00,00,00,00,00

三、其他讨论

详见《用Pdg2Pic、TextForever实现批量OCR》。

你可能感兴趣的:(Office)