如何制作MDict词库

我手机上运行着深蓝词典,使用了一个从网上下载下来的159M的MDict词库——金山词霸2007年合集。由于这个词库显示丑陋,多余无用的词条太多,所以萌生了修改它的想法。

周末花了一天多时间,对这个159M的词库进行了编辑。过程很艰辛,不停地摸索着做,对Grep、UltraEdit、NotePad++、MdxBuilder、GetDict.exe都有了一些了解,基本上达到了目的。把这过程记录下来备忘。

第一步,将MDX格式的词库导成方便编辑的TXT文本

几经查找和尝试,终于找到GetDict.exe,从这个词库里导出了890M大小、每个单词一行的Html+C格式TXT文本,这种格式不是可以用来直接生成MDX的源文本,但可以方便地把不同来源的单词分开,这是进行下一步编辑工作的基础。


如何制作MDict词库_第1张图片
GetDict

图中三个选项里,“UTF-8格式TXT”和“MDX源文件”都可以导出文本文件,区别是前者导出的是每个单词一行的格式,后者是每个单词若干行的格式。见下面示例:

UTF-8格式TXT:
lens lens

透镜

\n

MDX源文件:
lens
lens

透镜


对我来说,每单词一行的格式方便我进行后续的处理。

第二步,从TXT文本中拆出想要的子词库

这个文本文件太大,普通的文本处理软件无法打开,UltrEdit虽然可以,但处理速度太慢。几经尝试,终于找到了Linux下的Grep,不但可以打开,而且处理速度超快。

具体Linux上哪儿找,就看各位手头的条件了,推荐使用Ubuntu操作系统。Ubuntu操作系统是比较优秀的Linux内核的个人电脑操作系统,安装与使用都比较方便,界面非常漂亮,用习惯了你会喜欢上它。


如何制作MDict词库_第2张图片
Ubuntu

合集中的子词库太多,都需要靠手工来选择,所以花了好几个小时才把每个词库分开,我把它们分别保存为一个个TXT文本文件。从中选出15个对我有用的,进行下一步的处理。

由于没有人指导,全靠自己摸索,前面这些工作花了一整天加半个晚上的时间。

第三步,对15个词库的TXT文本进行加工

由于这15个TXT文本不是可以直接用于生成MDX词库的源文本格式,因此首先要将它们转换为MDX需要的格式。

1. 先使用MdxBuilder将其转换为MDX文件

“Source”为前面得到的Txt文件,“Tartget”为mdx字典文件,“Original format”选择“KDic text(No phonetic)”,“Encoding”选择“UTF-8(Unicode)”,勾选上“Allow export to text”,点击“Start”,进行转换。


如何制作MDict词库_第3张图片
2. 再用MdxExport.exe将生成的MDX文件转换为TXT文件,即得到了MDX所要求的“每单词三行”的文本格式。
如何制作MDict词库_第4张图片
需要进到Windows的CMD命令符窗口进行操作

文本里有很多 < > " & ,需要替换为 < > " &后才能用。

a battery
a battery<font size=5 color=#0069b9>a battery</font><br><br><font size=3>a电池组</font><br><br>

这个环节又花了半个晚上加一上午。这个过程让我对正则表达式有了一些了解,对NotePad++也熟悉了一些。NotePad++的搜索替换速度很快,能使用正则表达式,但缺点是文本文件达到约100M后,就经常处理到一半就异常退出,所以对大的词库,不得不把文件分成两个后再进行处理。

词库文件使用的是 HTML 格式语言,为了让词库显示美观,需要掌握基本的 HTML 知识,用于对词库中的字体样式、显示颜色进行美化处理。

第四步,将处理完毕的词库文本文件生成为最终版MDX文件

使用MdxBuilder将前面处理完的词库文本文件生成为MDX文件,得到最终版MDX格式的词库文件。


如何制作MDict词库_第5张图片
生成MDX文件

至此,任务完成。

我把这些词库装到手机上的深蓝词典中,用起来非常方便,比原来的界面也好看多了。我再从网上找到了一个377M的真人语音库(非常好的语音库,重点推荐)配合使用,完美地同时满足了查单词和听发音的需求。

如何制作MDict词库_第6张图片


下面是前面用到的软件、真人语音库和我加工的几个词典的下载地址,感兴趣的朋友可以下载玩玩。
其中重点推荐真人语音库,完全真人的标准发音,比电脑自动阅读的不知强多少倍,是英语学习的好帮手。
相关下载

你可能感兴趣的:(如何制作MDict词库)