PALM Kdic,Zdic之维基百科简易制作教程

大家都知道,维基有大半年没更新了
我做好最坏打算自己写程序的思想准备,开始从年初开始研究做维基百科
经过几个月中,间断的好多次尝试了各种方法后
昨天终于找到了比较容易的制作方法(至少不需要写代码了嘛)
但是,前提是,维基的发布文件格式不变
好了,方法如下:
1,上维基网站下载最新的发布
引用:
wiki下载地址 xml格式 需要转才能用
http://download.wikimedia.org/zhwiki/
This contains current versions of article content, and is the archive most mirror sites will probably want.
选有这句话的bz2文件下就好
2,将下载下来的zhwiki-20070717-pages-articles.xml解压出来后,用文件分割工具分割成两段
  • 注1:文件分割工具也可以用文本分割工具,或者UltraEdit打开后将前后分段保存
  • 注2:我这次的两段,每段是300多MB,以后中文维基变大了后,估计要分更多段了
3,用UltraEdit或者类似的编辑器打开分段后的文件,将其断开处的条目整合。<page>和</page>要匹配。不管是整合到上一个文件还是下一个文件,匹配就行。
4,用tompda网友randax做的转换程序将文件分开的几个xml文件转换成Kdic格式的txt
  • 注:该java程序需要jet-410-pro-en-win32,网上很难下载,我将上传
5,用UltraEdit或者类似的编辑器将分开的txt合并到一起
6,合并后的txt添加词典信息(即在任意一行添加一个词条为空的词条,其将在输入框为空时显示),处理一些冗余的文字(比如redirect等,还有很多星号*)
7,用Kdic制作工具制作成词典(此过程漫长,建议使用NTFS分区,并压缩该分区。临时文件将有几十万到上百万个,制作时间取决于硬盘速度,估计需要半天时间)
 

你可能感兴趣的:(java,xml,工具,redirect,Palm,archive)