【转】下载安装离线版维基百科

下载安装离线版维基百科

不需要一定要挂在网路上
< , 硬碟空间要够大 , 如果妳想要下载英文版的 维基百科 , 如果是中文版的也不小 维基百科 >

合不合法? 当然合法 , 在合理的使用范围内

环境的准备: ( 以下是以在 Ubuntu 环境下作说明 , Windows 其实应该也适用 )
请参阅我的

UBuntu 7.10 上安装设定 UBuntu Mediawiki

http://tw.myblog.yahoo.com/jw!9b0o7zqYEQTp3BKYq3oYpZO.gQ--/article?mid=578&prev=583&next=567

说明 , 并且将 Mediawiki 安装设定完成


注意:
在要继续往下作之前 , 如果你已经在你的 Mediawiki 上有编辑一些页面了 , 请你自己想办法把它备份下来 , 因为接下的动作可能清掉你原有的页面 ....

八道程序完成下载安装好你的离线版维基百科....< 不过你的硬碟空间要留够 ...>

(1)下载离线版维基百科
下载 维基百科备份档
到官方网站页面 http://download.wikipedia.org/
选择 连结 Database backup dumps ( http://download.wikipedia.org/backup-index.html )

在此页面中 ,
如果是中文版维基百科 , 寻找 zhwiki
如果要英文版维基百科 , 寻找 enwiki

这里我们使用 中文版维基百科 作范例
到此页面中
http://download.wikipedia.org/zhwiki/20071119/
All pages, current versions only.
pages-meta-current.xml.bz2 239.6 MB
( http://download.wikimedia.org/zhwiki/20071119/zhwiki-20071119-pages-meta-current.xml.bz2 )
将它下载下来 , 下载完成后 , 千万不要把它解压缩 ...

(2)清除相关既有页面资料
使用 MySQL QueryBrowser 连线 MySQL
Server Hostname: localhost
UserName: root
Password: XXXX
然后资料库选择 wikidb
输入以下指令 , 并执行
delete from page;
delete from revision;
delete from text;

(3)准备汇入工具所需要的环境
在这里 , 你必须要安装好 JDK , (Ubuntu 下套件管理程式选择 sun-java5-jdk , 如果套件管理程式有附件套件提示需要选择 , 也请选要安装 )
而且 MySQL JDBC Driver 也需要安装 (Ubuntu 下套件管理程式选择 libmysql-java ( 这是 JDBC Driver for MySQL) , 如果套件管理程式有附件套件提示需要选择 , 也请选要安装 )

(4)下载汇入工具
请下载此工具 , 到你的机器上 , 假设下载到你的桌面上
http://download.wikimedia.org/tools/mwdumper.jar

(5) 汇入动作前的注意事项
在这里因为是只汇入中文部份的维基百科条目( 档案只有几百 MB) , 所以有些相关的参数设定 , 都只需要预设值就可以执行

如果你是要汇入英文版的维基百科 , 那包含 MySQL , Java 的参数都需要再微调

(6)执行汇入动作
以下动作 , 会跟你的电脑速度有关 , 可能至少要作一两个小时 , 不过在同时间 , 你还是可以使用电脑
现在开启一个命令列视窗 , ( 我们假设下载下来的资料档跟汇入工具都放在桌面上 )
输入以下指令( 下面这是一行指令 )
java -jar mwdumper.jar --format=sql:1.5 zhwiki-20071119-pages-meta-current.xml.bz2 | mysql -u root -p wikidb
接着会出现 Enter Password , 请输入你的 MySQL root 的密码

接着 就会开始进行汇入流程 , 有点久 , 所以请有点耐心
在汇入完成后....

 

(7)下载 Mediawiki 需要的 extensions
ㄟ还不能好好的看到离线版的维基百科 ,
我们还需要下载Mediawiki 的相关 extensions

我们需要透过 SVN 去取回相关的 extensions , 当然透过 Firefox Web 介面也可以取回
到这个网址
http://svn.wikimedia.org/svnroot/mediawiki/trunk/extensions

请对应以下 目录结构 , 在你的本机的 /var/lib/mediawiki1.10 下的手动建立四个子目录
extensions/
+->ParserFunctions
+->Cite
+->CategoryTree
+->wikihiero
然后到上述网址
http://svn.wikimedia.org/svnroot/mediawiki/trunk/extensions/ParserFunctions/
把之下的 php 档下载并放到对应的目录下
extensions/
+->ParserFunctions/

(以下类推 , 自己作 )
http://svn.wikimedia.org/svnroot/mediawiki/trunk/extensions/Cite/
http://svn.wikimedia.org/svnroot/mediawiki/trunk/extensions/CategoryTree
http://svn.wikimedia.org/svnroot/mediawiki/trunk/extensions/wikihiero

如果你想要使用 SVN 一次把目录跟档案拉回来也是可以 , 请参考最下方的参考文件说明

(8)修改 LocalSettings.php
执行以下指令
sudo gedit /etc/mediawiki1.10/LocalSettings.php
加上以下几行
require_once("$IP/extensions/ParserFunctions/ParserFunctions.php");
$wgUseTidy=true;
require_once("$IP/extensions/Cite/Cite.php");
$wgUseAjax = true;
require_once("$IP/extensions/CategoryTree/CategoryTree.php");
require_once("$IP/extensions/wikihiero/wikihiero.php");
然后存档离开

*注意事项 :
Windows 上修改 LocalSettings.php 要小心 , 特别是如果你用记事本 (NOTEPAD.exe) 修改存档的话 ,
小心出现存档后 , 你的 Mediawiki 会出现 甚么 header 已输出的错误讯息 ,
那是因为php 会预设使用 UTF-8 编码存档 , 但是 Windows 上的 UTF-8 据说有些古怪 ...,
如果你不幸碰到了 , 请下载 UltraEdit 试用版 , 来重新开启 Localsettings.php
然后透过 UltraEdit 的转码功能 转换 , 然后存档

(9)开启你的 Mediawiki , 就可以看到离线版的中文维基百科
http://localhost/mediawiki

使用心得, 发现有些分类还是没有在本机上 , 而且发现简体中文的条目数竟然多过繁体中文 , 所以像是有些公司的介绍 , 即便是全球化公司 , 上面的内容也只提到大陆的据点 , 而不会提到台湾

*参考资料
官方网页参考资料
http://meta.wikimedia.org/wiki/Data_dumps
<这一篇 , 有十分详尽的参数修改说明 , 包含 MySQL 参数的修改 , 如果你要汇入英文版的维基百科 , 建议照着作 >

这里就提到为甚么要提供维基百科的 dump 出来

Wikimedia provides public dumps of our wiki's content:

· for archival/backup purposes

· for offline use <-- 为了可以离线使用

· for academic research

· for republishing (don't forget to follow the license terms)

· for fun! <-- 为了高兴 , 好吧 ...

所以个人安装 离线版的维基百科来使用是完全合法的.... 不过要注意授权

我参考的另一边大陆网友的说明文章( 架设 Wikipedia 的本地镜像 )
http://www.xxlinux.com/linux/article/network/server/20070904/9623.html


终于把它写完了, 我的步骤基本上都是测试过的 , 包含 MySQL 没有像参考网页那样去异动任何参数 , 也可以成功完成 ( 刚好因为 中文维基的档案比较小 几百 MB)

好吧... 好好享受你的离线版维基百科
<其实 , 我只是想要离线看 编辑手册 ....>

你可能感兴趣的:(mysql,windows,jdbc,ubuntu,工具,firefox)