下载维基百科wikipedia!

转自: http://blog.sciencenet.cn/blog-453771-428323.html

Wikipedia(http://en.wikipedia.org/wiki/Main_Page)也就是维基百科是当前最有名的百科类网站,分门别类的以词条的方式详细介绍某个概念的历史、定义、发展和背景,大略来讲可以把它理解成为一本大词典。对于科研工作者而言,很多时候突然看到一个新的term,但是不明其意,或者理解它的含义,但不知道它属于哪个研究研究领域,和其他概念间有什么联系,这时wikipedia可以给你最好的介绍,并帮你在较短的时间内搭建起有关某个新领域学科的知识框架。当然有教材时,读书会学得更快,但很多新的研究方向早期都没有教材,更何况wikipedia包含的领域条目是如此之多之广。由于wikipedia多是由专家讨论编写,较普通搜索的介绍更具有权威性和可信性。最令人赞叹的是,wikipedia是免费的,向世界所有人无偿提供人类共同的知识宝库。


为什么要下载wikipedia?在线看不是挺好的么,而且下载的,没有图片(图片下载需要若干T),读起来乏味不少。可能下载有这些原因:对于知识的热爱、数据备份狂热症、对“局域网”无法访问wikipedia的担心(若干年前wikipedia就无法访问)、远离网络珍爱生命(上网总瞎转,浪费时间)但又舍不得网络的宝贵资源(如wikipedia)。好,言归正传,下面是使用方法:


1. 依据http://en.wikipedia.org/wiki/Wikipedia:Database_download找到最新版wikipedia的下载地址,
页面上说最新的完整版是2010年5月30日完成的一版,后面有更新的,据说未必完整(可似乎这个页面说明是很久以前的)。我们通过一个目录列表http://dumps.wikimedia.org/enwiki/看到所有英文的wiki数据库备份,以日期作为版本标识。本文选择http://dumps.wikimedia.org/enwiki/20101011/里面的,因为只需要下载一个文件且较新,比这个新的版本都需下多个文件。

2. 我们仅需要下载包含Articles, templates, image descriptions, and primary meta-pages的一个链接pages-articles.xml.bz2(实际下载文件enwiki-20101011-pages-articles.xml.bz2,6.2 GB),其他和wikipedia的更新历史、讨论有关的,我们这里都不需要,下载页面上给出的MD5校验值为7a4805475bba1599933b3acd5150bd4d。

3.同样的,中文的wikipedia的列表为http://dumps.wikimedia.org/zhwiki/,我们下载最新的http://dumps.wikimedia.org/zhwiki/20110322/页面里的链接pages-articles.xml.bz2(实际下载文件zhwiki-20110322-pages-articles.xml.bz2文件,497.8 MB),MD5值7c5f92b3465a3eb1ae9a769d0b39f5cb。

英文wikipedia阅读器:BzReader

4.下载阅读器bzReader(http://code.google.com/p/bzreader/页面左边BzReader.v1.0.13.msi),下载的wikipedia文件说白了就是一个巨型xml文件,bzReader读取该文件并建立其中的条目索引,以后每次查询term,就可以直接看到。需要注意的是,bzReader的运行需要.net framework的支持(http://www.microsoft.com/downloads/zh-cn/details.aspx?FamilyID=0a391abd-25c1-4fc0-919f-b21f31,必须先安装.net framework 4(或低版本),然后再安装bzReader 1.0.13。

5.启动bzReader,选择菜单中的File-->Open,选中enwiki-20101011-pages-articles.xml.bz2,然后bzReader就开始建立索引,这个过程非常漫长,可能长达几个小时,所以这件事最好晚上让计算机自己忙活。

6.查询时,先启动bzReader,然后选择菜单中的File-->Open,选中enwiki-20101011-pages-articles.xml.bz2,这时就没有建立过程,可以直接使用了,在Search左边的框中输入词条,按回车键可以看到左边下边有个词条列表,单击选择个条目就可以阅览了。bzReader可以显示数学公式,但似乎表格无法正常显示,不知道谁有解决方法。另外,遗憾的是,对于中文等亚洲字体,bzReader似乎无法正常处理生成索引,因此中文wikipedia无法使用bzReader对付。


中文wikipedia阅读器:WikiTaxi

7.下载WikiTaxi(http://www.wikitaxi.org/delphi/doku.php/products/wikitaxi/index),绿色软件,解压之后即可使用。

8.同bzReader的原理不一样,这个不是建立索引,而是重新编排生成一个新的.taxi文件,该文件可以脱离原始的.bz2文件使用。打开软件中的WikiTaxi_Importer.exe 引入刚下载好的中文维基zhwiki-20110322-pages-articles.xml.bz2,把它转化为.taxi文件,导出的文件名自己起。 转换很快,对于500多M的源文件,大概10分钟就搞顶了,然后出现了一个900多M的.taxi文件。

9.启动WikiTaxi.exe,选择Options-->Open *.taxi database,选中刚生成的taxi文件就可以了。在上方Go左边输入需要查询的term,回车看看怎么样:)。

两者的比较

wikiTaxi的页面显示要比bzReader好很多,看起来更像源页面,但是其最大的致命点在于不支持数学公式显示,只能显示出一堆latex数学公式符号,而且由于不是生成索引文件,.taxi要比源文件还要大,对于英文的6.2G文件,俺就没有实验了,如果能解决数学公式问题,那以后就可以直接使用wikiTaxi了,毕竟显示好,并且绿色软件可以直接放到U盘里拿着到处走。

附记:
1. 在线wikipedia使用法之一:google: wiki term 或 wiki 词条
2.博士生应该学会使用英文的wikipedia,前些时日好像募捐1M$,创始人反复征求,过了一阵就搞定了,可见很多人对wikipedia的信赖。
3. 哪为大哥提供个好用的MD5检验工具,我下的没校检,但也成功建立索引了。

愿更多的人越来越用好wikipedia!


http://zh.wikipedia.org/wiki/Wikipedia:%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%8B%E8%BD%BD

http://www.ituring.com.cn/article/1188 这个说的也不错!

你可能感兴趣的:(数据库,php)