最近试了一下Word2Vec,以及对应的python版本 gensim word2vec ,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料与SogouCA中文语料库就进入了视线。以下将重点讲解如何实现过程。
1.语料库的获取
这里主要包括了三个语料库,一个英文,两个中文语料库。
(1)英文语料库
维基百科英文语料库
下载的是xml压缩后的最新数据,大概11G左右,是个不错的语料库呦!
(2)中文语料库
维基百科中文语料库
中文维基百科的数据比较小,整个xml的压缩文件大约才1G,相对英文数据小了很多。
SogouCA全网新闻数据
压缩1.2G左右。
2.英文实验
处理包括两个阶段,首先将xml的wiki数据转换为text格式,通过下面这个脚本(process_wiki.py)实现:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import logging
import os.path
import sys
from gensim.corpora import WikiCorpus
if __name__ == '__main__':
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
logging.root.setLevel(level=logging.INFO)
logger.info("running %s" % ' '.join(sys.argv))
# check and process input arguments
if len(sys.argv) < 3:
print globals()['__doc__'] % locals()
sys.exit(1)
inp, outp = sys.argv[1:3]
space = " "
i = 0
output = open(outp, 'w')
wiki = WikiCorpus(inp, lemmatize=False, dictionary={})
for text in wiki.get_texts():
output.write(space.join(text) + "\n")
i = i + 1
if (i % 10000 == 0):
logger.info("Saved " + str(i) + " articles")
output.close()
logger.info("Finished Saved " + str(i) + " articles")
在控制台执行命令:
python process_wiki.py enwiki-latest-pages-articles.xml.bz2 wiki.en.text
执行过程比较慢,大概要好几个小时。
训练阶段:
有以下脚本:
train_word2vec_model.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import logging
import os.path
import sys
import multiprocessing
from gensim.corpora import WikiCorpus
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
if __name__ == '__main__':
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
logging.root.setLevel(level=logging.INFO)
logger.info("running %s" % ' '.join(sys.argv))
# check and process input arguments
if len(sys.argv) < 4:
print globals()['__doc__'] % locals()
sys.exit(1)
inp, outp1, outp2 = sys.argv[1:4]
model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5,
workers=multiprocessing.cpu_count())
# trim unneeded model memory = use(much) less RAM
#model.init_sims(replace=True)
model.save(outp1)
model.save_word2vec_format(outp2, binary=False)
执行命令:执行 “python train_word2vec_model.py wiki.en.text wiki.en.text.model wiki.en.text.vector”,大概得好几十个小时,因计算机性能而异。我们得到了一个gensim中默认格式的word2vec model和一个原始c版本word2vec的vector格式的模型: wiki.en.text.vector
以下,调试结果:
In [2]: import gensim
In [3]: model = gensim.models.Word2Vec.load_word2vec_format("wiki.en.text.vector", binary=False)
In [4]: model.most_similar("queen")
Out[4]:
[(u'princess', 0.5760838389396667),
(u'hyoui', 0.5671186447143555),
(u'janggyung', 0.5598698854446411),
(u'king', 0.5556215047836304),
(u'dollallolla', 0.5540223121643066),
(u'loranella', 0.5522741079330444),
(u'ramphaiphanni', 0.5310937166213989),
(u'jeheon', 0.5298476219177246),
(u'soheon', 0.5243583917617798),
(u'coronation', 0.5217245221138)]
In [5]: model.most_similar("man")
Out[5]:
[(u'woman', 0.7120707035064697),
(u'girl', 0.58659827709198),
(u'handsome', 0.5637181997299194),
(u'boy', 0.5425317287445068),
(u'villager', 0.5084836483001709),
(u'mustachioed', 0.49287813901901245),
(u'mcgucket', 0.48355430364608765),
(u'spider', 0.4804879426956177),
(u'policeman', 0.4780033826828003),
(u'stranger', 0.4750771224498749)]
In [6]: model.most_similar("woman")
Out[6]:
[(u'man', 0.7120705842971802),
(u'girl', 0.6736541986465454),
(u'prostitute', 0.5765659809112549),
(u'divorcee', 0.5429972410202026),
(u'person', 0.5276163816452026),
(u'schoolgirl', 0.5102938413619995),
(u'housewife', 0.48748138546943665),
(u'lover', 0.4858251214027405),
(u'handsome', 0.4773051142692566),
(u'boy', 0.47445783019065857)]
In [8]: model.similarity("woman", "man")
Out[8]: 0.71207063453821218
In [10]: model.doesnt_match("breakfast cereal dinner lunch".split())
Out[10]: 'cereal'
In [11]: model.similarity("woman", "girl")
Out[11]: 0.67365416785207421
In [13]: model.most_similar("frog")
Out[13]:
[(u'toad', 0.6868536472320557),
(u'barycragus', 0.6607867479324341),
(u'grylio', 0.626731276512146),
(u'heckscheri', 0.6208407878875732),
(u'clamitans', 0.6150864362716675),
(u'coplandi', 0.612680196762085),
(u'pseudacris', 0.6108512878417969),
(u'litoria', 0.6084023714065552),
(u'raniformis', 0.6044802665710449),
(u'watjulumensis', 0.6043726205825806)]
3.中文数据
执行相同命令解压:python process_wiki.py enwiki-latest-pages-articles.xml.bz2 wiki.en.text
然后最痛苦的事情来了,如何进行繁简转换?(因为除了加杂一些英文词汇外,还有很多繁体字混迹其中)
在网上下载开源项目opencc(opencc-0.4.3.tar.gz即可,太高版本的无法运行。),解压,进入到目录下,进入dos界面。执行命令:
opencc -i wiki.zh.text -o wiki.zh.text.jian -c zht2zhs.ini
(注:不清楚的话,可以在评论区发言,也可通过邮箱:[email protected]询问)
然后进行分词处理,先下载MeCab(日文分词系统),然后下载mecab-chinesedic-binary,放在MeCab bin目录下,cmd运行命令:mecab -d mecab-chinesedic-binary wakati wiki.zh.text.jian -o wiki.zh.text.jian.seg -b 10000000
详细详细可参考《用MeCab打造一套实用的中文分词系统》,也可在评论区和邮箱处询问。
接下来是utf-8转码,个人感觉在windows下作用不大,但也可试试,反正我是偏向于不用转。
iconv -c -t UTF-8 < wiki.zh.text.jian.seg > wiki.zh.text.jian.seg.utf-8(你还得下载 iconv包,还不如不转)
接下来到了训练阶段:
执行命令:
python train_word2vec_model.py wiki.zh.text.jian.seg(.utf-8) wiki.zh.text.model wiki.zh.text.vector
大概两小时左右。
测试命令同英文
如:`In [1]: import gensim
In [2]: model = gensim.models.Word2Vec.load(“wiki.zh.text.model”)
In [3]: model.most_similar(u”足球”)
Out[3]:
[(u’\u8054\u8d5b’, 0.6553816199302673),
(u’\u7532\u7ea7’, 0.6530429720878601),
(u’\u7bee\u7403’, 0.5967546701431274),
(u’\u4ff1\u4e50\u90e8’, 0.5872289538383484),
(u’\u4e59\u7ea7’, 0.5840631723403931),
(u’\u8db3\u7403\u961f’, 0.5560152530670166),
(u’\u4e9a\u8db3\u8054’, 0.5308005809783936),
(u’allsvenskan’, 0.5249762535095215),
(u’\u4ee3\u8868\u961f’, 0.5214947462081909),
(u’\u7532\u7ec4’, 0.5177896022796631)]
In [4]: result = model.most_similar(u”足球”)
In [5]: for e in result:
print e[0], e[1]
….:
联赛 0.65538161993
甲级 0.653042972088
篮球 0.596754670143
俱乐部 0.587228953838
乙级 0.58406317234
足球队 0.556015253067
亚足联 0.530800580978
allsvenskan 0.52497625351
代表队 0.521494746208
甲组 0.51778960228
In [6]: result = model.most_similar(u”男人”)
In [7]: for e in result:
print e[0], e[1]
….:
女人 0.77537125349
家伙 0.617369174957
妈妈 0.567102909088
漂亮 0.560832381248
잘했어 0.540875017643
谎言 0.538448691368
爸爸 0.53660941124
傻瓜 0.535608053207
예쁘다 0.535151124001
mc刘 0.529670000076
In [8]: result = model.most_similar(u”女人”)
In [9]: for e in result:
print e[0], e[1]
….:
男人 0.77537125349
我的某 0.589010596275
妈妈 0.576344847679
잘했어 0.562340974808
美丽 0.555426716805
爸爸 0.543958246708
新娘 0.543640494347
谎言 0.540272831917
妞儿 0.531066179276
老婆 0.528521537781
In [10]: result = model.most_similar(u”青蛙”)
In [11]: for e in result:
print e[0], e[1]
….:
老鼠 0.559612870216
乌龟 0.489831030369
蜥蜴 0.478990525007
猫 0.46728849411
鳄鱼 0.461885392666
蟾蜍 0.448014199734
猴子 0.436584025621
白雪公主 0.434905380011
蚯蚓 0.433413207531
螃蟹 0.4314712286
In [12]: result = model.most_similar(u”姨夫”)
In [13]: for e in result:
print e[0], e[1]
….:
堂伯 0.583935439587
祖父 0.574735701084
妃所生 0.569327116013
内弟 0.562012672424
早卒 0.558042645454
曕 0.553856015205
胤祯 0.553288519382
陈潜 0.550716996193
愔之 0.550510883331
叔父 0.550032019615
In [14]: result = model.most_similar(u”衣服”)
In [15]: for e in result:
print e[0], e[1]
….:
鞋子 0.686688780785
穿着 0.672499775887
衣物 0.67173999548
大衣 0.667605519295
裤子 0.662670075893
内裤 0.662210345268
裙子 0.659705817699
西装 0.648508131504
洋装 0.647238850594
围裙 0.642895817757
In [16]: result = model.most_similar(u”公安局”)
In [17]: for e in result:
print e[0], e[1]
….:
司法局 0.730189085007
公安厅 0.634275555611
公安 0.612798035145
房管局 0.597343325615
商业局 0.597183346748
军管会 0.59476184845
体育局 0.59283208847
财政局 0.588721752167
戒毒所 0.575558543205
新闻办 0.573395550251
In [18]: result = model.most_similar(u”铁道部”)
In [19]: for e in result:
print e[0], e[1]
….:
盛光祖 0.565509021282
交通部 0.548688530922
批复 0.546967327595
刘志军 0.541010737419
立项 0.517836689949
报送 0.510296344757
计委 0.508456230164
水利部 0.503531932831
国务院 0.503227233887
经贸委 0.50156635046
In [20]: result = model.most_similar(u”清华大学”)
In [21]: for e in result:
print e[0], e[1]
….:
北京大学 0.763922810555
化学系 0.724210739136
物理系 0.694550514221
数学系 0.684280991554
中山大学 0.677202701569
复旦 0.657914161682
师范大学 0.656435549259
哲学系 0.654701948166
生物系 0.654403865337
中文系 0.653147578239
In [22]: result = model.most_similar(u”卫视”)
In [23]: for e in result:
print e[0], e[1]
….:
湖南 0.676812887192
中文台 0.626506924629
収蔵 0.621356606483
黄金档 0.582251906395
cctv 0.536769032478
安徽 0.536752820015
非同凡响 0.534517168999
唱响 0.533438682556
最强音 0.532605051994
金鹰 0.531676828861
In [24]: result = model.most_similar(u”习近平”)
In [25]: for e in result:
print e[0], e[1]
….:
胡锦涛 0.809472680092
江泽民 0.754633367062
李克强 0.739740967751
贾庆林 0.737033963203
曾庆红 0.732847094536
吴邦国 0.726941585541
总书记 0.719057679176
李瑞环 0.716384887695
温家宝 0.711952567101
王岐山 0.703570842743
In [26]: result = model.most_similar(u”林丹”)
In [27]: for e in result:
print e[0], e[1]
….:
黄综翰 0.538035452366
蒋燕皎 0.52646958828
刘鑫 0.522252976894
韩晶娜 0.516120731831
王晓理 0.512289524078
王适 0.508560419083
杨影 0.508159279823
陈跃 0.507353425026
龚智超 0.503159761429
李敬元 0.50262516737
In [28]: result = model.most_similar(u”语言学”)
In [29]: for e in result:
print e[0], e[1]
….:
社会学 0.632598280907
人类学 0.623406708241
历史学 0.618442356586
比较文学 0.604823827744
心理学 0.600066184998
人文科学 0.577783346176
社会心理学 0.575571238995
政治学 0.574541330338
地理学 0.573896467686
哲学 0.573873817921
In [30]: result = model.most_similar(u”计算机”)
In [31]: for e in result:
print e[0], e[1]
….:
自动化 0.674171924591
应用 0.614087462425
自动化系 0.611132860184
材料科学 0.607891201973
集成电路 0.600370049477
技术 0.597518980503
电子学 0.591316461563
建模 0.577238917351
工程学 0.572855889797
微电子 0.570086717606
In [32]: model.similarity(u”计算机”, u”自动化”)
Out[32]: 0.67417196002404789
In [33]: model.similarity(u”女人”, u”男人”)
Out[33]: 0.77537125129824813
In [34]: model.doesnt_match(u”早餐 晚餐 午餐 中心”.split())
Out[34]: u’\u4e2d\u5fc3’
In [35]: print model.doesnt_match(u”早餐 晚餐 午餐 中心”.split())
中心`
SogouCA数据的测试:
解压后:合并各个.txt:
copy *.txt SogouCA.txt
接下来,比较蛋疼,在Linux下运行了一行命令(windows不知道如何弄。)
cat SogouCA.txt | iconv -f gbk -t utf-8 -c | grep “” > corpus.txt
可参考利用中文数据跑Google开源项目word2vec
接下来,繁简转换,分词等操作同上。
测试也同上,只是换了模型而已。
本人刚接触这一领域,有什么不足的地方欢迎各位指正!