主要涉及到同义词替换+rnn神经网罗进行句子通顺性判别:
代码地址:
https://gitee.com/zhoubingbing/text_generation/tree/master
代码 第一部分:
进行中文预料文集进行分词得到如下文本(空格或者\t分隔):
例句 "我 爱 中国"
从中文语料库中进行1-gram 词汇集统计以及同义词表的统计:利用numpy 中的savez load方法进行存储和下载(以字典的形式进行存储)
def save_all_vocb():
f = codecs.open('../sys_cilin/new_cilin.txt', 'r', "GBK")#同义词词表 生成我们的numpy字典
lines = f.readlines()
vacb = {}
for line in lines:
line = line.strip()
keys = line.split(' ')[0]
values = line.split(' ')[1:]
vacb[keys] = values
numpy.savez(PATH+'/vacb_all', dict=vacb)
def load_cilin_all():
arrays = numpy.load(PATH+'/vacb_all.npz')
return arrays['dict'][()]
进行我们的语言模型的1-gram 这里 我利用"我","爱" 进行统计我们这两个词在一起即“我爱”出现的频率 然后