python 文本生成实现

主要涉及到同义词替换+rnn神经网罗进行句子通顺性判别:

代码地址:

https://gitee.com/zhoubingbing/text_generation/tree/master

 

代码 第一部分:

        进行中文预料文集进行分词得到如下文本(空格或者\t分隔):

      例句  "我    爱    中国" 

     从中文语料库中进行1-gram 词汇集统计以及同义词表的统计:利用numpy 中的savez   load方法进行存储和下载(以字典的形式进行存储)

     

    def save_all_vocb():
        f = codecs.open('../sys_cilin/new_cilin.txt', 'r', "GBK")#同义词词表 生成我们的numpy字典
        lines = f.readlines()
        vacb = {}
        for line in lines:
            line = line.strip()
            keys = line.split(' ')[0]
            values = line.split(' ')[1:]
            vacb[keys] = values
        numpy.savez(PATH+'/vacb_all', dict=vacb)
   
    def load_cilin_all():
        arrays = numpy.load(PATH+'/vacb_all.npz')
        return arrays['dict'][()]

       进行我们的语言模型的1-gram 这里 我利用"我","爱" 进行统计我们这两个词在一起即“我爱”出现的频率 然后

 

 

你可能感兴趣的:(python)