删除深蓝词库转换后txt文件中的重复行

项目场景:

在使用深蓝词库转换并且将所有txt文件拼接在一起后,最终的txt文件会出现许多重复的内容,在这里我们要把重复的内容删除(还不清楚有重复内容构成的语料库是否会对最后的结果产生影响)。


解决方案:

set() 函数创建一个无序不重复元素的集合,可进行关系测试,删除重复数据,还可以计算交集、差集、并集等,返回新的集合对象

import config
from tqdm import tqdm

def cut_the_same_word():
    readDir = config.user_dict_path
    writeDir = config

你可能感兴趣的:(聊天机器人,自然语言处理,pytorch,深度学习)