python删除文件中的重复行

无论文件中的每行无论是已经切分的词还是句子,set(a),这个a可以是一行得到句子作为单位,也可以是字符。去除重复行,则就以每行作为这个无序集合中的一个单元。

import codecs

 

line_seen=set()#初始化空的无序集合

in_file=codecs.open('2000_pos_cut_stopword.txt','r',encoding='utf-8')

out_file=codecs.open('2000_pos_cut_stopword_delsame1.txt','w',encoding='utf-8')

 

lines=in_file.readlines()

forlineinlines:

iflinenotinline_seen:

out_file.write(line)

line_seen.add(line)

in_file.close()

out_file.close()

参考https://blog.csdn.net/qq_22764813/article/details/73187473

你可能感兴趣的:(NLP,人工智能)