由于需要训练glove embedding,需要自己创建语料库用以训练,我是用pandas读取处理的,需要保存为.txt文件给模型训练。原本是传统的open(‘xxx.txt’,‘w’) 然后一条条语句写进去就可以了,但是pandas很好的网格特性,直接保存不是很省事,但是在保存的时候发现,原本的字符,会把引号也保存了,比如字符串 sddb 保存后为 “sddb” 显然不合理,这里一种解决办法:
import csv
data[1].to_csv('excel2txt.txt', sep=' ', index=False,header=False,quoting=csv.QUOTE_NONE,escapechar=' ')
data[1] 是我要保存的那一列文本
sep=‘ ’ 表示以空格作为分隔符,因为只有一列 所以不起作用
index=False 不保存索引
header=False 不保存表头
quoting=csv.QUOTE_NONE 这个很关键,可以去除引号
escapechar=’ ’ 是配合上面选项使用的,表示每个字符的间隔符是空格