python数据清理——将excel单元格的内容写入到txt

问题描述:目前有exlce文件中包含大量文字信息,为了后续文本处理分析。需要将每个exlce的单元格,生产一个txt文件。

第一步:将excle某列选中,全部copy到txt文件中。则会形成带有空行\n的txt文件格式。如下图python数据清理——将excel单元格的内容写入到txt_第1张图片


第二步:将txt文件,切分成若干个小文件txt。以\n 为区分。python实现代码如下。部分也参考http://blog.csdn.net/laoyaotask/article/details/46797717

#*****************************************************#
# -*- coding:utf8 -*- 
# 专利标题title文件切分:从1开始分
import re;
p=re.compile('\n',re.S);
fileContent=open('/Users/1-4000.txt','r').read();#读文件内容,
paraList=p.split(fileContent) #根据换行符对文本进行切片

fileWriter=open('/Users/0.txt','a');#创建一个写第一个文件
for paraIndex in range(len(paraList)):#遍历切片后的文本列表
    fileWriter.write(paraList[paraIndex]);#先将列表中第一个元素写入文件中
    if((paraIndex+1)%1==0):#判断是否写够1个切片,如果已经够了往下
        fileWriter.close(); #关闭当前句柄
        fileWriter=open('/Users/'+str((paraIndex+1)/1)+'title.txt','a'); #重新创建一个新的句柄,等待写入下一个切片元素。注意这里文件名的处理技巧。
fileWriter.close();#关闭最后创建的那个写文件句柄
print('finished')

你可能感兴趣的:(python,前期数据处理)