Python文本操作---数据清洗

1.导入编码模块:codecs

2.数据清洗:把数据进行处理分类,可进行读写到文本上或者数据库上

3.split():对特定的子串进行切割

import codecs
filepath=r"Z:\F\第一阶段视频\20170424\vedio\大数据相关数据\1E~001.txt"
file=codecs.open(filepath,"rb","gbk","ignore")#按照指定编码
mylist=file.readlines()#返回一个list,读取到内存
savegoodfilepath="好的数据保存地址
savebadfilepath="错误的数据保存地址"
filegood=open(savegoodfilepath,"wb")
filebad=open(savebadfilepath,"wb")
if __name__ == '__main__':
    for  line  in  mylist:

        if  len(line)>35  or  len(line)<15:
            filebad.write(line.encode("utf-8"))
        else:
            QQlist = line.split('----')
            if  len(QQlist)==2:
                filegood.write(line.encode("utf-8"))
            else:
                filebad.write(line.encode("utf-8"))

filebad.close()
filegood.close()

 

你可能感兴趣的:(Python)