1.导入编码模块:codecs
2.数据清洗:把数据进行处理分类,可进行读写到文本上或者数据库上
3.split():对特定的子串进行切割
import codecs
filepath=r"Z:\F\第一阶段视频\20170424\vedio\大数据相关数据\1E~001.txt"
file=codecs.open(filepath,"rb","gbk","ignore")#按照指定编码
mylist=file.readlines()#返回一个list,读取到内存
savegoodfilepath="好的数据保存地址
savebadfilepath="错误的数据保存地址"
filegood=open(savegoodfilepath,"wb")
filebad=open(savebadfilepath,"wb")
if __name__ == '__main__':
for line in mylist:
if len(line)>35 or len(line)<15:
filebad.write(line.encode("utf-8"))
else:
QQlist = line.split('----')
if len(QQlist)==2:
filegood.write(line.encode("utf-8"))
else:
filebad.write(line.encode("utf-8"))
filebad.close()
filegood.close()