(python实现)把一个txt文件按比例分成多个txt文件后保存到指定(路径)文件夹

最近在做机器学习的文本分类,python学的不到家,导致一些小问题迟迟没解决,幸亏有前辈指导。将我遇到的问题和解决方法写出来,供大家学习。代码的作用就是把爬取到的大量文本数据经过处理后划分为了训练集和测试集。
本文代码主要实现了下面几项功能:
①把一个txt文件按比例分成多个txt文件
②将txt文件格式由UTF-8转换为ANSI
③保存txt到指定(路径)文件夹

import re
text = open('./data/123.txt',"r", encoding='UTF-8').read()    #从指定文件夹打开TXT文件,原文件的编码格式为UTF-8
b=re.split('\n',text)
#设置分割规则,遇到\n进行划分
n=0
for i in b:
    n+=1
print(n)
#计算总共分割产生了多少txt文件
m=0
for i in b:
    m+=1
    if m<=n*4/5:
        with open('./train/%s.txt'%m,'w', encoding='ANSI') as f:
            f.write(i)
            #代码转换为了ANSI格式
    else:
        with open('./test/%s.txt'%m,'w', encoding='ANSI') as f:
            f.write(i)

过程演示
(python实现)把一个txt文件按比例分成多个txt文件后保存到指定(路径)文件夹_第1张图片
一共产生了26个txt文件,按照4:1的比例分别保存到不同的文件夹中。
(python实现)把一个txt文件按比例分成多个txt文件后保存到指定(路径)文件夹_第2张图片
(python实现)把一个txt文件按比例分成多个txt文件后保存到指定(路径)文件夹_第3张图片
小提示:txt文件的编码格式可以在另存为的时候进行手动转换。
(python实现)把一个txt文件按比例分成多个txt文件后保存到指定(路径)文件夹_第4张图片

你可能感兴趣的:(python,python,自然语言处理)