使用python合并多个txt文件

Ana文件夹下有29个txt文件,想通过python将它们合并到一个txt文件中去。
使用python合并多个txt文件_第1张图片

import os

root='E:\Programe\corpora'
path='E:\Programe\corpora\Ana'
files=os.listdir(path)
result=os.path.join(root,'result.txt') #生成最终txt文件(result.txt)的路径
        
with open(result,'w',encoding='utf-8-sig') as r:
    for i in range(1,30):
        print(i)
        fname=str(i)+'.txt'
        filename=os.path.join(path,fname)
        with open(filename,'r',encoding='utf-8-sig') as f:
            for line in f:
                if'《' not in line: #跳过含有书名号《的行
                    r.writelines(line)
            r.write('\n')

结果如下:
使用python合并多个txt文件_第2张图片

注意点:
1.其实可以用os.listdir()函数来获取文件夹中每个txt文件的名字,但是我获取的是乱序的,且无法通过sort()或sorted()对其排序

import os

root='E:\Programe\corpora'
path='E:\Programe\corpora\Ana'
files=os.listdir(path)
print(files)
print(sorted(files))

结果如下:
使用python合并多个txt文件_第3张图片
具体原因我也不知道

2.对新读取的内容进行写入时,应写入在result文档的末尾

import os

root='E:\Programe\corpora'
path='E:\Programe\corpora\Ana'
files=os.listdir(path)

for i in range(1,30):
    print(i)
    fname=str(i)+'.txt'
    filename=os.path.join(path,fname)
    with open(filename,'r',encoding='utf-8-sig') as f,open(result,'w',encoding='utf-8-sig') as r:
        for line in f:
            if'《' not in line: #跳过含有书名号《的行
                r.writelines(line)
        r.write('\n')

我最初用这样的代码,最后的result中只写入了最后一个txt文档的内容,因为每次读取一个新的txt时,都重新打开了result文档,在其开头写入,之前的内容就被覆盖掉了。解决方案之一就是使用seek()函数定位到result文档的末尾。

你可能感兴趣的:(自然语言处理,python,os)