Python遍历文件夹

最近做文本聚类要扫描大量的文本,因此,需要遍历文件夹和子文件夹下面的大量文件,记录一下python是如何实现的。


# python遍历文件夹内所有文件,返回文件名即后缀
import os
for filename in os.listdir(r'/Users/John/Documents/NLPStudy/tc-corpus-train/C3-Art/'):
    print filename

import glob # 可以设置文件过滤,输出为文件路径
for filename in glob.glob('/Users/John/Documents/NLPStudy/tc-corpus-train/C3-Art/*.txt'):
    print filename
print '\n\n\n\n'

import os.path # 可以访问子文件夹,只返回文件名及后缀
def processDirectory(args, dirname, filenames):
    print 'Directory', dirname
    for filename in filenames:
        print 'File', filename
os.path.walk(r'/Users/John/Documents/NLPStudy/tc-corpus-train/', processDirectory, None)

第三种方法可以遍历子文件夹,减少代码量,第二种方法可以输出全部的文件路径比较方便,自己取舍着用吧,里面的路径改成你自己的路径就可以了。


判断文件与目录是否存在

import os
os.path.isfile('test.txt') # 如果不存在返回false
os.path.exists('directory') # 如果目录不存在返回false


你可能感兴趣的:(Python遍历文件夹)