最近做文本聚类要扫描大量的文本,因此,需要遍历文件夹和子文件夹下面的大量文件,记录一下python是如何实现的。
# python遍历文件夹内所有文件,返回文件名即后缀 import os for filename in os.listdir(r'/Users/John/Documents/NLPStudy/tc-corpus-train/C3-Art/'): print filename import glob # 可以设置文件过滤,输出为文件路径 for filename in glob.glob('/Users/John/Documents/NLPStudy/tc-corpus-train/C3-Art/*.txt'): print filename print '\n\n\n\n' import os.path # 可以访问子文件夹,只返回文件名及后缀 def processDirectory(args, dirname, filenames): print 'Directory', dirname for filename in filenames: print 'File', filename os.path.walk(r'/Users/John/Documents/NLPStudy/tc-corpus-train/', processDirectory, None)
import os os.path.isfile('test.txt') # 如果不存在返回false os.path.exists('directory') # 如果目录不存在返回false