说起,如何快速地遍历文件夹。或许,某人立刻就想到了线程池,几个worker并行处理遍历任务,总比一个worker的速度更快吧。当然,很多人不以为然。这要看单机性能是否够强悍,使你能够起更多的worker,以加快速度。我们,先来看看Python遍历文件夹的几种方案:
至于第一种方案,需要读取卷中的$MFT文件,并分析里面的文件记录项,代表作为everything.exe,此处略过。
这是最简单施工的一种目录遍历,Python已经把的性能做的很好,应付结构复杂度小的目录,显得性能最佳。
def IterateFiles(directory):
assert os.path.isdir(directory),'make sure directory argument should be a directory'
result = []
for root,dirs,files in os.walk(directory, topdown=True):
for fl in files:
result.append(os.path.join(root,fl))
return result
有一个缺陷,如果子文件夹过深,将导致如下错误:
names = listdir(top) TypeError: must be (buffer overflow), not st
此时,将参数directory的值使用Unicode对象即可,如:
directory = u”D:\\”
另外,walk函数参数topdown设置为True时,将自顶向下遍历。经检验,这样的遍历速度最优。
递归遍历,我最讨厌的一种方案。理论上,它是相当的费时间,同时在这里,还不能使用迭代器,造成内存空间大部分的占用,实不适宜用来应对大文件夹。
def IterateFile_Recursion(directory):
assert os.path.isdir(directory),'make sure directory argument should be a directory'
def recuirfunc(dirs,result):
if not dirs:
return result
temp = dirs.pop()
for item in os.listdir(temp):
path = os.path.join(temp,item)
if os.path.isdir(path):
dirs.append(path)
else:
result.append(path)
recuirfunc(dirs,result)
dirs = [directory]
result = []
recuirfunc(dirs,result)
return result
另外,如果文件夹的深度过深,会导致以下报错:
RuntimeError: maximum recursion depth exceeded in cmp
另外,python不允许过多的递归次数,所以请弃用。
可是,我的实验数据说明,面对小文件夹,递归调用更是一把利剑,速度比walk还快。
即是调用subprocess.Popen创建一个dir.exe进程,通过subprocess.PIPE与之进行交互(处理输入输出)。请注意,如果目录结构复杂,包含大量的子文件夹和文件,容易造成通信阻塞。因此,我们需要及时处理输出,使管道畅通。
def IterateFiles_CMD(directory):
assert os.path.isdir(directory),'make sure directory argument should be a directory'
cmd = 'dir /s /B /A-D ' + directory
ret = []
p = subprocess.Popen(cmd,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE)
for line in p.stdout.readlines():
ret.append(line)
if p.wait() == 0:
return ret
我们使用help dir查看dir.exe使用说明,会发现:
/S 显示指定目录和所有子目录中的文件。
/B 使用空格式(没有标题信息或摘要)。
/A 显示具有指定属性的文件 - 表示“否”的前缀
因此,命令【dir /s /B /A-D】即为显示目录下所有的文件,显示格式是文件绝对路径为一行。
面对windows下大文件夹,推荐使用该方案,缺点就是内存占用较大。经检验,面对7W个文件,遍历时间为20min,相对于其他方法,速度提升4倍。面对小文件夹,请弃用,因为这里起个进程都需要时间啦。
如果单机性能够强大,请考虑……
等等,还是不要考虑了。线程池,最严重的问题在于阻塞,这里是相当耗时间的。
def list_dir(directory):
dirlist = []
filelist = []
try:
for item in os.listdir(directory):
path = os.path.join(directory,item)
if os.path.isfile(path):
filelist.append(path)
else:
dirlist.append(path)
except:
pass
return (dirlist,filelist)
class ListWorker(threading.Thread):
def __init__(self,requestQueue,resultlist):
threading.Thread.__init__(self)
self.request_queue = requestQueue
self.result_list = resultlist
self.setDaemon(True)
self.start()
def run(self):
while True:
try:
callback,args = self.request_queue.get(block=True,timeout=0.01)
except Queue.Empty:
break
dirlist,filelist = callback(args[0])
self.request_queue.task_done()#通知系统任务完成
for item in dirlist:
self.request_queue.put((callback,(item,)))
self.result_list += filelist
class ListManager(object):
def __init__(self,request_queue,threadnum=9):
self.request_queue = request_queue
self.result_list = []
self.threads = []
self.__init_thread_pool(threadnum)
def __init_thread_pool(self,threadnum):
for i in xrange(threadnum):
self.threads.append(ListWorker(self.request_queue,self.result_list))
def add_job(self,callback,*args):
self.request_queue.put((callback,args))
def complete_all(self):
while len(self.threads):
worker = self.threads.pop()
worker.join()
最后,简单地对比一下他们的速度
path = ur'D:\working'
t = time.time()
list_manager = ListManager(Queue.Queue(-1))
list_manager.add_job(list_dir,path)
list_manager.complete_all()
print len(list_manager.result_list)
t2 = time.time()
print t2 -t
print len(list(IterateFiles_CMD(path)))
t3 = time.time()
print t3 -t2
print len(list(IterateFiles(path)))
t4 = time.time()
print t4-t3
print len(IterateFile_Recursion(path))
t5 = time.time()
print t5-t4
严格意义上来说,以上对比很不科学,这里,仅作为参考。
结果如下:
1551
14.2649998665
1551
0.766000032425
1551
0.0900001525879
1551
0.0799999237061