Python循环读取文件目录树


文件夹目录如下
Python循环读取文件目录树_第1张图片
Python循环读取文件目录树_第2张图片
一、os.walk()
函数声明:os.walk(top,topdown=True,οnerrοr=None)
(1)参数top表示需要遍历的顶级目录的路径。
(2)参数topdown的默认值是“True”表示首先返回顶级目录下的文件,然后再遍历子目录中的文件。当topdown的值为"False"时,表示先遍历子目录中的文件,然后再返回顶级目录下的文件。
(3)参数onerror默认值为"None",表示忽略文件遍历时的错误。如果不为空,则提供一个自定义函数提示错误信息后继续遍历或抛出异常中止遍历。
返回值:函数返回一个元组,含有三个元素。这三个元素分别是:每次遍历的路径名、路径下子目录列表、目录下文件列表。

import os
import os.path
# this folder is custom
rootdir = r'F:\esdata\casia\casiafeature\sametext50'
def vistDir(rootdir):
if os.path.exists(rootdir)== False :
print "not exists such a dir!"
return
for parentdir, dirs, files in os.walk(rootdir):
# case 1:
for dir in dirs:
print ( "parent folder is:" + parentdir)
print ( "dirname is:" + dir)
# case 2
for file in files:
print ( "parent folder is:" + parentdir)
print ( "filename with full path:" + os.path.join(parentdir, file))
vistDir(rootdir)


运行后如下所示:
Python循环读取文件目录树_第3张图片

二、os.path.walk
函数声明:os.path.walk(top,func,arg)
(1)参数top表示需要遍历的目录路径
(2)参数func表示回调函数,即对遍历路径进行处理的函数。所谓回调函数,是作为某个函数的参数使用,当某个时间触发时,程序将调用定义好的回调函数处理某个任务。注意:walk的回调函数必须提供三个参数:第1个参数为os.path.walk的参数arg,第2个参数表示目录dirname,第3个参数表示文件列表names。注意:os.path.walk的回调函数中的文件列表不和os.walk()那样将子目录和文件分开,而是混为了一摊,需要在回调函数中判断是文件还是子目录。
(3)参数arg是传递给回调函数的元组,为回调函数提供处理参数,arg可以为空。回调函数的第1个参数就是用来接收这个传入的元组的。
过程:以top 为根的目录树中的每一个目录 (包含 top 自身,如果它是一个目录),以参数 (arg, dirname, names)调用回调函数 funct。参数 dirname 指定访问的目录,参数 names 列出在目录中的文件(从 os.listdir(dirname)中得到)。回调函数可以修改 names 改变 dirname 下面访问的目录的设置,例如,避免访问树的某一部分。(由 names 关连的对象必须在合适的位置被修改,使用 del 或 slice 指派。) 注意:符号连接到目录不被作为一个子目录处理,并且因此 walk()将不访问它们。访问连接的目录你必须以os.path.islink(file) 和 os.path.isdir(file)标识它们,并且必须调用walk() 。 

def find_file( args ,dirname,files):
for file in files:
file_path = os.path.join(dirname, file)
if os.path.isfile(file_path):
print "find file:%s" % file_path
os.path.walk( r"F:\esdata\casia\casiafeature\sametext50" ,find_file,())

Python循环读取文件目录树_第4张图片

# 遍历指定目录,显示目录下的所有文件名
def eachFile(filepath):
pathDir = os.listdir(filepath)
for allDir in pathDir :
child = os.path.join( '%s%s' % (filepath, allDir))
print child.decode( 'gbk' ) # .decode('gbk')是解决中文显示乱码问题

你可能感兴趣的:(Python)