使用os.walk函数:
for path, dirNames, _ in os.walk(dataDir):
for dirName in dirNames:
if dirName=="train":
# trainDir = os.path.join(path, dirName)
for trainDir, _, trainImgNames in os.walk(os.path.join(path, dirName)):
for trainImgName in trainImgNames:
imgData.append(os.path.join(trainDir, trainImgName))
os.walk返回一个元组有三个参数,第一个是遍历的文件夹路径,第二个是所有的子文件夹名,第三个是所有的子文件名。需要完整的路径的话可以用os.path.join()连接。
os.walk返回值大致是这样的:
if topdown:
yield top, dirs, nondirs
注意:os.walk是以yield生成器函数方式返回的这个tuple,是一个迭代器,需要放到for循环里面遍历使用,直接使用_, _, fileNames = os.walk(path)这种方式是获得不到的。
yield的作用:返回一个可以用来迭代(for循环)的生成器,它的应用场景通常为一个需要返回一系列值的,含有循环的函数中。
①迭代器迭代器有两个基本的方法:创建迭代器iter() 和 访问迭代器next()。
可以直接作用于for循环的对象统称为可迭代对象:Iterable
一类是集合数据类型,如list、tuple、dict、set、str等;
一类是generator,包括生成器和带yield的generator function
迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。
②生成器
如果列表元素可以按照某种算法推算出来,可以在循环的过程中不断推算出后续的元素,这样就不必创建完整的list,从而节省大量的空间。在Python中,这种一边循环一边计算的机制,称为生成器:generator。