python遍历目录获取子目录名/特定后缀文件

前言

最近帮忙打杂,需要批量处理文件,因此写了脚本,不过后来发现目录数量增加了,再一个个修改目录名重新运行有的麻烦,于是研究了下python操作文件系统的方法。毕竟python方便移植,不需要像C++那样需要编译,对于VC依赖用户而言,换操作系统的话还要改下VS的VC运行库的配置。参考我之前一篇C++遍历目录的博客Linux和Windows的遍历目录下所有文件的方法对比

相应python模块的方法

思路很简单,首先遍历目录下所有文件(这里指广义的文件),然后对文件进行判断(属性是否为目录,后缀是否为xxx)。而python提供的功能更为强大,利用os模块的walk方法能直接遍历当前目录和整个子目录的文件。

walk(top, topdown=True, onerror=None, followlinks=False)
    Directory tree generator.
    
    For each directory in the directory tree rooted at top (including top
    itself, but excluding '.' and '..'), yields a 3-tuple
    
        dirpath, dirnames, filenames
    
    dirpath is a string, the path to the directory.  dirnames is a list of
    the names of the subdirectories in dirpath (excluding '.' and '..').
    filenames is a list of the names of the non-directory files in dirpath.
    Note that the names in the lists are just names, with no path components.
    To get a full path (which begins with top) to a file or directory in
    dirpath, do os.path.join(dirpath, name).

后面3个自定义选项暂时可以不考虑(详细可以参考help(os.walk)),top即顶层目录,walk返回一个生成器,迭代每个生成器会返回一个三元组(dirpath, dirnames, filenames),依次代表目录名,该目录下的目录类型文件列表(不包括.和..),该目录下的非目录类型文件列表。

>>> import os
>>> for parent, dirnames, filenames in os.walk('./cpp'):
...     for dirname in dirnames:
...             print('[DIR]', dirname)
...     for filename in filenames:
...             print('[FILE]', filename)
...     break
... 
[DIR] string
[DIR] lists
[DIR] bitree
[DIR] reference
[DIR] threads
[FILE] test.cc
[FILE] binary_tree.c
[FILE] shared_ptr.cc
[FILE] get_arraysize.cc
[FILE] subset_all.cc
[FILE] bind_demo.cc
[FILE] a.out
[FILE] binary_tree.cpp

上述代码即遍历当前目录的所有文件并打印文件名,若去掉break则可以深层次遍历所有子目录。
至于后续操作则借用下列方法即可

  • os.listdir(path=None)
    获取目录下所有文件名,若未指定path则默认路径为当前目录。类似Linux下的ls命令
  • os.path.join(a, *p)
    用'/'或者其他连接符(比如windows下为'\')将路径列表连接起来
  • os.path.isdir(s)
    s为完整路径,若s为目录类型则返回True
  • os.path.splitext(p)
    p为文件路径(不一定是完整路径),返回二元组(root, ext),ext即后缀

函数式编程实现

最近刚接触了下python对函数式编程的支持,代码确实优雅不少,对性能没有严格要求的情景下这种风格的代码看起来非常舒服。

def subdir_list(dirname):
    """获取目录下所有子目录名
    @param dirname: str 目录的完整路径
    @return: list(str) 所有子目录完整路径组成的列表
    """
    return list(filter(os.path.isdir,
        map(lambda filename: os.path.join(dirname, filename),
            os.listdir(dirname))))

def file_list(dirname, ext='.csv'):
    """获取目录下所有特定后缀的文件
    @param dirname: str 目录的完整路径
    @param ext: str 后缀名, 以点号开头
    @return: list(str) 所有子文件名(不包含路径)组成的列表
    """
    return list(filter(
        lambda filename: os.path.splitext(filename)[1] == ext,
        os.listdir(dirname)))

话说这种)))))...风格的代码自从N年前学autolisp时才写过,不知道缩进风格对不对,先这样吧。

你可能感兴趣的:(python遍历目录获取子目录名/特定后缀文件)