[Python] 自动化办公 几种文件搜索方法

转载请注明:陈熹 [email protected] (号:半为花间酒)
若公众号内转载请联系公众号:早起Python

一、扫描路径内的内容

有些时候我们会希望在当前文件夹的成百上千个文件中快速找到需要的文件,如果这个文件夹又包括很多个子文件夹,并不需要程序进去查找而无端耗费资源。这就是典型的扫描一层搜索

1. 基于 os.scandir()

需求:输出 C:\Program Files (x86) 路径下名字包含“Windows”的文件夹名称,并统计个数

分析:这是一个非遍历的需求,只需要在目的文件夹内扫描一圈判断即可。
用到的方法是 os.scandir(),使用如下:

import os

path = ...
for file in os.scandir(path): 
    print(file.name, file.path, file.is_dir())

上面代码最后输出的是给定路径下各内容的名字、绝对路径,并判断其是否是文件夹
注意,os.scandir() 只在路径下一级扫描
需求实现的代码如下:

import os

num = 0
for file in os.scandir(r'C:\\Program Files (x86)'):
    if file.is_dir():
        if 'Windows' in file.name:
            print(file.name)
            num += 1
print('含有Windows的文件夹个数为:', num)
[Python] 自动化办公 几种文件搜索方法_第1张图片

代码逻辑很简单,可以自己做相应调整

2. 基于 os.listdir()

需求:输出 C:\Program Files (x86) 路径下所有可执行文件 (即后缀为 .exe)

分析:依然是非遍历的需求,这里使用 os.listdir(),它比 os.scandir() 简单一些,可直接调用输出名称而非路径。后缀名可以用字符串的切片来判断,但难免失去灵活性。此时建议用字符串方法 string.endswith() 来判断名称的结尾是否是 .exe,代码如下:

import os 

for file in os.listdir(r'C:\\Program Files (x86)'):
    if file.endswith('.exe'):
        print(file)
[Python] 自动化办公 几种文件搜索方法_第2张图片

二、遍历文件夹搜索文件

更多时候我们希望给定一个大概的路径,在这个路径下的所有文件夹里一层一层找,找到特定文件或者符合要求的文件,这里需要遍历文件,有两种主要的方法:

1. 基于 os.walk()

os.walk 遍历后产生三个参数:当前文件夹路径, 包含文件夹名称[列表形式], 包含文件名称[列表形式]
可以用如下代码完成简单遍历:

import os

for dirpath, dirnames, filenames in os.walk(r'C:\\Program Files (x86)'):
    print(f'打开文件夹{dirpath}')
    if dirnames:
        print(dirnames)
    if filenames:
        print(filenames)
    print('-' * 10)

需求:遍历 C:\Program Files (x86) 找出所有新版Excel文件 (即后缀为 .xlsx)

分析:只要理解了 os.walk() 的工作模式,用 endswith() 判断后缀即可。最后如果需要获得绝对路径可以把当前文件夹路径和文件名拼接,简单一点用 + 或者字符串格式化,也可以用 os 模块内的方法

import os

for dirpath, dirnames, filenames in os.walk(r'C:\\Program Files (x86)'):
    if filenames:
        for i in filenames:
            if i.endswith('.xlsx'):
                print(os.path.join(dirpath, i))

2. 基于非 os 方法:glob

glob 在之前的推文也反复提到遍历框架:

import glob

for file in glob.glob('**/*', recursive=True): 
    print(file)

**/* 的使用表示用通配符指代给定路径下的任何一层,recursive 参数允许遍历搜索
由于 glob 可以使用通配符,大大拓宽了灵活程度,这里利用 glob 也来完成上面的需求

需求:遍历 C:\Program Files (x86) 找出所有新版Excel文件 (即后缀为 .xlsx)

import glob

for file in glob.glob('**/*.xlsx', recursive=True): 
    print(file)

可以看到非常简单,在原有代码基础上加上后缀名就能够完成特定类型文件的搜索。
如果需要搜索特定文件,如遍历 C:\Program Files (x86) 找到文件 practice.txt
只需要后一个 * 改成具体名称就行

import glob

for file in glob.glob('**/practice.txt', recursive=True): 
    print(file)

你可能感兴趣的:([Python] 自动化办公 几种文件搜索方法)