python 通过给定目录统计所有的不同子文件类型及占用内存

1 背景

python 通过给定目录统计所有的不同子文件类型及占用内存。
看这个名字觉得挺吓人的,
但其实数据或者文件夹中已经有了具体信息,如数据类型,大小等等,只需要遍历目录或者文件拿到这些信息就好了。

主要利用了操作系统的提供的接口(OS模块),从里面获取具体的文件数据。

2 OS模块介绍

Python OS模块包含普遍的操作系统功能, 这里的的OS是操作系统的简写(Operation System)。
该模块 可以处理文件和目录这些我们日常手动需要做的操作。如果你希望你的程序能够与平台无关的话,这个模块是尤为重要的。python 通过给定目录统计所有的不同子文件类型及占用内存_第1张图片
上面3个函数应该是比较常用的了。

os.listdir()
os.path.join()
os.path.getsize()  # 传入一个完整的文件路径,返回该文件的大小;

3 代码实现

import os
 
"""
通过给定目录,统计所有的不同子文件类型及占用内存
"""
size_dict = {}
type_dict = {}
def get_size_type(path):
    
    files = os.listdir(path)
    for filename in files:
        temp_path = os.path.join(path, filename)
        if os.path.isdir(temp_path):
            # 递归调用函数,实现深度文件名解析
            get_size_type(temp_path)     
        elif os.path.isfile(temp_path):
            # 获取文件后缀
            type_name=os.path.splitext(temp_path)[1]   
            #无后缀名的文件
            if not type_name:
                type_dict.setdefault("None", 0)
                type_dict["None"] += 1
                size_dict.setdefault("None", 0)
                size_dict["None"] += os.path.getsize(temp_path)
            # 有后缀的文件
            else:
                type_dict.setdefault(type_name, 0)
                type_dict[type_name] += 1
                size_dict.setdefault(type_name, 0)
                # 获取文件大小
                size_dict[type_name] += os.path.getsize(temp_path)  
    

4 用法

path= "data/"
get_size_type(path)
for each_type in type_dict.keys():
    print ("%5s下共有【%5s】的文件【%5d】个,占用内存【%7.2f】MB" %     
            (path,each_type,type_dict[each_type],\
            size_dict[each_type]/(1024*1024)))
print("总文件数:  【%d】"%(sum(type_dict.values())))
print("总内存大小:【%.2f】GB"%(sum(size_dict.values())/(1024**3)))

python 通过给定目录统计所有的不同子文件类型及占用内存_第2张图片

你可能感兴趣的:(有趣的机器学习,Python,python,开发语言,pytorch)