机器学习一:海量文件的遍历

一:将文件解压缩

import zipfile
import os
def unzip_data(src_path,target_path):
    # 解压原始数据集,将src_path路径下的zip包解压至target_path目录下
    if(not os.path.isdir(target_path)):     #排除解压缩的文件是目录的可能
        z = zipfile.ZipFile(src_path, 'r')
        z.extractall(path=target_path)
        z.close()

unzip_data('data/data10954/cat_12_test.zip','data/data19638/insects')
unzip_data('data/data10954/cat_12_train.zip','data/data55217/Zebra')
    • os

(1)os.path.isdir--------判断路径是否为目录

os常用的函数(1)常用os函数(2)----同时插入两个链接关于os常用函数的介绍,两个结合看,足够具体了

    • zipfile

具体参考下面的链接,上述的步骤就是一个解压的步骤

zipfile的函数

同时附上Python解压缩文件的链接

用Python解压缩文件

二:遍历文件

import os
 
"""
通过给定目录,统计所有的不同子文件类型及占用内存
"""
size_dict = {}#文件内存
type_dict = {}#文件大小
def get_size_type(path):
    
    files = os.listdir(path)#列出路径下的所有文件
    for filename in files:
        temp_path = os.path.join(path, filename)
        if os.path.isdir(temp_path):
            # 递归调用函数,实现深度文件名解析
            get_size_type(temp_path)     
        elif os.path.isfile(temp_path):
            # 获取文件后缀
            type_name=os.path.splitext(temp_path)[1]   
            #无后缀名的文件
            if not type_name:
                type_dict.setdefault("None", 0)#看是否存在None值存在则还是原来的值,不存在则值为0
                type_dict["None"] += 1
                size_dict.setdefault("None", 0)
                size_dict["None"] += os.path.getsize(temp_path)
            # 有后缀的文件
            else:
                type_dict.setdefault(type_name, 0)
                type_dict[type_name] += 1
                size_dict.setdefault(type_name, 0)
                # 获取文件大小
                size_dict[type_name] += os.path.getsize(temp_path)  
get_size_type('data')
print(size_dict)
print(type_dict)
    • dict.setdefault的用法

实例:

dict ={'name':'⼩明','sex':'男'}
print "Value :%s" % dict.setdefault('name','⽆') #存在键name
#Value :⼩明
 print "Value :%s" % dict.setdefault('age','0')#不存在键age
#Value :0
 dict
#{'age': '0', 'name': '小明', 'sex': '男'}#age加了进去,字典是⽆序的。
    • os.listdir

实例:

import os
print(os.listdir('data/data10954'))#会列出它的下一级的目录,同时路径必须是一个目录
#['cat_12_train.zip', 'train_list.txt', 'cat_12_test.zip']
    • os.path.splitext(path):

分割路径,返回路径名和文件扩展名的元组

实例:

import os
print(os.path.splitext('data/data10954/train_list.txt'))
print(os.path.splitext('data/data10954/train_list.txt')[-1])
print(os.path.splitext('data/data10954/train_list.txt')[0])
#('data/data10954/train_list', '.txt')
#.txt
#data/data10954/train_list
    • os.path.join(path1[,path2,path3])

把目录和文件名合成一个路径,1.如果各组件名首字母不包含’/’,则函数会自动加上,2.如果有一个组件是一个绝对路径,则在它之前的所有组件均会被舍弃,3.如果最后一个组件为空,则生成的路径以一个’/’分隔符结尾

实例:

os.path.join('C:/Users','wuzhengxiang/Desktop/','股票数据分析')
#'C:/Users\\wuzhengxiang/Desktop/股票数据分析'
Path1 = 'home'
Path2 = 'develop'
Path3 = 'code'
Path10 = Path1 + Path2 + Path3
Path20 = os.path.join(Path1,Path2,Path3)
print ('Path10 = ',Path10)
print ('Path20 = ',Path20)
#Path10 = homedevelopcode
#Path20 = home\develop\code
    • os.path.getsize(path)

返回文件大小,切记是文件

print(os.path.getsize('data/data10954'))
print(os.path.getsize('data/data10954/cat_12_test.zip'))#是一个目录,因此返回的是属性的大小
print(os.path.getsize('data/data10954/cat_12_train.zip'))
print(os.path.getsize('data/data10954/train_list.txt'))
#4096
#21487236
#194314834
#114840

三:输出

path= "data/"
get_size_type(path)
for each_type in type_dict.keys():
    print ("%5s下共有【%5s】的文件【%5d】个,占用内存【%7.2f】MB" %     
            (path,each_type,type_dict[each_type],\
            size_dict[each_type]/(1024*1024)))
print("总文件数:  【%d】"%(sum(type_dict.values())))
print("总内存大小:【%.2f】GB"%(sum(size_dict.values())/(1024**3)))
"""
data/下共有【 .txt】的文件【    2】个,占用内存【   0.22】MB
data/下共有【 .zip】的文件【    4】个,占用内存【 411.61】MB
data/下共有【 .jpg】的文件【 4800】个,占用内存【 415.31】MB
总文件数:  【4806】
总内存大小:【0.81】GB

"""

你可能感兴趣的:(机器学习,python)