将numpy数组存入文件

一、txt或者csv文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pbcWqI5i-1631199734397)(C:\Users\fylal\AppData\Roaming\Typora\typora-user-images\image-20210909230003954.png)]

import numpy as np

a = np.array(range(20)).reshape((4, 5))
print(a)

# 后缀改为 .txt 一样
filename = 'data/a.csv'
# 写文件
np.savetxt(filename, a, fmt='%d', delimiter=',')

# 读文件
b = np.loadtxt(filename, dtype=np.int32, delimiter=',')
print(b)

缺点:

  • 只能保存一维和二维numpy数组,当numpy数组多维时,需要变成二维才能保存
  • 不能追加保存,即每次np.savetxt()都会覆盖之前的内容

二、通过numpy读写npy或npz文件

  • 读写npy文件
numpy.save(file, arr, allow_pickle=True, fix_imports=True)
 
file:文件名/文件路径
arr:要存储的数组
allow_pickle:布尔值,允许使用Python pickles保存对象数组(可选参数,默认即可)
fix_imports:为了方便Pyhton2中读取Python3保存的数据(可选参数,默认即可)
import numpy as np
a=np.array(range(20)).reshape((2,2,5))
print(a)

filename='data/a.npy'     #保存路径
# 写文件
np.save(filename,a)

#读文件
b=np.load(filename)
print(b)
print(b.shape)

优点:

(1)npy文件可以保存任意维度的numpy数组,不限于一维和二维

(2)npy保存了numpy数组的结构,包括shape和dtype

缺点:

(3)只能保存一个numpy数组,每次保存会覆盖掉之前文件中存在的内容

  • 读写npz文件

参数介绍

numpy.savez(file, *args, **kwds)
 
file:文件名/文件路径
*args:要存储的数组,可以写多个,如果没有给数组指定Key,Numpy将默认从'arr_0','arr_1'的方式命名
kwds:(可选参数,默认即可)
import numpy as np

a = np.array(range(20)).reshape((2, 2, 5))
b = np.array(range(20, 44)).reshape(2, 3 ,4)
print('a:\n', a)
print('b:\n', b)

filename = 'data/a.npz'
# 写文件, 如果不指定key,那么默认key为'arr_0'、'arr_1',一直排下去。
np.savez(filename, a, b=b)

# 读文件
c = np.load(filename)
print('keys of NpzFile c:\n', c.keys())
print("c['arr_0']:\n", c['arr_0'])
print("c['b']:\n", c['b'])

更加神奇的是,我们可以不适用Numpy给数组的key,而是自己给数组有意义的key,这样就可以不用去猜测自己加载数据是否是自己需要的。

#数据保存
np.savez('newsave_xy',x=x,y=y)
  
#读取保存的数据
npzfile=np.load('newsave_xy.npz')
  
#按照保存时设定组数key进行访问
npzfile['a']
 npzfile['b']

优点:

(1)npy文件可以保存任意维度的numpy数组;

(2)npy保存了numpy数组的结构;

(3)可以同时保存多个numpy数组

(4)可以指定保存numpy数组的key,读取的时候很方便。

缺点:

(1)保存多个numpy数组时,只能同时保存。

  • 通过h5py读写hdf5文件

    import numpy as np
    import h5py
    
    a = np.array(range(20)).reshape((2, 2, 5))
    b = np.array(range(20)).reshape((1, 4, 5))
    print(a)
    print(b)
    
    filename = 'data/data.h5'
    # 写文件
    h5f = h5py.File(filename, 'w')
    h5f.create_dataset('a', data=a)
    h5f.create_dataset('b', data=b)
    h5f.close()
    
    # 读文件
    h5f = h5py.File(filename, 'r')
    print(type(h5f))
    # 通过切片得到numpy数组
    print(h5f['a'][:])
    print(h5f['b'][:])
    h5f.close()
    

    通过切片幅值

    import numpy as np
    import h5py
    
    a = np.array(range(20)).reshape((2, 2, 5))
    print(a)
    
    filename = 'data/a.h5'
    # 写文件
    h5f = h5py.File(filename, 'w')
    # 当数组a太大,需要切片进行操作时,可以不直接对h5f['a']进行初始化;
    # 当之后不需要改变h5f['a']的shape时,可以省略maxshape参数
    h5f.create_dataset('a', shape=(2, 2, 5), maxshape=(None, 2, 5), dtype=np.int32, compression='gzip')
    for i in range(2):
        # 采用切片的形式赋值
        h5f['a'][i] = a[i]
    h5f.close()
    
    # 读文件
    h5f = h5py.File(filename, 'r')
    print(type(h5f))
    print(h5f['a'])
    # 通过切片得到numpy数组
    print(h5f['a'][:])
    

    (1)不限 numpy 数组维度,可以保持 numpy 数组结构和数据类型;

    (2)适合 numpy 数组很大的情况,文件占用空间小;

    (3)可以通过 key 来访问 dataset(可以理解为 numpy.array),读取的时候很方便,不会混乱。

    (4)可以不覆盖原文件中含有的内容。

三、总结

  • csv 和 txt 只能用来存一维或二维 numpy 数组;
  • npy 用来存单个 numpy 数组,npz 可以同时存多个 numpy 数组,两者都不限 numpy 维度,且都保持 numpy 数组的 shape 和 dtype,写文件时若原文件存在只能覆盖原文件内容;
  • 当 numpy 数组很大时,最好使用 hdf5 文件,hdf5 文件相对更小;
  • 当 numpy 数组很大时,对整个 numpy 数组进行运算容易发生 MemoryError,那么此时可以选择对 numpy 数组切片,将运算后的数组保存到 hdf5 文件中,hdf5 文件支持切片索引。

参考:

10914932.html

9722794.html

你可能感兴趣的:(数据预处理,python)