开源标准数据集 —— mnist(手写字符识别)

下载地址:mnist.pkl.gz


开源标准数据集 —— mnist(手写字符识别)_第1张图片

使用 python 读取和解析 mnist.pkl.gz

import pickle
import gzip

def load_data():
    with gzip.open('./mnist.pkl.gz') as fp:
        training_data, valid_data, test_data = pickle.load(fp)
    return training_data, valid_data, test_data

可以看出,mnist.pkl.gz 分为训练集,校验集和测试集:

>> training_data, valid_data, test_data = load_data()
            # training_data, valid_data, test_data 均是二元 tuple
            # tuple of ndarray:feature and label
>> len(training_data[0])
50000
>> len(valid_data[0])
10000
>> len(test_data[0])
10000

>> len(training_data[0][0])
784
        # 784 = 28*28

使用 PIL 中的图像相关 api,我们可对其中的图像显示出来:

from PIL import Image
I = training_data[0][0]
I.resize((28, 28))
im = Image.fromarray((I*256).astype('uint8'))
im.show()


这里写图片描述

我们也可使用 数据集可视化——tile(”贴砖”) 对数据做更充分的展示。

你可能感兴趣的:(机器学习)