mnist库是最常用的库,但是有几个不同的版本。
1 https://s3.amazonaws.com/img-datasets/mnist.npz
如果用keras自带的example,会从这个地址下载。但是由于某种原因,下载不下来。
http://blog.csdn.net/jsliuqun/article/details/64444302 这个博客也记录了下载不下来,用其他的方法。
path = get_file(path, origin='https://s3.amazonaws.com/img-datasets/mnist.npz')
f = np.load(path)
x_train, y_train = f['x_train'], f['y_train']
x_test, y_test = f['x_test'], f['y_test']
f.close()
return (x_train, y_train), (x_test, y_test)
2 http://yann.lecun.com/exdb/mnist/
train-images-idx3-ubyte.gz: training set images (9912422 bytes)
train-labels-idx1-ubyte.gz: training set labels (28881 bytes)
t10k-images-idx3-ubyte.gz: test set images (1648877 bytes)
t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes)
这个才是正宗的来源,不过貌似大家都不直接用这个,而是用1或者3的格式。
http://m.blog.csdn.net/sysushui/article/details/53257185 这个文章记录了如何使用这几个库的方法。
3 http://www.deeplearning.net/tutorial/gettingstarted.html
(mnist.pkl.gz)
这个的读取方式是:
import cPickle, gzip, numpy # Load the dataset f = gzip.open('mnist.pkl.gz', 'rb') train_set, valid_set, test_set = cPickle.load(f) f.close()可以看到,读出来的是三个数据集,而不同于上面的读出来是两个数据集
4 mnist.zip
去网上搜索,还有这个压缩包。这个直接打开就是图片,可以清晰看到每个图片的内容和标签。