原地址:http://blog.csdn.net/niuwei22007/article/details/49231271可以查看更多文章
基本的使用情况差不多介绍的差不多了,我也是边学习边写博客,其中难免有很多理解错误的地方或者理解不到位的地方,还请各位博友多多指点。
介绍完了使用,就应该自己动手去实践了,因此,这里再介绍一下实验数据的问题。Keras提供了常用的几种数据集的下载,可以直接拿来用,非常方便。下面我们来看一下。
keras.datasets.cifar10
CIFAR10数据集包含有5万张32*32的训练彩色图,共标记了超过10个分类;还有1万张测试图片。
使用代码:
(X_train, y_train), (X_test, y_test) = cifar10.load_data()
返回: 2个元组
keras.datasets.cifar100
CIFAR100数据集包含有5万张32*32的训练彩色图,共标记了超过100个分类;还有1万张测试图片。
使用代码:
(X_train, y_train), (X_test, y_test) =cifar100.load_data(label_mode='fine')
参数:
返回 : 2个元组
keras.datasets. imdb
IMDB数据集包含有2.5万条电影评论,被标记为积极和消极。影评会经过预处理,把每一条影评编码为一个词索引(数字)sequence。为了方便起见,单词根据在整个数据集中的出现频率大小建立索引,所以”3”就代表在数据中出现频率第三的单词。这样可以快速筛选出想要的结果,比如想要top10000,但是排除top20的单词。
同时约定,”0”不代表特定的单词,而是代表一些未知词。
使用代码:
(X_train, y_train),(X_test, y_test) = imdb.load_data(path="imdb.pkl",nb_words=None, skip_top=0, maxlen=None, test_split=0.1, seed=113)
参数:
返回 : 2个元组
keras.datasets. reuters
数据集包含有来自于路透社的11228条新闻数据,被标记了超过46个分类。和IMDB数据集一样,每一条数据被编码为一条索引序列。
使用代码:
(X_train, y_train),(X_test, y_test) = reuters.load_data(path="reuters.pkl",nb_words=None, skip_top=0, maxlen=None, test_split=0.1, seed=113)
使用说明同IMDB。
该数据集可以通过以下代码获取单词的索引。
word_index = reuters.get_word_index(path="reuters_word_index.pkl")
返回字典实例,键为单词,值为索引。比如,word_index[“giraffe”]会返回1234.
参数path同IMDB。
keras.datasets. mnist
数据集有6万张28*28的灰度图,共分为10类,含1万张测试图。
使用代码:
(X_train, y_train), (X_test, y_test) = mnist.load_data()
返回: 2个元组