数据集50,000张32x32彩色训练图像,标注超过10个类别,10,000张测试图像。
from keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
数据集50,000张32x32彩色训练图像,标注超过100个类别,10,000张测试图像。
from keras.datasets import cifar100
(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')
返回:
参数:
数据集来自IMDB的2.5万部电影评论,以情绪(正面/负面)标记。评论已被预处理,并且每个评论被编码为一系列词索引(整数)。为了方便起见,词汇通过数据集中的整体频率进行索引,例如整数“3”对数据中第三个最频繁的词进行编码。这允许快速过滤操作,例如:“只考虑前10000个最常用的词,但是排除前20个最常见的词”。
作为惯例,“0”不代表特定的单词,而是用于编码任何未知的单词。
from keras.datasets import imdb
(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
num_words=None,
skip_top=0,
maxlen=None,
seed=113,
start_char=1,
oov_char=2,
index_from=3)
返回:
参数:
'~/.keras/datasets/' + path
),它将被下载到这个位置。oov_char
序列数据中的值出现。oov_char
在序列数据中显示为值)。num_words
或skip_top
限制而被删除的词将被替换为这个字符。来自路透社的11,228条新闻数据集标有46个主题。与IMDB数据集一样,每条线都被编码为一系列字索引(相同的约定)。
from keras.datasets import reuters
(x_train, y_train), (x_test, y_test) = reuters.load_data(path="reuters.npz",
num_words=None,
skip_top=0,
maxlen=None,
test_split=0.2,
seed=113,
start_char=1,
oov_char=2,
index_from=3)
规格与IMDB数据集的规格相同,但增加了:
该数据集还提供了用于编码序列的字索引:
word_index = reuters.get_word_index(path="reuters_word_index.json")
返回:一个字典,其中键是单词(str),值是索引(整数)。例如。word_index["giraffe"]
可能会返回1234
。
参数:
'~/.keras/datasets/' + path
),它将被下载到这个位置。数据集包含10个数字的60,000个28x28灰度图像,以及10,000个图像的测试集。
from keras.datasets import mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
返回:
参数:
'~/.keras/datasets/' + path
),它将被下载到这个位置。数据集包含10个时尚类别的60,000个28x28灰度图像,以及10,000个图像的测试集。这个数据集可以用作MNIST的直接替换。类标签是:
标签 | 描述 |
---|---|
0 | T恤/顶 |
1 | 裤子 |
2 | 拉过来 |
3 | 连衣裙 |
4 | 涂层 |
五 | 檀香 |
6 | 衬衫 |
7 | 运动鞋 |
8 | 袋 |
9 | 脚踝靴 |
from keras.datasets import fashion_mnist
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
数据集取自卡内基梅隆大学维护的StatLib库。
20世纪70年代后期,样本在波士顿郊区的不同位置包含13个房屋属性。目标是一个地点房屋的中位值(单位:k $)。
from keras.datasets import boston_housing
(x_train, y_train), (x_test, y_test) = boston_housing.load_data()
参数:
返回: Numpy数组的元组:(x_train, y_train), (x_test, y_test)
。