本指南假定您已经阅读了模型和图层指南。
在TensorFlow.js中,有两种方法来训练机器学习模型:
LayersModel.fit()
或使用Layers API LayersModel.fitDataset()
。Optimizer.minimize()
。首先,我们将研究Layers API,这是用于构建和训练模型的高级API。然后,我们将展示如何使用Core API训练相同的模型。
机器学习模型是一种具有可学习参数的函数,该函数将输入映射到所需输出。通过在数据上训练模型可以获得最佳参数。
培训涉及以下几个步骤:
训练有素的模型将提供从输入到所需输出的准确映射。
让我们使用Layers API定义一个简单的2层模型:
const model = tf.sequential({
layers: [
tf.layers.dense({inputShape: [784], units: 32, activation: 'relu'}),
tf.layers.dense({units: 10, activation: 'softmax'}),
]
});
在内部,模型具有可通过数据训练学习的参数(通常称为权重)。让我们打印与此模型关联的权重的名称及其形状:
model.weights.forEach(w => {
console.log(w.name, w.shape);
});
我们得到以下输出:
> dense_Dense1/kernel [784, 32]
> dense_Dense1/bias [32]
> dense_Dense2/kernel [32, 10]
> dense_Dense2/bias [10]
总共有4个权重,每个密集层2个。这是可以预期的,因为致密层表示一个函数,该函数可通过等式将输入张量映射x
到输出张量y
,y = Ax + b
其中A
(内核)和b
(偏差)是致密层的参数。
注意:默认情况下,密集层包含偏差,但是可以通过
{useBias: false}
在创建密集层时在选项中指定来排除它。
model.summary()
如果您想获得模型概述并查看参数总数,这是一种有用的方法:
层(类型) | 输出形状 | 参数# |
density_Dense1(密集) | [null,32] | 25120 |
density_Dense2(密集) | [null,10] | 330 |
总参数:25450 可训练参数: 25450 非可训练参数:0 |
模型中的每个权重都由一个Variable
对象后端。在TensorFlow.js中,a Variable
是浮点数Tensor
,其中一种assign()
用于更新其值的附加方法。Layers API使用最佳实践自动初始化权重。为了演示起见,我们可以通过调用assign()
基础变量来覆盖权重:
model.weights.forEach(w => {
const newVals = tf.randomNormal(w.shape);
// w.val is an instance of tf.Variable
w.val.assign(newVals);
});
在进行任何培训之前,您需要确定三件事:
'sgd'
或'adam'
),也可以提供Optimizer
该类的实例。'categoricalCrossentropy'
),也可以提供任何采用预测值和真实值并返回损失的函数。请参阅我们的API文档中的可用损失列表。'accuracy'
),也可以提供采用预测值和真实值并返回分数的任何函数。请参阅我们的API文档中的可用指标列表。确定后,LayersModel
通过调用model.compile()
提供的选项来编译a :
model.compile({
optimizer: 'sgd',
loss: 'categoricalCrossentropy',
metrics: ['accuracy']
});
在编译过程中,模型将进行一些验证,以确保您选择的选项彼此兼容。
有两种方法来训练a LayersModel
:
model.fit()
并提供数据作为一个大张量。model.fitDataset()
通过Dataset
对象使用和提供数据。如果您的数据集适合主内存,并且可以作为单个张量使用,则可以通过调用fit()
方法来训练模型:
// Generate dummy data.
const data = tf.randomNormal([100, 784]);
const labels = tf.randomUniform([100, 10]);
function onBatchEnd(batch, logs) {
console.log('Accuracy', logs.acc);
}
// Train for 5 epochs with batch size of 32.
model.fit(data, labels, {
epochs: 5,
batchSize: 32,
callbacks: {onBatchEnd}
}).then(info => {
console.log('Final accuracy', info.history.acc);
});
在幕后,model.fit()
可以为我们做很多事情:
fit()
。batchSize.
optimizer.minimize()
在计算有关数据批次的模型损失时调用。callbacks.onBatchEnd
选项通知我们。其他选项包括:onTrainBegin
,onTrainEnd
,onEpochBegin
,onEpochEnd
和onBatchBegin
。欲了解更多信息,请参阅文件的fit()
。请注意,如果您选择使用Core API,则必须自己实现此逻辑。
如果您的数据不能完全容纳在内存中或正在流式传输中,则可以通过调用fitDataset()
带Dataset
对象的来训练模型。这是相同的训练代码,但具有包装生成器函数的数据集:
function* data() {
for (let i = 0; i < 100; i++) {
// Generate one sample at a time.
yield tf.randomNormal([784]);
}
}
function* labels() {
for (let i = 0; i < 100; i++) {
// Generate one sample at a time.
yield tf.randomUniform([10]);
}
}
const xs = tf.data.generator(data);
const ys = tf.data.generator(labels);
// We zip the data and labels together, shuffle and batch 32 samples at a time.
const ds = tf.data.zip({xs, ys}).shuffle(100 /* bufferSize */).batch(32);
// Train the model for 5 epochs.
model.fitDataset(ds, {epochs: 5}).then(info => {
console.log('Accuracy', info.history.acc);
});
有关数据集的更多信息,请参阅文件的model.fitDataset()
。
训练完模型后,您可以调用model.predict()
对看不见的数据进行预测:
// Predict 3 random samples.
const prediction = model.predict(tf.randomNormal([3, 784]));
prediction.print();
注意:正如我们在“ 模型和层”指南中提到的那样,LayersModel
期望输入的最外部尺寸为批处理大小。在上面的示例中,批次大小为3。
之前,我们提到了在TensorFlow.js中训练机器学习模型的两种方法。
一般的经验法则是尝试首先使用Layers API,因为它是根据广为采用的Keras API建模的。Layers API还提供了各种现成的解决方案,例如权重初始化,模型序列化,监控培训,可移植性和安全性检查。
您可能需要在任何时候使用Core API:
有关此API的更多信息,请阅读“ 模型和层”指南中的“核心API”部分。
与上述使用Core API编写的模型相同,如下所示:
// The weights and biases for the two dense layers.
const w1 = tf.variable(tf.randomNormal([784, 32]));
const b1 = tf.variable(tf.randomNormal([32]));
const w2 = tf.variable(tf.randomNormal([32, 10]));
const b2 = tf.variable(tf.randomNormal([10]));
function model(x) {
return x.matMul(w1).add(b1).relu().matMul(w2).add(b2);
}
除了Layers API外,Data API还可以与Core API无缝协作。让我们重用我们先前在model.fitDataset()部分中定义的数据集,它为我们进行混洗和批处理:
const xs = tf.data.generator(data);
const ys = tf.data.generator(labels);
// Zip the data and labels together, shuffle and batch 32 samples at a time.
const ds = tf.data.zip({xs, ys}).shuffle(100 /* bufferSize */).batch(32);
让我们训练模型:
const optimizer = tf.train.sgd(0.1 /* learningRate */);
// Train for 5 epochs.
for (let epoch = 0; epoch < 5; epoch++) {
await ds.forEachAsync(({xs, ys}) => {
optimizer.minimize(() => {
const predYs = model(xs);
const loss = tf.losses.softmaxCrossEntropy(ys, predYs);
loss.data().then(l => console.log('Loss', l));
return loss;
});
});
console.log('Epoch', epoch);
}
上面的代码是使用Core API训练模型时的标准配方:
Dataset
,dataset.forEachAsync()
是一种方便的循环批处理的方法。optimizer.minimize(f)
来执行f
并最小化其输出。f
计算损失。它使用模型的预测和真实值调用预定义的损失函数之一。