训练的第一步：数据曲线拟合

在本章中，我们将使用 tensorflow.js 拟合曲线的合成数据集。使用一些噪声多项式函数生成的一些数据，我们通过训练模型发现用于生成数据的系数。

阅读本章钱建议先看一下上一章的内容：TensorFlow.js 中的核心概念。

本章以 github 上的 demo 为例，阐述一下实现数据曲线拟合的步骤及思路。

输入数据

我们的合成数据集是由X和Y坐标组成的，如下图绘制在坐标平面：

coefficient.png

这个数据是由多项式方程 y = a * x ^ 3 + b * x ^ 2 + c * x + d 生成的。
我们的任务是找到这个函数的系数:a、b、c和d的值最适合数据。让我们看看如何使用 TensorFlow.j 来找到这些值操作。

第一步：设置变量
首先，让我们创建一些变量，以在模型训练的每一步中保持当前对这些值的最佳估计值。首先，我们要给每个变量分配一个随机数：

const a = tf.variable(tf.scalar(Math.random()));
const b = tf.variable(tf.scalar(Math.random()));
const c = tf.variable(tf.scalar(Math.random()));
const d = tf.variable(tf.scalar(Math.random()));

第二步：创建模型
我们可以通过一系列的加法、乘法、幂运算等数学运算，用多项式方程 y = a * x ^ 3 + b * x ^ 2 + c * x + d 来创建模型，如下代码：
下面的代码构造了一个 predict 方法，它将 x 作为输入并返回 y。

function predict(x) {
  // y = a * x ^ 3 + b * x ^ 2 + c * x + d
  return tf.tidy(() => {
    return a.mul(x.pow(tf.scalar(3))) // a * x^3
      .add(b.mul(x.square())) // + b * x ^ 2
      .add(c.mul(x)) // + c * x
      .add(d); // + d
  });
}

让我们用a、b、c和d的随机值来绘制多项式函数，我们在步骤1中设置。大致图如下：

coefficient2.png

因为我们从随机值开始，我们的函数很可能对数据集拟合不好，模型还没有更好地学习系数值。

第三步：训练模型
我们的最后一步是训练模型学习好值系数。训练我们的模型前，我们需要先做三件事：

1、定义损失函数

一个损失函数，它度量一个给定的多项式与数据的匹配程度。损失值越低，多项式越拟合数据。

对于本章，我们将使用平均平方误差(MSE) 作为我们的损失函数。MSE 的计算方法是将实际的 y 值与我们的数据集中的每个 x 值的预测值之间的差值平方，然后取所有结果项的平均值。
对损失函数做如下定义：

function loss(predictions, labels) {
  // 从预测值中减去实际值，然后取平方值，最后去平均值
  const meanSquareError = predictions.sub(labels).square().mean();
  return meanSquareError;
}

2、设置优化器

设置优化器，它实现了一个算法，根据损失函数的输出来修改我们的系数值。优化器的目标是最小化损失函数的输出值。

对于我们的优化器，我们将使用随机梯度下降(SGD)。SGD的工作原理是利用我们的数据集中的随机点的梯度，并利用其值来告知是否增加或减少模型系数的值。
TensorFlow.js 提供了一个用于执行 SGD 的便利函数，因此你必担心自己会执行所有这些数学操作。tf.train.sdg 作为输入一个期望的学习速率，并返回一个 SGDOptimizer 对象，它可以被调用来优化损失函数的值。
当需要提高期望值时，学习速率的高低控制了模型如何调整。低学习率会使学习过程更慢(需要更多的训练迭代来学习好的系数)，而高的学习速率会加速学习，但可能会导致模型在正确的值周围振荡，总是要矫正。
下面的代码构造了一个学习速率为 0.5 的 SGD 优化器:

const learningRate = 0.5;
const optimizer = tf.train.sgd(learningRate);

3、循环训练模型

循环训练将迭代地运行优化器以减少损失。
现在我们已经定义了损失函数和优化器，我们可以构建一个训练循环，迭代地执行 SGD 以优化模型的系数以最小化损失(MSE)。如下：

function train(xs, ys, numIterations = 75) {

  const learningRate = 0.5;
  const optimizer = tf.train.sgd(learningRate);

  for (let iter = 0; iter < numIterations; iter++) {
    optimizer.minimize(() => {
      const predsYs = predict(xs);
      return loss(predsYs, ys);
    });
  }
}

让我们一步一步地仔细看看代码。首先，我们定义我们的训练函数，以获取数据集的 x 和 y 值，以及指定的迭代次数，作为输入；接下来，我们将定义学习速率和 SGD 优化器；最后，我们为运行 numIterations 训练迭代的循环设置了一个 for 循环。在每次迭代中，我们调用优化器的最小化。
minimize 函数，它做两件事:

它使用我们在第2步中定义的预测模型函数来预测所有 x 值的 y 值(predYs)。
它用我们之前定义的损失函数定义了那些预测的平均平方误差损失。

最小化然后自动调整这个函数使用的任何变量(系数a, b, c 和 d)以最小化返回值(loss)。
在运行我们的训练循环之后，a、b、c和d将包含在75次 SGD 之后的模型所学习的系数值。

结果展示

一旦程序结束运行，我们可以取变量a、b、c和d的最终值，并使用它们绘制曲线:

coefficient3.png

结果比我们最初用随机值计算系数的曲线要好得多。

戳我博客

训练的第一步：数据曲线拟合

输入数据

结果展示

你可能感兴趣的:(训练的第一步：数据曲线拟合)