legotime

SparkML之回归(一)线性回归

----------------------------目录-----------------------------------------------------------------------

线性回归理论

spark源码

Spark实验

-------------------------------------------------------一元线性回归-------------------------------------------------------------------------

模型

反应一个因变量与一个自变量之间的线性关系，一元线性回归模型如下：

（1）

其中：

、：回归系数

：自变量

：因变量

：随机误差，一般假设服从

那么可以得到结论就是：服从

若我们之前对 (,)进行了 n次观测，那么就可以得到如下，一系列的数据

为(1,2,...n)

那么把這些数值，带入(1)公式，那么就有 n个包含、方程，大家知道当要确定n个参数的时候，满秩的情况下，只要n个方程就就可以确定了，那么如何根据历史的观测数据来选择，来选择最佳的、，只要把、确定了，那么我们随便输入一个，就可以得到一个，那么选择一个"未来"的,就可以计算一个"未来"的,那么就达到了预测效果

普通最小二乘法

那么什么才是最佳的、，最小二乘法的思想就是把决定后的方程，代入参数使得方差最小，就是最佳的。我们把全部的方差记为:

那么现在就是计算关于参数、的极小值，当关于参数、的偏导为0的时候，那么取到极值

对其进行整理，得到如下：

那么可以直接计算出：

当自变量x多的时候，就很难直接计算、、....、，那么就必须用克拉姆法则（Cramer's Rule）计算，

其中，、、、是、、....、的最小二乘估计。

拟合效果分析

1、残差的样本方差

残差: （i = 1，2，...n）

残差的样本均值：

那么残差的样本方差:

其中n-2是自由度，因为有和约束，所以自由度减2（残差之间相互独立，残差和自变量x相互独立），如果我们的拟合方程：解释因变量越强，那么MSE是越小。你会发现：

这个MSE就是总体回归模型中方差的无偏估计量。

那么它的标准差：

2、判定系数（R）

我们从新考虑我们的样本回归函数：

因为我们的解释变量的平均值,一定会经过我们的样本回归函数，下面证明：

两边进行平方之后再加总，然后除以样本容量n：

其中，，得到：

下面结合图像进行说明：

结合图像，我们可以得到下面方程：

两边平方之后，进行加总，得到：

:样本观测值和其平均值的离差平方和，自由度为n-1

:拟合直线可解释部分的平方和，自由度为1

:样本的观测值和估计值之差的平方，既残差平方和，自由度为n-2

缩写全拼（采用国外教材的缩写方式）：

Total sum of squares（SST）：总离差平方和

Residual sum of squares (SSR)：残差平方和

explained sum of squares(SSE):回归平方和（国人根据实际意义自己命名的？）

所以我们有：

那么对于我们真正解释了的部分和总体的比值（用表示）：

当时，也就是SSR = SSE,那么就是说原始数据完全可以拟合值来解释，此时SSR = 0，那么拟合非常完美

一般。

SSR很好计算，就是样本的实际观察值与估计值差的平方，所以用SSR去计算R

显著性检验

当你拟合好参数的时候，你要去评定一个這样的一个模型对于我们想要解释的问题是否显著(只有R是不够的)，

如果不显著那么就需要换其他模型方法了。对于其中检验的方法有F检验和T检验，本文重点是SparkMlib下的线性回归，本节只是一个铺垫，所以具体如何检验，就不赘述了。

-------------------------------------------------------多元线性回归----------------------------------------------------------------------------

模型

反应多个因变量与一个自变量之间的线性关系，多元线性回归模型如下：

（2）

其中：，都是与无关的未知参数，是回归系数。

现在得到n个样本数据（）,=1,....,n,其中,那么（2）得到：

（3）

我们可以把（3）写成如下模式：

（4）

其中：

,,,

求解过程和一元线性回归一样，可以得到:

判定系数（R）还是按照一元回归那样求解，当R大于0.8才认为线性关系明显

===================================最小二乘法的缺陷============================

1、只有当X满秩的时候，才可以用最小二乘法。因为在求解的时候的条件：X是满秩的，也就是在决定多个因变量

必须是相互独立的，当如果和有关联，可以用表示，那么X就不是满秩的

此时用最小二乘法就是错误的，因为X是不可逆的

2、最小二乘的复杂度高，在处理大规模数据的时候，耗时长。

--------------------------------------------------------------------梯度下降法-------------------------------------------------------------------

由于最小二乘法在求解时，存在局限，所以在计算机领域一般采用梯度下降法，来近似求解

为了与文献2的符号一致，所以放弃前面用过的符号，采用文献2中的符号。现在直接从多元线性回归开始

线性方程：

我们让,那么方程变为：

若我们之前对 (,)进行了 m次观测，那么就可以得到如下，一系列的数据

为(1,2,...m),按照前面的思路，我们来计算“相差”多少,既所说的cost function：

（小插曲：不知道为什么有很多人把上面的m给省略了，在andrew NG课程中和Spark源码理解中都有这个m

其实加上m更能体现问题）

也就说让最小。如果用之前的最小二乘法，那么就是，让对求偏导，让等式都等于0，建立方程，联合求解：

我们知道最小二乘法的弊端，所以采用梯度下降法来求解最优的:

其中是学习效率，而且迭代的初始值设置为n+1列的零向量，然后一直迭代，直到收敛为止。

当样本很大的时候，如果迭代次数很大，那么我们会选择一部分样本进行对的更新计算。

更多细节，请看：http://blog.csdn.net/legotime/article/details/51277141

-------------------------------------------------------------------------------------------------------------------------------------------------

Spark源码

package org.apache.spark.mllib.regression包含了两个部分：LinearRegressionModel和LinearRegressionWithSGD

1、回归的模型（class和object），class 的参数是继承GeneralizedLinearModel广义回归模型，之后形成一个完整的

线性回归模型，object上面的方法用于导出已经保存的模型进行回归

2、LinearRegressionWithSGD：随机梯度下降法，cost function：f(weights) = 1/n ||A weights-y||^2也就是前面

记住这个还是加上m更能体现问题，（除以m表示均方误差）

LinearRegressionWithSGD是继承GeneralizedLinearAlgorithm[LinearRegressionModel]广义回归类

1、回归模型源码如下

/**
 * Regression model trained using LinearRegression.
 *
 * @param weights Weights computed for every feature.(每个特征的权重向量)
 * @param intercept Intercept computed for this model.（此模型的偏置或残差）
 *
 */
@Since("0.8.0")
class LinearRegressionModel @Since("1.1.0") (
    @Since("1.0.0") override val weights: Vector,
    @Since("0.8.0") override val intercept: Double)
  extends GeneralizedLinearModel(weights, intercept) with RegressionModel with Serializable
  with Saveable with PMMLExportable {

  //进行预测:Y = W*X+intercept
  override protected def predictPoint(
      dataMatrix: Vector,
      weightMatrix: Vector,
      intercept: Double): Double = {
    weightMatrix.toBreeze.dot(dataMatrix.toBreeze) + intercept
  }
  //模型保存包含：保存的位置，名字，权重和偏置
  @Since("1.3.0")
  override def save(sc: SparkContext, path: String): Unit = {
    GLMRegressionModel.SaveLoadV1_0.save(sc, path, this.getClass.getName, weights, intercept)
  }

  override protected def formatVersion: String = "1.0"
}
//加载上面保存和的模型，用load（sc,存储路径）
@Since("1.3.0")
object LinearRegressionModel extends Loader[LinearRegressionModel] {

  @Since("1.3.0")
  override def load(sc: SparkContext, path: String): LinearRegressionModel = {
    val (loadedClassName, version, metadata) = Loader.loadMetadata(sc, path)
    // Hard-code class name string in case it changes in the future
    val classNameV1_0 = "org.apache.spark.mllib.regression.LinearRegressionModel"
    (loadedClassName, version) match {
      case (className, "1.0") if className == classNameV1_0 =>
        val numFeatures = RegressionModel.getNumFeatures(metadata)
        val data = GLMRegressionModel.SaveLoadV1_0.loadData(sc, path, classNameV1_0, numFeatures)
        new LinearRegressionModel(data.weights, data.intercept)
      case _ => throw new Exception(
        s"LinearRegressionModel.load did not recognize model with (className, format version):" +
        s"($loadedClassName, $version).  Supported:\n" +
        s"  ($classNameV1_0, 1.0)")
    }
  }
}

2、LinearRegressionWithSGD类，该类是基于无正规化的随机梯度下降，而且是继承GeneralizedLinearAlgorithm[LinearRegressionModel]广义回归类

/**
 * Train a linear regression model with no regularization using Stochastic Gradient Descent.
 * This solves the least squares regression formulation
 *              f(weights) = 1/n ||A weights-y||^2^
 * (which is the mean squared error).
 * Here the data matrix has n rows, and the input RDD holds the set of rows of A, each with
 * its corresponding right hand side label y.
 * See also the documentation for the precise formulation.
 */
@Since("0.8.0")
class LinearRegressionWithSGD private[mllib] (
    private var stepSize: Double,//步长
    private var numIterations: Int,//迭代次数
    private var miniBatchFraction: Double)//参与迭代样本的比列
  extends GeneralizedLinearAlgorithm[LinearRegressionModel] with Serializable {

  private val gradient = new LeastSquaresGradient()  //阅读:3
  private val updater = new SimpleUpdater()  //阅读：4
  @Since("0.8.0")
  override val optimizer = new GradientDescent(gradient, updater) //阅读：5
    .setStepSize(stepSize)
    .setNumIterations(numIterations)
    .setMiniBatchFraction(miniBatchFraction)

  /**
   * Construct a LinearRegression object with default parameters: {stepSize: 1.0,
   * numIterations: 100, miniBatchFraction: 1.0}.
   */
  @Since("0.8.0")
  def this() = this(1.0, 100, 1.0) 

  override protected[mllib] def createModel(weights: Vector, intercept: Double) = {
    new LinearRegressionModel(weights, intercept)
  }
}

/**
 * Top-level methods for calling LinearRegression.
 *
 */
@Since("0.8.0")
object LinearRegressionWithSGD {

  /**
   * Train a Linear Regression model given an RDD of (label, features) pairs. We run a fixed number
   * of iterations of gradient descent using the specified step size. Each iteration uses
   * `miniBatchFraction` fraction of the data to calculate a stochastic gradient. The weights used
   * in gradient descent are initialized using the initial weights provided.
   *
   * @param input RDD of (label, array of features) pairs. Each pair describes a row of the data
   *              matrix A as well as the corresponding right hand side label y
   * @param numIterations Number of iterations of gradient descent to run.
   * @param stepSize Step size to be used for each iteration of gradient descent.
   * @param miniBatchFraction Fraction of data to be used per iteration.
   * @param initialWeights Initial set of weights to be used. Array should be equal in size to
   *        the number of features in the data.
   *
   */
  @Since("1.0.0")
  def train(
      input: RDD[LabeledPoint],
      numIterations: Int,
      stepSize: Double,
      miniBatchFraction: Double,
      initialWeights: Vector): LinearRegressionModel = {
    new LinearRegressionWithSGD(stepSize, numIterations, miniBatchFraction)
      .run(input, initialWeights)
  }

  /**
   * Train a LinearRegression model given an RDD of (label, features) pairs. We run a fixed number
   * of iterations of gradient descent using the specified step size. Each iteration uses
   * `miniBatchFraction` fraction of the data to calculate a stochastic gradient.
   *
   * @param input RDD of (label, array of features) pairs. Each pair describes a row of the data
   *              matrix A as well as the corresponding right hand side label y
   * @param numIterations Number of iterations of gradient descent to run.
   * @param stepSize Step size to be used for each iteration of gradient descent.
   * @param miniBatchFraction Fraction of data to be used per iteration.
   *
   */
  @Since("0.8.0")
  def train(
      input: RDD[LabeledPoint],
      numIterations: Int,
      stepSize: Double,
      miniBatchFraction: Double): LinearRegressionModel = {
    new LinearRegressionWithSGD(stepSize, numIterations, miniBatchFraction).run(input)
  }

  /**
   * Train a LinearRegression model given an RDD of (label, features) pairs. We run a fixed number
   * of iterations of gradient descent using the specified step size. We use the entire data set to
   * compute the true gradient in each iteration.
   *
   * @param input RDD of (label, array of features) pairs. Each pair describes a row of the data
   *              matrix A as well as the corresponding right hand side label y
   * @param stepSize Step size to be used for each iteration of Gradient Descent.
   * @param numIterations Number of iterations of gradient descent to run.
   * @return a LinearRegressionModel which has the weights and offset from training.
   *
   */
  @Since("0.8.0")
  def train(
      input: RDD[LabeledPoint],
      numIterations: Int,
      stepSize: Double): LinearRegressionModel = {
    train(input, numIterations, stepSize, 1.0)
  }

  /**
   * Train a LinearRegression model given an RDD of (label, features) pairs. We run a fixed number
   * of iterations of gradient descent using a step size of 1.0. We use the entire data set to
   * compute the true gradient in each iteration.
   *
   * @param input RDD of (label, array of features) pairs. Each pair describes a row of the data
   *              matrix A as well as the corresponding right hand side label y
   * @param numIterations Number of iterations of gradient descent to run.
   * @return a LinearRegressionModel which has the weights and offset from training.
   *
   */
  @Since("0.8.0")
  def train(
      input: RDD[LabeledPoint],
      numIterations: Int): LinearRegressionModel = {
    train(input, numIterations, 1.0, 1.0)
  }
}

3、最小平方梯度，首先联系我们的代价（损失）函数，如下：

损失函数源码标记为：L = 1/2n ||A weights-y||^2

每个样本的梯度值：

每个样本的误差值：

第一个compute返回的是 ,第二个compute返回的是

class LeastSquaresGradient extends Gradient {
  override def compute(data: Vector, label: Double, weights: Vector): (Vector, Double) = {
    val diff = dot(data, weights) - label
    val loss = diff * diff / 2.0//误差
    val gradient = data.copy
    scal(diff, gradient)////梯度值x*(y-h(x))
    (gradient, loss)
  }

  override def compute(
      data: Vector,
      label: Double,
      weights: Vector,
      cumGradient: Vector): Double = {
    val diff = dot(data, weights) - label//h(x)-y
    axpy(diff, data, cumGradient)//y = x*(h(x)-y)+cumGradient
    /**axpy用法：
      * Computes y += x * a, possibly doing less work than actually doing that operation
      *  def axpy[A, X, Y](a: A, x: X, y: Y)(implicit axpy: CanAxpy[A, X, Y]) { axpy(a,x,y) }
      */
    diff * diff / 2.0
  }
}

4、权重更新（SimpleUpdater）,更新公式如下：

返回的时候偏置项设置为0了

class SimpleUpdater extends Updater {
  override def compute(
      weightsOld: Vector,//上一次计算后的权重向量
      gradient: Vector,//本次迭代的权重向量
      stepSize: Double,//步长
      iter: Int,//当前迭代次数
      regParam: Double): (Vector, Double) = {
    val thisIterStepSize = stepSize / math.sqrt(iter)//学习速率  a
    val brzWeights: BV[Double] = weightsOld.toBreeze.toDenseVector
    brzAxpy(-thisIterStepSize, gradient.toBreeze, brzWeights)
    //brzWeights + = gradient.toBreeze-thisIterStepSize

    (Vectors.fromBreeze(brzWeights), 0)
  }
}

5权重优化

权重优化采用的是随机梯度降，但是默认的是miniBatchFraction= 1.0。

/**
 * Class used to solve an optimization problem using Gradient Descent.
 * @param gradient Gradient function to be used.
 * @param updater Updater to be used to update weights after every iteration.
 */
class GradientDescent private[spark] (private var gradient: Gradient, private var updater: Updater)
  extends Optimizer with Logging {

  private var stepSize: Double = 1.0
  private var numIterations: Int = 100
  private var regParam: Double = 0.0
  private var miniBatchFraction: Double = 1.0
  private var convergenceTol: Double = 0.001//收敛公差

  /**
   * Set the initial step size of SGD for the first step. Default 1.0.
   * In subsequent steps, the step size will decrease with stepSize/sqrt(t)
   */
  def setStepSize(step: Double): this.type = {
    this.stepSize = step
    this
  }

  /**
   * :: Experimental ::
   * Set fraction of data to be used for each SGD iteration.
   * Default 1.0 (corresponding to deterministic/classical gradient descent)
   */
  @Experimental
  def setMiniBatchFraction(fraction: Double): this.type = {
    this.miniBatchFraction = fraction
    this
  }

  /**
   * Set the number of iterations for SGD. Default 100.
   */
  def setNumIterations(iters: Int): this.type = {
    this.numIterations = iters
    this
  }

  /**
   * Set the regularization parameter. Default 0.0.
   */
  def setRegParam(regParam: Double): this.type = {
    this.regParam = regParam
    this
  }

  /**
   * Set the convergence tolerance. Default 0.001
   * convergenceTol is a condition which decides iteration termination.
   * The end of iteration is decided based on below logic.
   *
   *  - If the norm of the new solution vector is >1, the diff of solution vectors
   *    is compared to relative tolerance which means normalizing by the norm of
   *    the new solution vector.
   *  - If the norm of the new solution vector is <=1, the diff of solution vectors
   *    is compared to absolute tolerance which is not normalizing.
   *
   * Must be between 0.0 and 1.0 inclusively.
   */
  def setConvergenceTol(tolerance: Double): this.type = {
    require(0.0 <= tolerance && tolerance <= 1.0)
    this.convergenceTol = tolerance
    this
  }

  /**
   * Set the gradient function (of the loss function of one single data example)
   * to be used for SGD.
   */
  def setGradient(gradient: Gradient): this.type = {
    this.gradient = gradient
    this
  }


  /**
   * Set the updater function to actually perform a gradient step in a given direction.
   * The updater is responsible to perform the update from the regularization term as well,
   * and therefore determines what kind or regularization is used, if any.
   */
  def setUpdater(updater: Updater): this.type = {
    this.updater = updater
    this
  }

  /**
   * :: DeveloperApi ::
   * Runs gradient descent on the given training data.
   * @param data training data
   * @param initialWeights initial weights
   * @return solution vector
   */
  @DeveloperApi
  def optimize(data: RDD[(Double, Vector)], initialWeights: Vector): Vector = {
    val (weights, _) = GradientDescent.runMiniBatchSGD(
      data,
      gradient,
      updater,
      stepSize,
      numIterations,
      regParam,
      miniBatchFraction,
      initialWeights,
      convergenceTol)
    weights
  }

}

/**
 * :: DeveloperApi ::
 * Top-level method to run gradient descent.
 */
@DeveloperApi
object GradientDescent extends Logging {
  /**
   * Run stochastic gradient descent (SGD) in parallel using mini batches.
   * In each iteration, we sample a subset (fraction miniBatchFraction) of the total data
   * in order to compute a gradient estimate.
   * Sampling, and averaging the subgradients over this subset is performed using one standard
   * spark map-reduce in each iteration.
   *
   * @param data Input data for SGD. RDD of the set of data examples, each of
   *             the form (label, [feature values]).
   * @param gradient Gradient object (used to compute the gradient of the loss function of
   *                 one single data example)
   * @param updater Updater function to actually perform a gradient step in a given direction.
   * @param stepSize initial step size for the first step
   * @param numIterations number of iterations that SGD should be run.
   * @param regParam regularization parameter
   * @param miniBatchFraction fraction of the input data set that should be used for
   *                          one iteration of SGD. Default value 1.0.
   * @param convergenceTol Minibatch iteration will end before numIterations if the relative
   *                       difference between the current weight and the previous weight is less
   *                       than this value. In measuring convergence, L2 norm is calculated.
   *                       Default value 0.001. Must be between 0.0 and 1.0 inclusively.
   * @return A tuple containing two elements. The first element is a column matrix containing
   *         weights for every feature, and the second element is an array containing the
   *         stochastic loss computed for every iteration.
   */
  def runMiniBatchSGD(
      data: RDD[(Double, Vector)],
      gradient: Gradient,
      updater: Updater,
      stepSize: Double,
      numIterations: Int,
      regParam: Double,
      miniBatchFraction: Double,
      initialWeights: Vector,
      convergenceTol: Double): (Vector, Array[Double]) = {

    // convergenceTol should be set with non minibatch settings
    if (miniBatchFraction < 1.0 && convergenceTol > 0.0) {
      logWarning("Testing against a convergenceTol when using miniBatchFraction " +
        "< 1.0 can be unstable because of the stochasticity in sampling.")
    }
    //把历史的权重放在一个数组中
    val stochasticLossHistory = new ArrayBuffer[Double](numIterations)
    // Record previous weight and current one to calculate solution vector difference
    //初始化权重
    var previousWeights: Option[Vector] = None
    var currentWeights: Option[Vector] = None
    //训练的样本数
    val numExamples = data.count()

    // if no data, return initial weights to avoid NaNs
    if (numExamples == 0) {
      logWarning("GradientDescent.runMiniBatchSGD returning initial weights, no data found")
      return (initialWeights, stochasticLossHistory.toArray)
    }

    if (numExamples * miniBatchFraction < 1) {
      logWarning("The miniBatchFraction is too small")
    }

    // Initialize weights as a column vector
    var weights = Vectors.dense(initialWeights.toArray)
    val n = weights.size

    /**
     * For the first iteration, the regVal will be initialized as sum of weight squares
     * if it's L2 updater; for L1 updater, the same logic is followed.
     */
    var regVal = updater.compute(
      weights, Vectors.zeros(weights.size), 0, 1, regParam)._2

    var converged = false // indicates whether converged based on convergenceTol判断是否收敛
    var i = 1
    while (!converged && i <= numIterations) {
      //广播weights
      val bcWeights = data.context.broadcast(weights)

      // Sample a subset (fraction miniBatchFraction) of the total data
      // compute and sum up the subgradients on this subset (this is one map-reduce)
      val (gradientSum, lossSum, miniBatchSize) = data.sample(false, miniBatchFraction, 42 + i)
        .treeAggregate((BDV.zeros[Double](n), 0.0, 0L))(
          seqOp = (c, v) => {
            // c: (grad, loss, count), v: (label, features)
            val l = gradient.compute(v._2, v._1, bcWeights.value, Vectors.fromBreeze(c._1))
            (c._1, c._2 + l, c._3 + 1)
          },
          combOp = (c1, c2) => {
            // c: (grad, loss, count)
            (c1._1 += c2._1, c1._2 + c2._2, c1._3 + c2._3)
          })

      if (miniBatchSize > 0) {
        /**
         * lossSum is computed using the weights from the previous iteration
         * and regVal is the regularization value computed in the previous iteration as well.
         */
        //保存误差，更新权重
        stochasticLossHistory.append(lossSum / miniBatchSize + regVal)
        val update = updater.compute(
          weights, Vectors.fromBreeze(gradientSum / miniBatchSize.toDouble),
          stepSize, i, regParam)
        weights = update._1
        regVal = update._2

        previousWeights = currentWeights
        currentWeights = Some(weights)
        if (previousWeights != None && currentWeights != None) {
          converged = isConverged(previousWeights.get,
            currentWeights.get, convergenceTol)
        }
      } else {
        logWarning(s"Iteration ($i/$numIterations). The size of sampled batch is zero")
      }
      i += 1
    }

    logInfo("GradientDescent.runMiniBatchSGD finished. Last 10 stochastic losses %s".format(
      stochasticLossHistory.takeRight(10).mkString(", ")))
    //返回权重和历史误差数组
    (weights, stochasticLossHistory.toArray)

  }

SparkML实验：

package Regression

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionModel, LinearRegressionWithSGD}
import org.apache.spark.{SparkConf, SparkContext}


object RegressionWithSGD {
  def main(args: Array[String]) {
   val conf = new SparkConf().setAppName("LinearRegressionWithSGDExample").setMaster("local")
    val sc = new SparkContext(conf)

    // Load and parse the data
    val data = sc.textFile("E:\\SparkCore2\\data\\mllib\\ridge-data\\lpsa.data")
    val parsedData = data.map { line =>
      val parts = line.split(',')
      LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble)))
    }
    /**parsedData形式：
      * (-0.4307829,[-1.63735562648104,-2.00621178480549,-1.86242597251066,-1.02470580167082,-0.522940888712441,
      * -0.863171185425945,-1.04215728919298,-0.864466507337306])
      */

    // Building the model
    val numIterations = 100//迭代次数
    val stepSize = 0.00000001//步长
    val model = LinearRegressionWithSGD.train(parsedData, numIterations, stepSize)//训练模型

    // Evaluate model on training examples and compute training error
    val valuesAndPreds = parsedData.map { point =>
      val prediction = model.predict(point.features)
      (point.label, prediction)
    }
    val numCount = valuesAndPreds.count()
    println("The sample count"+numCount)

    val MSE = valuesAndPreds.map{ case(v, p) => math.pow((v - p), 2) }.mean()//残差的样本方差
    println("training Mean Squared Error = " + MSE)
    println("模型的权重"+model.weights)
    println("模型的残差"+model.intercept)

    // Save and load model
    model.save(sc, "E:\\SparkCore2\\data\\mllib\\ridge-data\\scalaLinearRegressionWithSGDModel")
    val sameModel = LinearRegressionModel.load(sc, "E:\\SparkCore2\\data\\mllib\\ridge-data\\scalaLinearRegressionWithSGDModel")

    sc.stop()

    /**
      * The sample count：67
      * training Mean Squared Error = 7.4510328101026
      *模型的权重[1.440209460949548E-8,1.0686674736254139E-8,9.608973495307957E-9,4.553409983798095E-9,1.2221496560765207E-8,8.910773406981891E-9,5.5962085583952E-9,1.2255699128757168E-8]
      *模型的残差0.0
      */

  }
}

参考文献：

1andrew NG线性回归课件：链接：http://pan.baidu.com/s/1bTgHgq 密码：7mbt

你可能感兴趣的:(SparkML)

【SparkML实践7】特征选择器FeatureSelector 周润发的弟弟 Spark机器学习 spark-ml
本节介绍了用于处理特征的算法，大致可以分为以下几组：提取（Extraction）：从“原始”数据中提取特征。转换（Transformation）：缩放、转换或修改特征。选择（Selection）：从更大的特征集中选择一个子集。局部敏感哈希（LocalitySensitiveHashing,LSH）：这类算法结合了特征转换的方面与其他算法。FeatureSelectorsVectorSlicerVe
【SparkML实践5】特征转换FeatureTransformers实战scala版周润发的弟弟 Spark机器学习 spark-ml scala 开发语言
本节介绍了用于处理特征的算法，大致可以分为以下几组：提取（Extraction）：从“原始”数据中提取特征。转换（Transformation）：缩放、转换或修改特征。选择（Selection）：从更大的特征集中选择一个子集。局部敏感哈希（LocalitySensitiveHashing,LSH）：这类算法结合了特征转换的方面与其他算法。本章节主要讲转换1FeatureTransformersTo
【SparkML实践4】Pipeline实战scala版周润发的弟弟 Spark机器学习 spark-ml scala 开发语言
Pipeline中的主要概念MLlib标准化了机器学习算法的API，使得将多个算法组合成单一的管道或工作流程变得更加容易。本节介绍了PipelinesAPI引入的关键概念，其中管道的概念主要受到scikit-learn项目的启发。DataFrame：这个机器学习API使用来自SparkSQL的DataFrame作为机器学习数据集，它可以包含多种数据类型。例如，一个DataFrame可以有不同的列存
【SparkML系列3】特征提取器TF-IDF、Word2Vec和CountVectorizer 周润发的弟弟 spark-ml tf-idf word2vec
本节介绍了用于处理特征的算法，大致可以分为以下几组：提取（Extraction）：从“原始”数据中提取特征。转换（Transformation）：缩放、转换或修改特征。选择（Selection）：从更大的特征集中选择一个子集。局部敏感哈希（LocalitySensitiveHashing,LSH）：这类算法结合了特征转换的方面与其他算法。###FeatureExtractors（特征提取器）###
【SparkML系列2】DataSource读取图片数据周润发的弟弟 Spark机器学习 spark-ml
DataSource(数据源)在本节中，我们将介绍如何在机器学习中使用数据源加载数据。除了一些通用的数据源，如Parquet、CSV、JSON和JDBC外，我们还提供了一些专门用于机器学习的数据源。###Imagedatasource（图像数据源）该图像数据源用于从目录加载图像文件，它可以通过Java库中的ImageIO加载压缩图像（jpeg、png等）到原始图像表示。加载的DataFrame有一
【SparkML系列1】相关性、卡方检验和概述器实现周润发的弟弟 Spark机器学习 spark-ml
Correlation(相关性)计算两组数据之间的相关性在统计学中是一种常见的操作。在spark.ml中，我们提供了计算多组数据之间成对相关性的灵活性。目前支持的相关性方法是皮尔逊（Pearson）相关系数和斯皮尔曼（Spearman）相关系数。相关性计算使用指定的方法为输入的向量数据集计算相关性矩阵。输出将是一个数据框，其中包含向量列的相关性矩阵。importorg.apache.spark.m
SparkML program chef #3计算Spark spark-ml
SparkMLSparkML_lr_train：读取py处理后的train表用于训练，将训练模型保存好。SparkML_lr_predict：读取训练好的模型，读取py处理后的test表用于预测。将预测结果写入normal_data中，根据id修改stream_is_normal的值。提交spark任务bin/spark-submit\--classSparkML_lr_train\--maste
Spark学习之路——9.Spark ML Nelson_hehe Spark Spark ML
一、简介基于RDD的APIspark.mllib已进入维护模式。SparkML是SparkMLlib的一种新的API，它有下面的优点：1.面向DataFrame，基于RDD进一步封装，拥有功能更多的API2.具有Pipeline功能，可以实现复杂的机器学习模型3.性能得到提升二、MLPipeline一个pipeline在结构上会包含一个或多个Stage，每一个Stage都会完成一个任务，如数据集处
大数据系列之Spark集群环境部署 solihawk 大数据系列 #spark 大数据 spark
Spark作为一种大数据分布式计算框架，已经构建SparkStreaming、SparkSQL、SparkML等组件，与文件系统HDFS、资源调度YARN一起，构建了Spark生态体系，如下图所示：以下部分将主要介绍Hadoop和Spark两节点集群环境部署，并结合官方示例程序验证Spark作业提交的几种模式。1、环境准备1.1Java环境查看Java版本信息，如找不到JAVA命令，可通过yumi
sklearn中的fit/transform/fit_transform 王金松
对于fit和transform，sklearn和sparkml都存在，fit可以翻译为拟合，transform翻译为转换fit:拟合出模型，输入为dataframe或者数据，输出为拟合出的模型transform转换，输入和输出一致，相当于把一种数据转换为另一种数据，一般用于特征抽取和转换，通常会转换为向量，比如正则化/统一化fit_transform:fit+transform
《Spark大数据分析》一书的书评和采访 H_MZ scala 运维数据库
\主要结论\\了解如何将ApacheSpark用于不同类型的大数据分析用例，例如批处理、互操作、图表、数据流分析，以及机器学习。\\t了解SparkCore及加载项库，包括SparkSQL、SparkStreaming、GraphX、Mllib和SparkML。\\t了解开发者在项目中使用Spark时可能需要用到的开发和测试工具。\\tSpark程序性能和调优最佳实践。\\t了解Spark在集群设
PySpark 线性回归 ROBOT玲玉机器学习算法 spark-ml
SparkML简介SparkML是Spark提供的一个机器学习库，用于构建和训练机器学习模型。它提供了一系列常用的机器学习算法和工具，包括分类、回归、聚类、模型评估等。我们可以使用PySpark中的SparkML来训练和评估我们的机器学习模型。模型训练在使用PySpark进行模型训练之前，我们首先需要准备数据集。Spark支持多种数据源，包括文本文件、CSV文件、Parquet文件等等。我们可以使
SparkML机器学习火玄 spark spark-ml 机器学习人工智能
SparkML机器学习:让机器学会人的学习行为,通过算法和数据来模拟或实现人类的学习行为，使之不断改善自身性能。机器学习的步骤:加载数据特征工程数据筛选:选取适合训练的特征列,例如用户id就不适合,因为它特性太显著.数据转化:将字符串的数据转化数据类型,因为模型训练的数据不能为字符串.将多个特征列转化为一个向量列,因为spark机器学习要求数据输入只能为一个特征列数据缩放:把所有的特征缩放到0~1
计算机毕业设计全网首发Python+Spark招聘爬虫可视化系统招聘数据分析 Hadoop职位可视化大数据毕业设计 51job数据分析(可选加推荐算法) 计算机毕业设计大神
开发技术Hadoop、HDFS、Spark、SpringBoot、echarts、PySpark、Python、MySQL创新点大数据架构、爬虫、数据可视化啰里啰嗦适合大数据毕业设计、数据分析、爬虫类计算机毕业设计可二次开发选加推荐算法(协同过滤算法等或者调用SparkML库)数据处理流程本环节主要讲述的是对于整体项目功能的设计，设计方案为主要是由大数据系统以及可视化前端子系统组成。在可视化前端子
5.Spark 学习成果转化—机器学习—使用Spark ML的线性回归来预测商品销量 (线性回归问题) 页川叶川 Spark 学习成果转化 spark scala big data
本文目录如下：第5例使用SparkML的线性回归来预测商品销量5.1数据准备5.1.1数据集文件准备5.1.2数据集字段解释(按列来划分)5.2使用SparkML实现代码5.2.1引入项目依赖5.2.2加载并解析数据5.2.3对DtaFrame中的数据进行筛选与处理5.2.4将特征列合并为特征向量5.2.5创建测试集和训练集5.2.6设置回归参数和正则化参数5.2.7生成训练模型并对测试集进行预测
机器学习---聚类算法总览 qq_38142901 机器学习算法聚类机器学习算法
聚类算法总览参考资料k-means:本人文章sparkml聚类算法谱聚类：https://blog.csdn.net/wangqianqianya/article/details/103482708LDA:https://blog.csdn.net/worryabout/article/details/79792835均值漂移：https://www.cnblogs.com/xfzhang/p/7
spark-mongodb简单上手 Josen_Qu
Spark提供的所有计算，不管是批处理，SparkSQL，SparkStreaming还是SparkML，它们底层都是通过RDD计算。所以这里就以RDD方式简单上手。首先认识一下RDD：RDD（ResilientDistributedDataset）是Spark最基础核心的概念，它表示可分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。RDD可以缓存到内存或磁盘中，每
SparkML预测PV 易企秀工程师
背景公司需要根据过去一段时间内每天网站的流量数据，预测未来一段时间每日流量，这样，在流量高峰到来前，可以提前警示相关的运营、运维提前准备。这是个典型的“时序预测问题”，关于时序预测的方法有很多，有规则法、机器学习、传统建模法等等。本文主要讲述机器学习的方式。由于工作中主要用的是Spark技术栈处理数据，所以这里也选用SparkML来解决。当然，机器学习的包和库又很多，完全可以用sklearn来做。
从开发、数据分析等多角度系统深度讲解Spark核心技术与高级应用笑起来真好看LQQ
前言Spark核心技术与高级应用是Spark领域少有的专注于核心原理与深度应用的著作，由科大讯飞和百分点科技的4位大数据专家撰写。不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识，而且还深度讲解了SparkSQL、SparkML、SparkStreaming等大量内部模块和周边模块的原理与使用。除此之外，还从管理和性能优化的角度对Spark进行了深入探索。本书特色从适合读者阅读
SparkML（三）北极光。大数据 #SparkML 机器学习 spark 分类算法
分类逻辑回归在spark官方文档中，逻辑回归又分为二项式逻辑回归和多项式逻辑回归。逻辑回归本质是线性回归，只是在特征到结果的过程上加上了一层映射。即首先需要把特征进行求和，然后将求和后的结果应用于一个g(z)函数,g(z)可以将值映射到0或者是1上面，这个函数就是Sigmoid函数，默认分类的值是0.5，超过0.5则类别为1，小于0.5类别为0。如下图例子importorg.apache.spar
SparkML（四）北极光。大数据 #SparkML 机器学习 spark 回归算法
回归回归问题其实就是求解一堆自变量与因变量之间一种几何关系，这种关系可以是线性的就是线性回归，可以是非线性的就是非线性回归。按照自变量的多少有可以分为一元线性回归，多元线性回归。线性回归线性回归，顾名思义拟合出来的预测函数是一条直线，数学表达如下：h(x)=a0+a1x1+a2x2+…+anxn+J(θ)其中h(x)为预测函数，ai(i=1,2,…,n）为估计参数，模型训练的目的就是计算出这些参数
Spark Machine Learning(SparkML):机器学习(部分一) Thomson617 Spark 大数据 spark 机器学习 ml 大数据
机器学习是现阶段实现人工智能应用的主要方法,它广泛应用于机器视觉、语音识别、自然语言处理、数据挖掘等领域。MLlib是ApacheSpark的可伸缩机器学习库。官网地址:[http://spark.apache.org/docs/latest/ml-guide.html]Spark的机器学习(ML)库提供了许多分布式ML算法。这些算法包括特征选取、分类、回归、聚类、推荐等任务。ML还提供了用于构建
SparkML之分类(一)贝叶斯分类 legotime SparkML spark机器学习源码
1.1、贝叶斯定理贝叶斯定理：用来描述两个条件概率之间的关系。比如P(A/B)和P(B/A),那么可以推导：，我们下图进行进行说明：假设：，那么有,,:那么有贝叶斯定理公式：1.2、朴素贝叶斯分类器（NaiveBayesClassifiers）大家知道最为广泛的两个分类模型就是决策树模型和朴素贝叶斯分类模型，前者是对象属性与对象值之间的一种映射关系，后者则是用那个概率最大，那么待分类项就属于哪个类
源码经验分享会计算机毕业设计吊炸天Hadoop+Spark电影推荐系统电影用户画像系统电影可视化电影数据分析电影爬虫电影大数据大数据毕业设计大数据毕设 haochengxu2022 推荐系统机器学习 python数据分析大数据经验分享课程设计
开发技术前端：vue.js、websocket、echarts后端：springboot+mybatis-plus数据库：mysql虚拟机服务器：es、redis、mongodb、kafka、hadoop、spark机器学习/深度学习：SparkML包、协同过滤算法、ALS、基于隐语义模型的推荐算法、LFM等10种推荐算法数据集/爬虫：scrapy爬取豆瓣、IMDB等国内外网站创新点推荐算法、短信
分享思路：Python+Spark招聘爬虫可视化系统招聘数据分析 Hadoop职位可视化大数据毕业设计 51job数据分析(可选加推荐算法) haochengxu2022 机器学习爬虫 python数据分析爬虫 python spark 数据分析 hadoop
开发技术Hadoop、HDFS、Spark、SpringBoot、echarts、PySpark、Python、MySQL创新点大数据架构、爬虫、数据可视化啰里啰嗦适合大数据毕业设计、数据分析、爬虫类计算机毕业设计可二次开发选加推荐算法(协同过滤算法等或者调用SparkML库)数据处理流程本环节主要讲述的是对于整体项目功能的设计，设计方案为主要是由大数据系统以及可视化前端子系统组成。在可视化前端子
SparkML（五）北极光。大数据 #SparkML 聚类机器学习 spark
聚类k-means算法k-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据它们的属性分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。k-means算法的基本过程如下所示：任意选择k个初始中心c1,c2,…,ckc{1},c{2},…,c_{k}c1,c2,…,ck。计算X中的每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进
5.Spark ML学习笔记—聚类—Kmeans (K-均值) 聚类算法、LDA 主题聚类算法页川叶川 Spark ML学习笔记 spark kmeans 算法
本文目录如下：第5章SparkML聚类算法5.1基于中心的聚类—Kmeans(K-均值)聚类算法5.1.1K-均值聚类算法主要步骤5.1.2K-均值算法聚类效果演示5.1.3初始化聚类中心点5.1.4Kmeans模型参数详解5.2LDA主题聚类算法第5章SparkML聚类算法问题描述:假设在你的硬盘驱动器上有很多文件夹，里面存放着大量的mp3文件。现在，如果可以构建一个预测模型，从而可以帮助你自动
【大数据】分布式机器学习平台 MachineCYL 大数据机器学习大数据机器学习
记录一下团队之前搭建的分布式机器学习平台。功能展示架构图平台演变前端页面SparkML和sklearn模型训练耗时记录
梯度提升树GBDT模型原理及spark ML实现辰星M 机器学习算法 GBDT Boost spark ML
目录一、GBDT模型原理1.1GB(GradientBoost)算法1.2GBDT模型二、sparkML机器学习库中GBDT使用案例三、GBDT与Boost算法比较四、GBDT与RF比较一、GBDT模型原理1.1GB(GradientBoost)算法GB算法直观理解，将损失函数的负梯度在当前模型的值，当做下个模型训练的目标函数(第3,4步)。沿着损失函数负梯度方向迭代，使得损失函数越来越小，模型偏
Spark 3.0 - 11.ML 随机森林实现二分类实战 BIT_666 Spark 3.0 x 机器学习 Scala spark 随机森林大数据
目录一.引言二.随机森林实战1.数据预处理2.随机森林Pipeline3.模型预测与验证三.总结一.引言之前介绍了决策树，而随机森林则可以看作是多颗决策树的集合。在SparkML中，随机森林中的每一颗树都被分配到不同的节点上进行并行计算，或者在一些特定的条件下，单独的一颗决策树也可以并行化运算，其中每一棵决策树之间没有相关性。随机森林在运行的时候，每当有一个新的数据传输到系统中，都会由随机森林的每
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc