stevekangpei

Spark MLlib 源代码解析之逻辑回归LogisticRegression

Spark MLlib 逻辑回归 LogisticRegression

模型

逻辑回归的本质是线性回归，只是在特征到结果的过程上加上了一层映射。即首先需要把特征进行求和，然后将求和后的结果应用于一个g(z)函数。g(z)可以将值映射到0或者是1上面。

逻辑回归和多重线性回归有很多的相似之处。最大的区别是他们的因变量不同。这两个回归也可以统一归为广义线性模型。在spark mllib实现的过程中也是先定义好父类广义线性模型，然后让线性回归和逻辑回归去继承这个类，重新覆盖里面的一些参数，比如说GradientDescent，Updater等。

逻辑回归可以是二分类的，也可以是多分类的。本篇博客主要讨论的是二分类的模型。二分类也是最常用的逻辑回归模型。

逻辑回归主要是用于分类。

比如根据某些特点，来判断这个病人是不是得了某种疾病。
预测，根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大；

逻辑回归和线性回归的不同点在于，将线性回归的输出范围压缩到了0和1之间。
逻辑函数又称Sigmoid函数，函数形式如下所示：

g (z) = 1 1 + e - z

这个函数的图形大概如下所示：

公式推导

假设样本有n个特征x=(x1,x2…xn), 设p(y=1|x)为观测样本y相对于事件x发生的概率，用Sigmoid函数表示为：

p (y = 1 | x) = 1 1 + e - g ( x )

其中，g(x)=w0+w1x1+…..+wnxn.
在x条件下y不发生的概率为

p (y = 0 | x) = 1 - p (y = 1 | x) = 1 1 + e g ( x )

如果目前有m个相互独立的事件，y=( y(1),y(2),y(3),y(4),y(n) ), 则一个事件y(i)发生的：

p (y (i)) = p y (i) * (1 - p) 1 - y (i)

当y=1的时候，后面的一项便消失了。当y=0的时候，前面这项便消失了。
对于整个样本集，即m个独立样本出现的似然函数(因为每个样本独立，所以m个样本出现的概率就是他们各自出现的概率相乘)。
其极大似然函数

L (Θ) = \prod i = 1 m f (x, Θ) = \prod i = 1 m (g (x)) y (i) * (1 - g (x)) 1 - y (i)

我们的目标是求解出这个似然函数的L(theta)取最大值的theta值。即求解出 Θ1,Θ2,Θn ,使得 L(Θ) 取得极大值。

对 L(Θ) 取对数有：

L (Θ) = l o g (\prod p (y (i) = 1 | x (i)) (y (i)) * (1 - p (y (i) = 1 | x)) 1 - y (i))

= \sum i = 1 m y (i) l o g (p (y (i) = 1 | x (i))) + (1 - y i) l o g (1 - p (y (i) = 1 | x (i)))

= \sum i = 1 m y (i) l o g p ( y ( i ) = 1 | x ( i ) ) 1 - p ( y ( i ) = 1 | x ( i ) ) + \sum i = 1 m l o g (1 - p (y (i) = 1 | x (i)))

= \sum i = 1 m y (i) (Θ 0 + Θ 1 x 1 + . . . + Θ n x n) + \sum i = 1 m l o g (1 - p (y (i) = 1 | x (i)))

= \sum i = 1 m y (i) (Θ T x i) - \sum i = 1 m l o g (1 + e Θ T x i)

求解最大似然估计其实就是求解这个的最大值时的 Θ 值，这里可以采用梯度上升法求解。也可以通过乘以一个-1/m，将问题转换为一个梯度下降法来求解。将 L(Θ) 转换为 J(Θ) .

J (Θ) = - 1 m * L (Θ)

梯度下降算法可以继续沿用之前的线性回归中的广义梯度下降算法，只不过里面的参数有所改变。

梯度下降算法

Θ 更新过程:

Θ j : = Θ j - α * \partial J ( Θ ) \partial Θ j

\partial J ( Θ ) \partial Θ j = - 1 m \sum i = 1 m (y (i) x (i) j - g (Θ T x (i)) x (i) j)

= 1 m \sum i = 1 m (h Θ (x (i) - y (i)) x (i) j)

Θ 更新过程可以写成

Θ j : = Θ j - α 1 m \sum i = 1 m (h Θ (x (i)) - y (i)) x (i) j

向量化

上述过程是一个求和的过程，需要for循环，比较耗时。可以考虑将这个过程转换为一个向量或者矩阵的相乘，可以省去大量的时间。考虑训练数据的格式如下。x矩阵是一个m*n的矩阵。其每一行表示一条数据，每一列表示一行数据的特征。

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 1 . . . . . . x m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

x = ⎡ ⎣ ⎢ ⎢ x 11 x m 1 . . . . . . x 1 n x m n ⎤ ⎦ ⎥ ⎥

y = ⎡ ⎣ ⎢ ⎢ y 1 . . . y m ⎤ ⎦ ⎥ ⎥

Θ = ⎡ ⎣ ⎢ ⎢ Θ 1 . . . Θ n ⎤ ⎦ ⎥ ⎥

所以 A= x* Θ ,

E = h Θ (x) - Y

= ⎡ ⎣ ⎢ ⎢ ⎢ g (A 1) - y 1 . . . g (A n) - y n ⎤ ⎦ ⎥ ⎥ ⎥

= ⎡ ⎣ ⎢ ⎢ e 1 . . . e m ⎤ ⎦ ⎥ ⎥

=g(A)-y.

g(A)的参数是一个列向量， Θ 更新过程可以改为：

Θ j : = Θ j - α 1 m \sum i = 1 m (h Θ (x (i)) - y (i)) x (i) j

= Θ j - α 1 m \sum i = 1 m e (i) x (i) j = Θ j - α * 1 m * x T E

所以可以看到， Θ 更新过程

1) A=x* Θ
2) E=g(A)-y
3) $Θ = Θ - α * x T E$

正则化

正则化主要是为了解决过拟合问题，防止高次项因子所带来的影响。比如说增大高次项因子的常数项的系数，进而来减小高次项所带来的影响。
关于正则化的具体的细节可以参考一下的链接 :

正则化
机器学习中的正则化
逻辑回归及正则化

源码分析:

MLlib中的逻辑回归支持随机梯度下降和拟牛顿法下降算法来实现最优化。本篇博客先讨论随机梯度下降算法，下一篇博客会讨论拟牛顿法。

MLlib逻辑回归的方程:

h w (x) = 1 1 + e - w T x

逻辑回归的损失函数是:

L (w, x, y) = 1 2 * (h w (x) - y) 2

逻辑回归使用L2正则化方法。

R (w) = 1 2 ∥ w ∥ 2

每一个样本的梯度的计算方法为：

margin= - w*x

multiplier= (1/ (1+ exp(margin))-y)

gradient = multiplier * x

每个样本的误差，

l o s s = 1 2 * (y - h w (x)) 2

权重的更新方法：
weight = weight -alpha*(gradient + regParam * weight)

逻辑回归主要包含以下代码:

1) 首先是伴生对象类，LogisticRegressionWithSGD.(包含有静态train方法)
2) 然后是逻辑回归的主类，class LogisticRegressionWithSGD,这个类继承了GeneralizedLinearAlgorithm类。同时执行了父类的run方法。不过里面的部分参数，比如说梯度下降方法，权重更新方法在LogisticRegressionWithSGD有新的定义。父类包含有optimizer.optimize方法。用于执行梯度下降。权重的优化计算调用的是runMiniBatchWithSGD。梯度的计算调用的是Gradient.compute 方法。
3) 最后有一个逻辑回归模型，LogisticRegressionModel类。其里面也包含有predict方法来进行预测。

首先来看看伴生对象类。LogisticRegressionWithSGD(object)
这个是整个逻辑回归算法的入口。主要包含有train方法。train方法的参数包含

input— 训练样本，格式为RDD[LabeledPoint]，其中LabeledPoint格式为(label, features).
numIterations—迭代次数，默认为100次。
stepSize，每次的迭代步长，默认为1.
miniBatchFraction–每次迭代的时候，参与的样本的比例，默认为100%。
initialWeights–初始化权重。

object LogisticRegressionWithSGD {
  // NOTE(shivaram): We use multiple train methods instead of default arguments to support
  // Java programs.

   @Since("1.0.0")
  def train(         //静态的训练方法
      input: RDD[LabeledPoint], //训练样本，RDD格式为(label, features)，注意标签值仅限于0和1
      numIterations: Int,   //迭代次数
      stepSize: Double, //步长
      miniBatchFraction: Double, //表示每次参与迭代计算的样本的比例
      initialWeights: Vector): LogisticRegressionModel = { //初始化权重

    //静态的train方法里面初始化了一个LogisticRegressionWithSGD，通过run方法来进行计算
    new LogisticRegressionWithSGD(stepSize, numIterations, 0.0, miniBatchFraction)
      .run(input, initialWeights)
  }
}

其他的方法基本都是对train方法的重载。

接下来看看逻辑回归类。这个类继承了GeneralizedLinearAlgorithm广义回归类。该类主要初始化梯度下降的方法，梯度更新方法和优化计算方法，然后调用了父类的run方法来执行。
代码如下:

class LogisticRegressionWithSGD private[mllib] (
    private var stepSize: Double,  //步长
    private var numIterations: Int,  //迭代次数
    private var regParam: Double,  //正则化参数
    private var miniBatchFraction: Double)  //每次参与迭代计算的比例

//同样可以看到这个类也继承自广义线性回归，同时调用的也是广义线性回归里面的run方法。
  extends GeneralizedLinearAlgorithm[LogisticRegressionModel] with Serializable {

/// 这里定义了逻辑回归的梯度下降算法，为LogisticGradient
  private val gradient = new LogisticGradient()
  //这里定义了逻辑回归的更新方法，为SquaredL2Updater，为L2正则化
  private val updater = new SquaredL2Updater()

  @Since("0.8.0")
  //根据梯度下降方法，梯度更新方法，新建梯度优化算法。
  override val optimizer = new GradientDescent(gradient, updater)
    .setStepSize(stepSize)
    .setNumIterations(numIterations)
    .setRegParam(regParam)
    .setMiniBatchFraction(miniBatchFraction)
  override protected val validators = List(DataValidators.binaryLabelValidator)

  /**
   * Construct a LogisticRegression object with default parameters: {stepSize: 1.0,
   * numIterations: 100, regParm: 0.01, miniBatchFraction: 1.0}.
   */
  @Since("0.8.0")
  def this() = this(1.0, 100, 0.01, 1.0)

  override protected[mllib] def createModel(weights: Vector, intercept: Double) = {
    new LogisticRegressionModel(weights, intercept)
  }
}

模型调用的run方法是在广义回归算法类里面。run方法首先做一些初始化处理，比如增加偏置项，初始化权重。然后调用optimizer.optimize方法进行计算。这个代码块与之前的线性回归是类似的。

可以看到，在这个方法里面进行了特征维度的检测，然后是数据是否缓存，是否降维

是否需要增加偏置项，最后初始化权重。然后调用了optimizer的optimize方法来进行计算。
最后调用createModel方法，返回结果。

其中，在optimizer是一个GradientDescent类的对象。所以我们之后可以进一步看这个方法，这个方法也是整个线性回归最核心的方法

/**
   * Run the algorithm with the configured parameters on an input RDD
   * of LabeledPoint entries starting from the initial weights provided.
   *执行run方法
   */
  @Since("1.0.0")
  def run(input: RDD[LabeledPoint], initialWeights: Vector): M = { //样本训练的run方法。

    if (numFeatures < 0) { //特征的维度，如果特征的维度被设置为小于0，则取出第一个特征的特征的维度
      numFeatures = input.map(_.features.size).first()
    }
      //看看输入样本有没有缓存。
    if (input.getStorageLevel == StorageLevel.NONE) {
      logWarning("The input data is not directly cached, which may hurt performance if its"
        + " parent RDDs are also uncached.")
    }

    // Check the data properties before running the optimizer
    //检查数据的属性。
    if (validateData && !validators.forall(func => func(input))) {
      throw new SparkException("Input validation failed.")
    }

    /**
     * Scaling columns to unit variance as a heuristic to reduce the condition number:
     * 数据的降维。
     *在优化过程中，收敛率取决于训练数据的维度。
     *通过降维，改变了收敛速度。
     */
    val scaler = if (useFeatureScaling) {
      new StandardScaler(withStd = true, withMean = false).fit(input.map(_.features))
    } else {
      null
    }

    // Prepend an extra variable consisting of all 1.0's for the intercept.
    // TODO: Apply feature scaling to the weight vector instead of input data.
    //是否需要增加偏置项。即theta0的常数项。
    val data =
      if (addIntercept) {
        if (useFeatureScaling) {
          input.map(lp => (lp.label, appendBias(scaler.transform(lp.features)))).cache()
        } else {
          input.map(lp => (lp.label, appendBias(lp.features))).cache()
        }
      } else {
        if (useFeatureScaling) {
          input.map(lp => (lp.label, scaler.transform(lp.features))).cache()
        } else {
          input.map(lp => (lp.label, lp.features))
        }
      }

    /**
     * TODO: For better convergence, in logistic regression, the intercepts should be computed
     * from the prior probability distribution of the outcomes; for linear regression,
     * the intercept should be set as the average of response.
     */
     //初始的权重和偏置项。
    val initialWeightsWithIntercept = if (addIntercept && numOfLinearPredictor == 1) {
      appendBias(initialWeights)
    } else {
      /** If `numOfLinearPredictor > 1`, initialWeights already contains intercepts. */
      initialWeights
    }

     //利用了optimizer的optimize方法进行梯度下降。返回最优权重，调用的是GradientDescent的optimize方法。
     //这一行很重要，其最核心的计算在这个optimize方法里面
    val weightsWithIntercept = optimizer.optimize(data, initialWeightsWithIntercept)

    val intercept = if (addIntercept && numOfLinearPredictor == 1) {
      weightsWithIntercept(weightsWithIntercept.size - 1)
    } else {
      0.0
    }

    var weights = if (addIntercept && numOfLinearPredictor == 1) {
      Vectors.dense(weightsWithIntercept.toArray.slice(0, weightsWithIntercept.size - 1))
    } else {
      weightsWithIntercept
    }

   if (useFeatureScaling) {
      if (numOfLinearPredictor == 1) {
        weights = scaler.transform(weights)
      } else {

        var i = 0
        val n = weights.size / numOfLinearPredictor
        val weightsArray = weights.toArray
        while (i < numOfLinearPredictor) {
          val start = i * n
          val end = (i + 1) * n - { if (addIntercept) 1 else 0 }

          val partialWeightsArray = scaler.transform(
            Vectors.dense(weightsArray.slice(start, end))).toArray

          System.arraycopy(partialWeightsArray, 0, weightsArray, start, partialWeightsArray.size)
          i += 1
        }
        weights = Vectors.dense(weightsArray)
      }
    }

    // Warn at the end of the run as well, for increased visibility.
    if (input.getStorageLevel == StorageLevel.NONE) {
      logWarning("The input data was not directly cached, which may hurt performance if its"
        + " parent RDDs are also uncached.")
    }

    // Unpersist cached data
    if (data.getStorageLevel != StorageLevel.NONE) {
      data.unpersist(false)
    }

    createModel(weights, intercept)
  }

权重优化计算。

梯度下降法求解权重.run方法中调用的是optimizer.optimize方法来进行计算。optimizer的类型为GradientDescent类。所以说optimize方法其实是GradientDescent的optimize方法。optimize方法又调用了runMiniBatchWithSGD。

这个是GradientDescent类的optimize方法，其内部又调用了一个runMiniBatchSGD方法
runMiniBatchSGD返回的结果是权重

 //data为RDD格式，其类型为RDD[(Double,Vector)] 训练的数据，initialWeights, 初始化的权重。
  //其返回值为更新的权重，类型为Vector类型。
  //这个方法里面又再一次调用了GradientDescent.runMiniBatchSGD方法。
  def optimize(data: RDD[(Double, Vector)], initialWeights: Vector): Vector = {
    val (weights, _) = GradientDescent.runMiniBatchSGD(
      data,
      gradient,
      updater,
      stepSize,
      numIterations,
      regParam,
      miniBatchFraction,
      initialWeights,
      convergenceTol)
    weights
  }
}

接下来看这个runMiniBatchSGD方法,这个方法是整个线性回归最核心的方法

它大体的思路是，首先初始化好初始权重参数和历史迭代误差的可变数组，然后在每次迭代的时候，广播这个更新的权重到每个rdd。调用treeAggregate算子，每次对数据进行随机采样(无放回采样)，然后先对每个分区的数据进行计算梯度值和误差值，然后接下来对每个分区的计算好的梯度值和误差值进行累加。最后更新权重值。

def runMiniBatchSGD(
      data: RDD[(Double, Vector)],  //输入样本
      gradient: Gradient,      //梯度函数对象，(用于计算损失函数的梯度的一个单一的例子。)
      updater: Updater,    //梯度更新的函数的对象。
      stepSize: Double,      //步长
      numIterations: Int,    //迭代次数
      regParam: Double,       //正则化参数
      miniBatchFraction: Double, //每次迭代参与计算的样本的比例，默认这个比例是1.0
      initialWeights: Vector,  //初始化权重
      convergenceTol: Double): (Vector, Array[Double]) = { //返回为两个元素
    //第一个元素是一个列矩阵，表示的是每一个特征的权重。第二个元素表示的是迭代的损失值。

    if (miniBatchFraction < 1.0 && convergenceTol > 0.0) {
      logWarning("Testing against a convergenceTol when using miniBatchFraction " +
        "< 1.0 can be unstable because of the stochasticity in sampling.")
    }

       //历史迭代的误差数组。存储的是每次迭代的误差值。
    val stochasticLossHistory = new ArrayBuffer[Double](numIterations)
    // Record previous weight and current one to calculate solution vector difference

    var previousWeights: Option[Vector] = None //之前的权重
    var currentWeights: Option[Vector] = None   //当前的权重

    //训练的样本数量。
    val numExamples = data.count()

    // if no data, return initial weights to avoid NaNs
    //如果数据为空，则返回初始的输入参数，即初始的权重和一个误差数组。因为没有找到数据
    if (numExamples == 0) {
      logWarning("GradientDescent.runMiniBatchSGD returning initial weights, no data found")
      return (initialWeights, stochasticLossHistory.toArray)
    }


    //如果数据量乘以采样比例小于1的话，说明miniBatchFraction设置的太小了。弹出警告需要设置的大一点。
    if (numExamples * miniBatchFraction < 1) {
      logWarning("The miniBatchFraction is too small")
    }


    var weights = Vectors.dense(initialWeights.toArray) //将权重初始化，转换为密集向量。
    val n = weights.size  //表示参数的个数

    /**
     * For the first iteration, the regVal will be initialized as sum of weight squares
     * if it's L2 updater; for L1 updater, the same logic is followed.
     *第一次迭代，正则化值初始化为权重的加权平方和。
     */
    var regVal = updater.compute(
      weights, Vectors.zeros(weights.size), 0, 1, regParam)._2

    //这个参数用于表明是否收敛
    var converged = false // indicates whether converged based on convergenceTol
    var i = 1 //i等于1表明第一次迭代
    //


    //接下来就是真个梯度下降法的核心代码。
    //weights权重的迭代计算
    while (!converged && i <= numIterations) {
      //首先广播权重, 注意在每次迭代的开始的时候都需要广播更新的权重值
      val bcWeights = data.context.broadcast(weights)      
      //聚合的时候利用的是treeAggregate方法进行聚合。聚合后返回值的类型为
     //(gradientSum(表示的是梯度的和),lossSum(表示的是损失和),miniBatchSize(表示的是采样比例)

     //treeAggregate算子的执行逻辑如下：
     //treeAggregate的逻辑和aggregate相似，不过它是采用一种多层树结构的模式进行聚合。
     //和aggregate不一样的另一个区别是它的初始值不会被应用到第二个reduce函数上面去。
     //默认的这个tree的深度是2.
     //举个简单的例子。
     //val z = sc.parallelize(List(1,2,3,4,5,6), 2)
     //z.treeAggregate(0)(math.max(_, _), _ + _)
     //res40: Int = 9
     //注意，这个初始值不会作用到第二个reduce函数。s
     //z.treeAggregate(5)(math.max(_, _), _ + _)
     //res42: Int = 11
     // reduce of partition 0 will be max(5, 1, 2, 3) = 5
     // reduce of partition 1 will be max(4, 5, 6) = 6
     // final reduce across partitions will be 5 + 6 = 11

     //梯度计算采用的是随机梯度下降方法。false表示的是不放回抽样
    //随机抽取样本自己，采样时采用不放回采样。每次采样比例为miniBatchFraction。最后一个参数表示为随机种子，每次的值都不一样。
    //保证每次抽样是随机的
      val (gradientSum, lossSum, miniBatchSize) = data.sample(false, miniBatchFraction, 42 + i)
        .treeAggregate((BDV.zeros[Double](n), 0.0, 0L))( //调用BDV.zeros方法初始化一个长度为n的0向量。
            //初始值为一个长度为n的0向量，初始的误差值设为0，

           //计算每一个样本的梯度，然后对所有的样本进行累加。  
          seqOp = (c, v) => {
            // c: (grad, loss, count), v: (label, features)
            //第一个seqOp函数输入为(c,v)类型，返回的是一个c类型。
            //通过调用gradient.compute方法来计算误差值。这个方法输入参数为features，label，权重值，以及得到的梯度值
            //返回的类型为(梯度值，误差值，计数值，样本数+1)
            //默认调用的是LeastSquaresGradient的compute方法。
            val l = gradient.compute(v._2, v._1, bcWeights.value, Vectors.fromBreeze(c._1))
            (c._1, c._2 + l, c._3 + 1)
          },



          //这个表示对于所有的处理好的样本（均为c类型）进行聚合。
          combOp = (c1, c2) => {
            // c: (grad, loss, count)
            //即对应的梯度向量值相加，对应的损失和相加，对应的计数值相加。最后一个参数表示的是样本数量
            (c1._1 += c2._1, c1._2 + c2._2, c1._3 + c2._3)
          })


      if (miniBatchSize > 0) { //当样本数量大于0的时候。

        /**
         *保存误差，迭代误差=平均损失+正则误差。
         */
        stochasticLossHistory.append(lossSum / miniBatchSize + regVal)  //这个表示迭代完成后将误差加入误差数组。
         //其中的损失为平均损失，即总的损失除以总数量的计数和。

        //调用updater的compute方法来更新梯度值。
        val update = updater.compute(
          weights, Vectors.fromBreeze(gradientSum / miniBatchSize.toDouble),
          //Vectors.fromBreeze(gradientSum / miniBatchSize.toDouble)表示总的梯度和除以数据量表示平均梯度。
          stepSize, i, regParam)  //stepSize表示步长，i表示第i次迭代，regParam表示正则化参数。

        weights = update._1  //将权重更新为update的第一个值,表示的是权重因子
        regVal = update._2  //表示的是正则值

        previousWeights = currentWeights
        currentWeights = Some(weights)
        if (previousWeights != None && currentWeights != None) {
          converged = isConverged(previousWeights.get,
            currentWeights.get, convergenceTol)
        }
      } else {
        logWarning(s"Iteration ($i/$numIterations). The size of sampled batch is zero")
      }
      i += 1
    }

    logInfo("GradientDescent.runMiniBatchSGD finished. Last 10 stochastic losses %s".format(
      stochasticLossHistory.takeRight(10).mkString(", ")))

    (weights, stochasticLossHistory.toArray)  //迭代完成之后，返回的是一个迭代的初始权重和每次迭代的损失数组。

  }

逻辑回归的梯度计算方法

在上述方法中的每次迭代都会调用gradient.compute方法。这个方法用来计算每个样本的梯度和误差。这个compute方法是LogisticGradient类的compute方法。该方法基于最小二乘计算梯度值和损失值。计算每个样本损失值。
就像上面所讲的
每一个样本的梯度的计算方法为：

margin= - w*x

multiplier= (1/ (1+ exp(margin))-y)

gradient = multiplier * x

每个样本的误差，

l o s s = 1 2 * (y - h w (x)) 2

权重的更新方法：
weight = weight -alpha*(gradient + regParam * weight)

下面的代码只包含二元逻辑回归

class LogisticGradient(numClasses: Int) extends Gradient {

  def this() = this(2)  //默认的逻辑回归的类别标签数是2

  override def compute(data: Vector, label: Double, weights: Vector): (Vector, Double) = {
    val gradient = Vectors.zeros(weights.size)  //初始化一个梯度向量
    val loss = compute(data, label, weights, gradient) //调用下面的compute方法，最后返回一个元祖
    (gradient, loss)
  }

  //梯度，损失计算，计算好的梯度值，会被添加到这个cumGradient向量中。，然后返回损失值
  override def compute(
      data: Vector,
      label: Double,
      weights: Vector,
      cumGradient: Vector): Double = {
    val dataSize = data.size

    // (weights.size / dataSize + 1) is number of classes
    require(weights.size % dataSize == 0 && numClasses == weights.size / dataSize + 1)
    numClasses match {

      case 2 =>  //二元逻辑回归

               val margin = -1.0 * dot(data, weights)  //首先是计算margin
        //margin=-w*x。即权重和数据相乘。

        val multiplier = (1.0 / (1.0 + math.exp(margin))) - label
        //multiplier=(1/(1+exp(margin))-y)，表示估计值减去实际值

        axpy(multiplier, data, cumGradient) //然后进行梯度的计算cumGradient=multiplier*x+cumGradient

        if (label > 0) {
          // The following is equivalent to log(1 + exp(margin)) but more numerically stable.
        //用来计算log(1+exp(margin))
          MLUtils.log1pExp(margin) //表示用来计算损失值
        } else {
          //log(1+exp(margin))-margin
          MLUtils.log1pExp(margin) - margin
        }
       }

最后是权重的更新，Updater。LogisticRegression实现的是L2的正则化更新
SquaredL2Updater。这个类在optimization的updater类里面。
权重的更新方法：
weight = weight -alpha*(gradient + regParam * weight)

/*
* L2正则化更新梯度，L2正则化：
*   
*    R(W)=1/2*||w||^2
* 利用step-size/sqrt(iterations)老作为更新的系数
*L2正则化的更新公式为：weight=weight-(stepsize/sqrt(iters))*(gradient+regParam*weight)
*/
class SquaredL2Updater extends Updater {
  override def compute(
      weightsOld: Vector,
      gradient: Vector,
      stepSize: Double,
      iter: Int,
      regParam: Double): (Vector, Double) = {

    // add up both updates from the gradient of the loss (= step) as well as
    // the gradient of the regularizer (= regParam * weightsOld)
    // w' = w - thisIterStepSize * (gradient + regParam * w)
    // w' = (1 - thisIterStepSize * regParam) * w - thisIterStepSize * gradient

    val thisIterStepSize = stepSize / math.sqrt(iter) //首先是去计算alpha值
    //thisIterStepSize表示的是alpha值，它是迭代次数的(-1/2)次方，因此会随着迭代次数的增加而逐渐减小，这样也保证了刚开始迭代的时候学习速率比较快，后期比较慢。

    val brzWeights: BV[Double] = weightsOld.toBreeze.toDenseVector //转变权重为密集向量

    //注意下面这个公式，mllib在这里首先做了拆分，首先计算公式(2)的第一部分，然后是第二部分
      // w' = w - thisIterStepSize * (gradient + regParam * w) (1)
    // w' = (1 - thisIterStepSize * regParam) * w - thisIterStepSize * gradient (2)

    brzWeights :*= (1.0 - thisIterStepSize * regParam) //首先计算的是w=(1 - thisIterStepSize * regParam) * w
    //冒号相乘表示的是追乘操作
    brzAxpy(-thisIterStepSize, gradient.toBreeze, brzWeights) //接下来计算的是brzWeights-thisIterStepSize * gradient

    val norm = brzNorm(brzWeights, 2.0) //接下来计算L2范数

   //最终返回的是权重向量和L2范数乘以0.5倍的正则因子
    (Vectors.fromBreeze(brzWeights), 0.5 * regParam * norm * norm)

  }

最后是逻辑回归模型类LogisticRegressionModel.这个类包含有predictPoint方法。用来进行节点的预测。然后还包含有最基本的模型加载方法和模型保存方法。这个博客只包含预测方法。

class LogisticRegressionModel @Since("1.3.0") (
    @Since("1.0.0") override val weights: Vector, //权重每个特征的权重
    @Since("1.0.0") override val intercept: Double,  //偏置项
    @Since("1.3.0") val numFeatures: Int, ///特征的维度
    @Since("1.3.0") val numClasses: Int)  //标签的类别数，也即分类数，默认是二元分类
  extends GeneralizedLinearModel(weights, intercept) with ClassificationModel with Serializable
  with Saveable with PMMLExportable

这个model类继承了广义线性模型GeneralizedLinearModel的predict方法。

 def predict(testData: RDD[Vector]): RDD[Double] = { //testData为测试数据集，
    // A small optimization to avoid serializing the entire model. Only the weightsMatrix
    // and intercept is needed.
    val localWeights = weights 
    val bcWeights = testData.context.broadcast(localWeights) //获取权重，广播权重
    val localIntercept = intercept
    testData.mapPartitions { iter =>   //在每个分区得带这个权重值，调用predictPoint方法进行预测
      val w = bcWeights.value
      iter.map(v => predictPoint(v, w, localIntercept))
    } 
  }

注意这个predictpoint方法，这个predictpoint方法只是GeneralizedLinearModel广义线性模型这个抽象类的一个抽象方法，而LogisticRegressionModel实现了这个predictPoint方法。
当大于我们设置的阈值的时候，我们将其视作1，否则视作0.

//这个模型类继承自广义线性回归的抽象模型类，实现了里面的predicPoint方法
  override protected def predictPoint(
      dataMatrix: Vector,
      weightMatrix: Vector,
      intercept: Double) = {
    //保证dataMatrix和features的特征的维度相同。
    require(dataMatrix.size == numFeatures)

    // If dataMatrix and weightMatrix have the same dimension, it's binary logistic regression.
    //如果是二元回归的话，
    if (numClasses == 2) {
      //这个是W*X+intercept(加上偏置)做向量的点乘
      val margin = dot(weightMatrix, dataMatrix) + intercept
      //这个是计算s函数 1/(1+exp(-margin))
      val score = 1.0 / (1.0 + math.exp(-margin))

      threshold match {
         //如果得到的这个score大于阈值，则设置为1，否则设置为0
        case Some(t) => if (score > t) 1.0 else 0.0
        case None => score //如果没有设置阈值，则返回计算的score，默认的阈值为0.5.
      }
    }

参考链接:
* 逻辑回归
* coursera公开笔记-逻辑回归
* 逻辑回归理论简介

你可能感兴趣的:(MLlib源代码解读)

Linux环境下删除Golang HoUnix golang
在Linux操作系统中，如果你决定删除Golang编程语言及其相关组件，需要执行一系列步骤。本文将为你提供详细的指导，并附上相应的源代码。卸载Golang首先，需要卸载已安装的Golang。在终端中执行以下命令：sudorm-rf/usr/local/go这将删除Golang的安装目录。移除环境变量下一步是从系统环境变量中移除与Golang相关的路径。打开终端，编辑~/.profile文件（或者是
GUI登录界面 Cc_zhH GUI开发 GUI登录窗口 python 开发语言
源代码部分importrandomfromtkinterimport*fromtkinterimportmessageboxdefname_12():button1.place_forget()entry1.place_forget()button2.place_forget()entry2.place_forget()button3.place_forget()entry3.place_forg
分层架构 IM 系统之架构演进棕生 IM系统分层架构 IM系统分层架构业务分离 MQ解耦
在电商业务日活几百万的情况下，IM系统采用分层架构方式，如下图。分层架构的IM系统，整体上包含了【终端层】、【入口层】、【业务逻辑层】、【路由层】、【数据访问层】和【存储层】，我们在上篇文章（分层架构IM系统之架构解读）中进行了介绍。今天讨论局部的架构调整和演进！随着用户日活量的增多，业务规模也在逐步增大（即后端接口数量越来越大），而且业务逻辑也越来越复杂；为了引流，平台几乎每周都会做运营活动，此
Kubernetes v1.17 版本解读 | 云原生生态周报 Vol. 31 编程微思
作者|徐迪、李传云、黄珂、汪萌海、张晓宇、何淋波、陈有坤、李鹏审核|陈俊上游重要进展1.Kubernetesv1.17版本发布功能稳定性是第一要务。v1.17包含22个增强功能：14个增强功能已逐渐稳定，4个增强功能已进入beta版，4个增强功能已进入alpha版本。MajorTheme云提供商标签达到GA这个自1.2版本就引入的label，在1.17版本终于GA。之前旧的label已经被废弃掉：
使用 Python3 生成通用唯一标识符（UUID）的方法美丽风景-c python 开发语言 Python
使用Python3生成通用唯一标识符（UUID）的方法UUID（通用唯一标识符）是一种用于在计算机系统中唯一标识实体的标准化方法。在Python中，可以使用uuid模块来生成UUID。本文将介绍如何使用Python3中的uuid模块生成UUID，并提供相应的源代码示例。首先，我们需要导入uuid模块：importuuid生成UUID的最常用方法是使用uuid.uuid4()函数。该函数会生成一个随
用 Python Turtle 库绘制精美圣诞树教程从以前 python python 信息可视化 github
摘要：本文将详细介绍如何使用Python的Turtle库来绘制一棵充满节日氛围的圣诞树，从代码的各个部分解读到最终呈现出完整的图形效果，带你一步步领略用代码创造节日美景的乐趣。文中包含完整代码及详细注释，帮助读者轻松理解并复现这个有趣的绘图项目。一、引言在圣诞节来临之际，我们可以通过编程的方式来增添节日的氛围，使用Python的Turtle库就能绘制出一棵漂亮的圣诞树哦！Turtle库提供了简单又
六种主流虚拟化技术全解析：OpenStack、KVM、Hyper-V、VMware、Xen及Docker 律己杂谈计算机系统发展史及基础 openstack docker VMware Xen Hyper-V KVM 虚拟机
秒懂虚拟化（一）：从概念到网络、存储虚拟化全解析，通俗解读版-CSDN博客秒懂虚拟化（二）：服务器虚拟化、操作系统虚拟化、服务虚拟化全解析，通俗解读版_hostos和guestos-CSDN博客秒懂虚拟化（三）：桌面拟化、用户体验虚拟化、应用程序虚拟化全解析，通俗解读版-CSDN博客秒懂虚拟化（四）：虚拟化技术优劣、技术原理、CPU虚拟化和内存虚拟化全解析，通俗解读版-CSDN博客前面4篇文章详细
开发经验及方法导读盒子君~ #算法机器人系统架构
文章目录前言一、搭建工程开发环境专题三方库的调用方法二、代码程序设计专题1、C++开发知识树的阶段2、程序设计Kiss原则3、数据结构与语法规范4、CPP代码检查工具5、架构模式设计层（设计模式）6、代码重构7、代码设计模式--如何提高代码的运行效率、可读性、可维护性、健壮性？8、【C++RAII机制】将资源用类进行封装起来，做到资源创建即完成初始化，使用完资源即自动销毁9、源代码封装成库Lib的
有趣的python代码实例_Python之路：200个Python有趣的小例子一网打尽 weixin_39845406 有趣的python代码实例
概述博主最近在学习python，看完了一整套学习视频，然后呃呃呃，还是用不太流畅。碰巧在全球最大的同性交友论坛GayHub(呸！是开源代码托管平台Github)上面发现了一个项目，该项目列举了200多个Python小例子，Python基础、Python坑点、Python字符串和正则、Python绘图、Python日期和文件、Web开发、数据科学、机器学习、深度学习、TensorFlow、Pytor
Spring之定时任务基本使用篇后端springboot
Spring之定时任务基本使用篇spring-boot项目中，想添加一个定时任务，可以怎么办？不管什么项目，都是可以直接用JDK原生的定时任务来实现借助@Scheduled注解来使用本篇博文则主要集中在在SpringBoot项目中，怎么使用定时任务I.基本使用demo在SpringBoot项目中，使用定时任务需要先开启对应的配置，一个简单的demo如下代码解读复制代码@EnableScheduli
包文件分析器 Webpack Bundle Analyzer Jayden_念旧开发工具 webpack 前端 node.js
webpack-bundle-analyzer是一个非常有用的工具，用于可视化和分析Webpack打包生成的文件。这使得开发者能够更好地理解应用的依赖关系、包的大小，以及优化打包的机会。以下是关于webpack-bundle-analyzer的详细介绍，包括它的安装、使用以及如何解读生成的报告。文档。安装你可以通过npm或yarn安装webpack-bundle-analyzernpminstal
AAAI2024论文解读|Towards Fairer Centroids in k-means Clustering面向更公平的 k 均值聚类中心 paixiaoxin 文献阅读论文合集支持向量机机器学习人工智能聚类公平性 k 均值聚类质心代表性群体代表性公平性
论文标题TowardsFairerCentroidsink-meansClustering面向更公平的k均值聚类中心论文链接TowardsFairerCentroidsink-meansClustering论文下载论文作者StanleySimoes,DeepakP,MuirisMacCarthaigh内容简介本文提出了一种新的聚类级质心公平性（Cluster-levelCentroidFairne
什么是 Java 虚拟机（JVM）？蚂蚁质量研发管理 java jvm 开发语言
Java虚拟机（JVM）是Java平台的核心组件，它是一个抽象的计算机，用于执行Java字节码。以下是关于JVM的详细介绍：一、基本概念字节码与JVM的关系当Java源代码（.java文件）被编译后，会生成字节码文件（.class文件）。字节码是一种中间形式的指令集，它不依赖于特定的硬件平台。JVM的作用就是将这些字节码转换为特定硬件平台上的机器码并执行。这就使得Java语言具有了“一次编写，到处
C语言-预处理命令落幕 c语言开发语言
1、预处理命令是以#开头的指令用于在编译前对源代码进行一些处理2、与#号相关的代码1、#include用于在源代码中引入其他文件。可以引入标准库的头文件，也可以引入自定义的头文件。//引入标准输入输出头文件，到系统路径找stdio.h头文件#include引入自定义头文件，到当前目录找myheader.h头文件。如果找不到，再到系统路径找#include"myheader.h"2、#define用
FileNotFoundError: [WinError 2] 系统找不到指定的文件解决方案诗和远方ya 软件相关问题 python
在windows终端运行python程序时，报错FileNotFoundError:[WinError2]系统找不到指定的文件，但是检查完文件路径后发现并没有错，考虑到是不是需要加环境变量，以及通过sys.path.append在python文件中加上引用的其他文件的绝对路径。还是不管用。解决方案是：找到python源代码中的subprocess.py文件，将shell=False改为shell=
计算机系统原理：一些断言梅见十柒计算机系统原理经验分享笔记
0虚拟机和解释器在Java中，JVM既充当了一个虚拟机的角色，也包含了用于执行字节码的解释器。同样地，Python的CPython实现也是先将源代码编译成字节码，然后由Python虚拟机执行。1从源代码中提取token的过程就是词法分析词法分析是编译过程的第一个阶段，它的主要职责是从源代码中读取字符序列，并根据语言的词法规则将它们组合成具有独立意义的最小语法单元——Token。词法分析器会去除无关
Hibernate与Spring Data JPA：深入解读两大持久化框架的优劣与选择 devme hibernate spring java
亲爱的读者，你是否在处理Java应用程序的数据库交互时，曾对选择哪种持久化框架感到困惑？你是否曾对Hibernate和SpringDataJPA之间的关系感到好奇？今天，我将带你深入探索这两个流行的Java持久化框架，帮助你更好地理解它们的优缺点，以及在何种情况下应该选择哪一个。首先，让我们来了解一下Hibernate和SpringDataJPA的基本概念。HibernateHibernate是一
李开复与零一万物：AI创业的务实之道，以及AI写代码工具的崛起前端
2025年伊始，AI领域便掀起一阵波澜。零一万物，这家备受瞩目的AI公司，其人员变动和业务拆分引发了广泛关注。李开复，这位在AI领域深耕多年的资深人士，对此做出了回应，其核心观点值得我们深思：在AI领域，盲目追求规模并非最佳策略。这不仅关乎零一万物，也为众多AI初创公司提供了宝贵的经验。李开复观点解读：理性决策，而非盲目扩张李开复认为，初创公司“负担不起”超大模型的预训练。这“负担不起”并非仅仅指
【AI日记】25.01.06 AI完全体 AI日记人工智能机器学习 kaggle 比赛
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】AI参加：kaggle比赛ForecastingStickerSales读书书名：国家为什么会失败阅读原因：2024年诺贝尔经济学奖得主的力作，之前我已经读过他另一本书了《權力與進步》备注：有兴趣的建议读未删减版https://book.douban.com/subject/26388427/discussion
足球俱乐部管理系统（11293） codercode2022 spring boot spring cloud 后端 hibernate 架构 laravel actionscript
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发
C语言编译 czme c语言
C语言编译是把C语言编写的源代码转换为计算机能执行的机器码的过程。首先需要一个文本编辑器来写代码，比如Vim、Notepad++等。代码写好后，使用C编译器，常见的有GCC（GNUCompilerCollection）。以GCC为例，如果有一个名为main.c的源文件，在命令行中输入gccmain.c-ooutput（output是可执行文件名，可自行设定），编译器会检查代码语法错误。如果没有错误
Yocto项目-全面的工具链能力嵌入式Jerry Yocto linux 嵌入式硬件开发语言物联网系统架构
工具链是嵌入式系统开发中的核心组成部分，它决定了从源代码到可运行二进制文件的转化效率和最终质量。在诸多嵌入式构建系统中，Yocto项目以其灵活、强大且全面的工具链能力成为行业的佼佼者。本文将全面解析Yocto项目的工具链能力，同时对比其他常见构建系统，帮助读者更清晰地了解Yocto项目的优势和适用场景。1.什么是工具链？工具链（Toolchain）是嵌入式开发的核心，它由一组工具组成，用于将源代码
PyCharm安装PyQt5及工具详细教程 JustLikeRun pycharm qt ide pyqt
PyCharm安装PyQt5及工具详细教程PyCharm是一款功能强大的Python集成开发环境（IDE），而PyQt5是一个用于创建GUI应用程序的流行Python库。在本教程中，我将指导您如何在PyCharm中安装PyQt5及其相关工具，并提供相应的源代码示例。步骤1：安装PyCharm首先，您需要下载并安装PyCharm。您可以从JetBrains官方网站（https://www.jetbr
Amazon EKS Blueprints for CDK 使用指南缪昱锨Hunter
AmazonEKSBlueprintsforCDK使用指南cdk-eks-blueprintsAWSQuickStartTeam项目地址:https://gitcode.com/gh_mirrors/cd/cdk-eks-blueprints项目介绍欢迎来到AmazonEKSBlueprintsforCDK。本项目提供了一个NPM模块eks-blueprints的源代码，专为AWS用户、合作伙伴以
使用PyCharm运行Python程序代码艺术巧匠 python pycharm java Python
使用PyCharm运行Python程序PyCharm是一种功能强大的Python集成开发环境（IDE），它提供了许多方便的功能来开发、调试和运行Python程序。在本文中，我将向您展示如何使用PyCharm来运行Python程序，并提供相应的源代码示例。步骤1：安装PyCharm首先，您需要从JetBrains官方网站下载并安装PyCharm。根据您的操作系统，选择适合您的版本。安装过程非常简单，
Gary Marcus 2025年AI预测：AGI仍在路上，务实发展才是王道前端
人工智能领域发展日新月异，各种预测层出不穷。知名人工智能专家GaryMarcus近期发布了对2025年AI发展趋势的25项预测，其中最引人注目的是：AGI（通用人工智能）不会在2025年出现。这与一些过于乐观甚至盲目乐观的预测形成了鲜明对比。本文将深入解读Marcus的预测，探讨其背后的逻辑，并结合当前AI技术发展现状进行分析。Marcus的预测整体基调是谨慎乐观，他既肯定了AI在特定领域的进步，
服务稳定性保障的五大误解运维sre
在线服务的稳定性保障一直是运维和技术部门的核心工作之一。但时至今日，这个方向实际仍然有很多基本的概念都没有对齐。今天这篇文章就罗列下那些混淆不清的概念，期望有一天大家沟通时不是鸡同鸭讲，各说各话。误解一：服务可用性听过很多技术分享，看过很多平台的承诺，上来都是讲我们的服务稳定性99.9xx%，但似乎都“忘记”了提供这个稳定性的具体算法和解读。如果没有明确的定义，这个数值其实毫无意义。服务稳定性目标
AF3 prep_blocks 函数解读 qq_27390023 深度学习人工智能 python pytorch 生物信息学
prep_blocks函数该函数用于对一系列模块（或块）进行预处理，为前向传播（forwardpass）做准备，尤其是当需要在块之间清除缓存时。源代码：defprep_blocks(blocks:List[Callable],clear_cache_between_blocks:bool,**kwargs:Any)->List[Callable]:"""Preparetheblocksforthe
股票量化交易进阶：构建回测框架backtrader InUnix python 开发语言
在量化交易领域，回测是一个重要的环节。回测框架可以帮助我们验证投资策略的有效性，并评估其在历史数据上的表现。backtrader是一个功能强大且灵活的Python回测框架，它为量化交易提供了丰富的工具和功能。本文将介绍如何使用backtrader构建一个简单的回测系统，并给出相应的源代码示例。首先，我们需要安装backtrader库。可以使用pip命令进行安装：pipinstallbacktrad
【经典必看】对数价格刻度 vs. 线性价格刻度：有什么区别？Logarithmic Price Scale vs. Linear Price Scale: What‘s the Difference? 精通代码大仙投资数据挖掘 python 机器学习人工智能大数据深度学习自然语言处理
对数价格刻度vs.线性价格刻度：有什么区别？对数价格刻度vs.线性价格刻度：概览股票图表的解读可以根据查看数据时使用的不同价格刻度而有所不同。大多数在线和经纪商图表软件可以显示不同风格的图表。最常用的两种价格刻度用于分析价格变动：对数价格刻度—也称为“对数”—表示价格间距取决于基础资产价格的变化百分比。这通常是默认的图表样式。线性价格刻度—也称为“算术”—表示价格在Y轴上的间距是等距的。线性图表显
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C