JokerDuuuu

Spark-mllib源码分析之逻辑回归(Logistic Regression)

- 一个例子
- 类关系图
- 创建用LBFGS求解LR的类
- 运行模型
- 模型优化
  - 1 损失与梯度的计算
  - 2 LR目标函数梯度计算
  - 3 LR正则项计算及梯度更新
- 模型预测
- 总结

1. 一个例子

// 0. LogisticRegressionWithLBFGSExample#main()
def main(args: Array[String]): Unit = {

  val conf = new SparkConf().setAppName("lr").setMaster("local")
  val sc = new SparkContext(conf)

  // 加载数据集
  val data = MLUtils.loadLibSVMFile(sc, "/home/mdu/dataset/sample_libsvm_data.txt")

  // 按 6：4 划分训练集和测试集
  val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L)
  val training = splits(0).cache()
  val test = splits(1)

  // 使用LBFGS求解LR
  val model = new LogisticRegressionWithLBFGS() // 1.-2. 创建用LBFGS求解LR的类
    .setNumClasses(10)
    .run(training)                           // 3. 运行模型

  // 预测测试集
  val predictionAndLabels = test.map { case LabeledPoint(label, features) =>
    val prediction = model.predict(features)
    (prediction, label)
  }

  // 预测结果
  val metrics = new MulticlassMetrics(predictionAndLabels)
  val precision = metrics.precision
  println("Precision = " + precision)
}

Spark能够对Logistic Regression进行并行化，因此通过对Spark1.6.1源码的分析，本文期望能解决下述问题：

Spark在哪里对LR算法进行了并行化？
如何并行化？

我们可以先猜测一下可能的并行化的部分是在哪里？我们知道，如果使用一阶方法，通常使用SGD方法进行求解，涉及到梯度的计算，如果使用二阶方法，通常使用Newton方法进行求解，涉及到梯度和Hessian矩阵的计算，二阶的计算量较大，如果使用近似二阶的方法，通常是LBFGS，也涉及到梯度的计算，因此，LR算法的计算量都在梯度的计算上。而梯度计算通常是可以分开同时计算的，因此我们大胆猜测一下Spark可能是在这里对LR进行并行计算的。

2. 类关系图

在开始分析源码之前，先看一下LR相关的类关系图(右键大图)，了解类之间的关系有助于我们理解算法(画的不是很标准，就凑合这么看吧(…逃)。

我们的入口是第二列绿色标出的LogisticRegressionWithLBFGS，可以看出它有一个很庞大的成员LBFGS类，其中LBFGS的求解依赖于它的两个成员Gradient和Updater，一个用于梯度的计算，一个用于梯度的更新。这两个类都是抽象类，Gradient的子类可以是LogisticGradient、LeastSquaresGradient、HingeGradient对应逻辑回归、线性回归、SVM的梯度。Updater的子类可以是SimpleUpdater、L1Updater、SquaredL2Updater对应不带正则项的梯度更新、带L1正则项的梯度更新、带L2正则项的梯度更新。图中右侧定义了CostFun，LBFGS算法迭代全依赖这个函数，别看它的名字叫CostFun，实际上他的作用是同时计算出损失和梯度，怎么计算呢？使用定义的Gradient子类，计算出梯度怎么更新呢？使用定义的Updater子类。源码中比较重要的方法就是橙色标出的两个，我们后面分析都会围绕这几个方法。

类关系图大致就是这样，下面我们来深入源码来分析一下。

3. 创建用LBFGS求解LR的类

LR属于广义线性模型(Generalized Linear Models)的特例，因此继承自GeneralizedLinearAlgorithm类。

// 1. GeneralizedLinearAlgorithm
abstract class GeneralizedLinearAlgorithm[M <: GeneralizedLinearModel]
  extends Logging with Serializable {

  // 主要验证label的有效性，主要有：(1)二分类：label在{0, 1}, (2)多分类：label在{0, 1, ..., k-1}
  protected val validators: Seq[RDD[LabeledPoint] => Boolean] = List()
  // 主要用来优化算法的类，这里是LBFGS
  def optimizer: Optimizer
  // 是否添加线性模型的截距项
  protected var addIntercept: Boolean = false
  // 是否验证数据有效性，默认是要的
  protected var validateData: Boolean = true
  // 这里就是我们模型参数类数，2分类的话只需要一个权重向量即可(默认)，多分类即类别数-1个权重向量。
  protected var numOfLinearPredictor: Int = 1
  // 是否特征缩放，默认是否，可以设置为true，特征缩放可以加快模型的收敛速度。
  private var useFeatureScaling = false
  // 特征数
  protected var numFeatures: Int = -1

这里LBFGS类就是第2节的那个绿框框起来的最重要的类，它需要两个参数Gradient和Updater，可以看到传入的是LogisticGradient和SquaredL2Updater，即使用LR的梯度和L2正则。

// 2. new LogisticRegressionWithLBFGS
class LogisticRegressionWithLBFGS
  extends GeneralizedLinearAlgorithm[LogisticRegressionModel] with Serializable {
  // 在LR中默认是要特征缩放的，可以减小训练集的条件数，加快收敛
  this.setFeatureScaling(true)
  // 使用LBFGS算法求解
  override val optimizer = new LBFGS(new LogisticGradient, new SquaredL2Updater)
}

4. 运行模型

调用创建的LogisticRegressionWithLBFGS类的run方法运行模型，run继承自其父类，从第2节可以看到父类的run方法有两个，第一个方法会根据数据集创建对应的初始化权重调用第二个run方法。

二分类时(K=2)，numOfLinearPredictor=1，模型的参数向量长度为numFeatures，如果添加了截距项则长度多一项。多分类时(K>2)，这时LR应该称为(Multinomial logistic regression)，numOfLinearPredictor=K-1，-1是因为模型输出概率求和为1，所以K类分类K个参数向量实际有1列是冗余的，这列可以由其他参数表示。

注：多分类时参数通常表示为矩阵的形式，不过这里用一个长向量来代替了矩阵。

// 3.GeneralizedLinearAlgorithm#run(input)
def run(input: RDD[LabeledPoint]): M = {
  // ...
  val initialWeights = {
    if (numOfLinearPredictor == 1) {
      Vectors.zeros(numFeatures)
    } else if (addIntercept) {
      Vectors.zeros((numFeatures + 1) * numOfLinearPredictor)
    } else {
      Vectors.zeros(numFeatures * numOfLinearPredictor)
    }
  }
  run(input, initialWeights) // 4. 运行模型
}

下面的根据useFeatureScaling做特征缩放，LR默认是要做的，毕竟能够加快收敛速度。一般将特征缩放到一个区间一般可以有两种方式：1）最大最小归一化；2）z-score标准化

不同的是Spark使用的是后者，而且只对特征除以了标准差，没有减去均值。关于这样做的原因我认为是它不想再对测试集做任何预处理了。只做特征缩放，让模型在缩放的特征空间中进行训练，最后再将训练的参数乘以权重以使权重恢复到原始空间。

P (y = 1 | x; w) = g (w T 1 x) P (y = 1 | x; w) = g (w T 2 x σ)

其中，

g(z) 为sigmoid函数：

g (z) = 1 1 + e x p ( - z ) (1)

可见

w1 是原始空间的权重向量，

w2 是缩放空间的权重向量，且有

w1=w2/σ ，二者只差了一个标准差

σ ，从缩放空间恢复到原始空间只需要

w2 除以

σ 。如果减去均值，或者使用最大最小缩放，可能在从

w2 恢复到

w1 时就不是那么好处理了，个人见解。

// 4.GeneralizedLinearAlgorithm#run(input, initialWeights)
def run(input: RDD[LabeledPoint], initialWeights: Vector): M = {
  // ...
  // 根据是否特征缩放创建StandardScaler，不减去均值
  val scaler = if (useFeatureScaling) { 
    new StandardScaler(withStd = true, withMean = false).fit(input.map(_.features))
  } else {
    null
  }

  // 特征缩放
  val data =
    if (addIntercept) { 
      if (useFeatureScaling) {
        input.map(lp => (lp.label, appendBias(scaler.transform(lp.features)))).cache()
      } else {
        input.map(lp => (lp.label, appendBias(lp.features))).cache()
      }
    } else {
      if (useFeatureScaling) {
        input.map(lp => (lp.label, scaler.transform(lp.features))).cache()
      } else {
        input.map(lp => (lp.label, lp.features))
      }
    }

  // 添加截距项
  val initialWeightsWithIntercept = if (addIntercept && numOfLinearPredictor == 1) {
    appendBias(initialWeights)
  } else {
    initialWeights
  }

  // 模型优化，这里是最精彩的部分。
  val weightsWithIntercept = optimizer.optimize(data, initialWeightsWithIntercept) // 5. 

  // 获取截距项
  val intercept = if (addIntercept && numOfLinearPredictor == 1) {
    weightsWithIntercept(weightsWithIntercept.size - 1)
  } else {
    0.0
  }

  // 获取模型参数——权重向量
  var weights = if (addIntercept && numOfLinearPredictor == 1) {
    Vectors.dense(weightsWithIntercept.toArray.slice(0, weightsWithIntercept.size - 1))
  } else {
    weightsWithIntercept
  }

  // 将权重从缩放的特征空间恢复到原始特征空间
  if (useFeatureScaling) {
    if (numOfLinearPredictor == 1) {
      weights = scaler.transform(weights)
    } else {
      var i = 0
      val n = weights.size / numOfLinearPredictor
      val weightsArray = weights.toArray
      while (i < numOfLinearPredictor) {
        // 依次拷贝每一个类别下的权重，因为模型参数是以长向量形式存储的，所以循环拷贝
        val start = i * n
        val end = (i + 1) * n - { if (addIntercept) 1 else 0 }
        val partialWeightsArray = scaler.transform(

          Vectors.dense(weightsArray.slice(start, end))).toArray
        System.arraycopy(partialWeightsArray, 0, weightsArray, start, partialWeightsArray.size)
        i += 1
      }
      weights = Vectors.dense(weightsArray)
    }
  }
  // ...
  createModel(weights, intercept) // 10. 创建模型
}

5. 模型优化

优化的类是LBFGS，看一下它的定义：

class LBFGS(private var gradient: Gradient, private var updater: Updater)
  extends Optimizer with Logging {
  private var numCorrections = 10       // 存储的校正矩阵的历史长度
  private var convergenceTol = 1E-4     // 收敛终止条件
  private var maxNumIterations = 100    // 最大迭代次数
  private var regParam = 0.0            // 正则项参数
}

optimize调用了runLBFGS，重点关注runLBFGS方法。

// 5.LBFGS#optimize(data, initialWeights)
override def optimize(data: RDD[(Double, Vector)], initialWeights: Vector): Vector = {
  val (weights, _) = LBFGS.runLBFGS( // 6. 
    data,       
    gradient,
    updater,
    numCorrections,
    convergenceTol,
    maxNumIterations,
    regParam,
    initialWeights)
  weights
} // return 4.

这个方法核心是CostFun，CostFun实现了breeze线性代数库的DiffFunction接口，实现这个接口的函数需要提供一个calculate(weights: BDV[Double])方法，这个方法返回损失函数值和梯度。这一块儿我们先不看。我们定义好CostFun之后调用LBFGS的iterations方法不断更新权重，最后通过state就可以拿到我们最后优化好的权重，最后返回。

// 6.LBFGS#runLBFGS(...)
def runLBFGS(
    data: RDD[(Double, Vector)], // 训练集
    gradient: Gradient,         // 这里是LogisticGradient
    updater: Updater,           // 这里是SquaredL2Updater      
    numCorrections: Int,        // LBFGS使用校正矩阵的历史长度
    convergenceTol: Double,     // 收敛终止条件
    maxNumIterations: Int,      // 最大迭代次数
    regParam: Double,           // 正则项参数
    initialWeights: Vector): (Vector, Array[Double]) = {

  val lossHistory = mutable.ArrayBuilder.make[Double]
  val numExamples = data.count()
  val costFun = new CostFun(data, gradient, updater, regParam, numExamples)

  val lbfgs = new BreezeLBFGS[BDV[Double]](maxNumIterations, numCorrections, convergenceTol)
  // LGBGS通过调用iterations方法优化参数
  val states = // 7. 内部调用costFun的calculate方法计算loss和grad
    lbfgs.iterations(new CachedDiffFunction(costFun), initialWeights.toBreeze.toDenseVector)

  var state = states.next()
  while (states.hasNext) {
    lossHistory += state.value
    state = states.next()
  }
  lossHistory += state.value
  // 优化好的权重向量
  val weights = Vectors.fromBreeze(state.x)

  val lossHistoryArray = lossHistory.result()

  logInfo("LBFGS.runLBFGS finished. Last 10 losses %s".format(
    lossHistoryArray.takeRight(10).mkString(", ")))
  // 返回权重和损失的历史信息。
  (weights, lossHistoryArray)
} // return 5.

5.1 损失与梯度的计算

该来的还是会来的，我们分析下CostFun的部分，这里是最最精彩的部分(…之一)，这里懂了LR的源码就拿下了(…一半)。先看下CostFun的定义，看起来好像没什么特别的。

private class CostFun(
  data: RDD[(Double, Vector)], // 训练数据
  gradient: Gradient,         // 这里是LogisticGradient
  updater: Updater,           // 这里是SquaredL2Updater
  regParam: Double,           // 正则项参数
  numExamples: Long) extends DiffFunction[BDV[Double]]

我们重点关注它复写的calculate(weights)方法，为什么？因为这里就是Spark数据并行的地方，怎么并行呢？我们来分析一下。代码中不是以batch的方式进行梯度计算的，而是计算全量的梯度。复习一下梯度更新公式：

w j : = w j - α \sum i = 1 m \nabla g (2)

可以看到梯度求和公式实际可以分开计算的，分开计算的地方就是并行的地方。Spark大多数代码都用到了treeAggregate方法对数据进行聚合，关于这个方法的详细说明见博主另一篇 treeAggregate。聚合的时候我们最前面提到的Gradient子类也就是LogisticGradient将会发挥它计算LR梯度的作用。

聚合操作的初始值为(Vectors.zeros(n), 0.0)，分别为初始梯度和初始损失。聚合的第一阶段是seqOp操作，以第一次为例，左侧的c表示(grad, loss)元组；右侧的v来自数据集，表示(label, features)元组，(label, features)被传入给localGradient，进而调用其compute方法得到使用该样本得到的梯度和损失，之后和元组c对应累加。因为grad的累加是(in-place)的，因此经过seqOp操作之后，返回(grad, loss + l)。聚合操作的第二阶段是combOp操作，只是简单的对前面计算的loss和grad的聚合。这样全量样本下的梯度和损失就已经计算好了。不过这些损失和梯度都不含正则项部分，后面是正则项的梯度和损失的求解。

// 7. CostFun#calculate(weights)
override def calculate(weights: BDV[Double]): (Double, BDV[Double]) = {
  // Have a local copy to avoid the serialization of CostFun object which is not serializable.
  val w = Vectors.fromBreeze(weights)  // 权重向量
  val n = w.size                     // 权重向量长度
  val bcW = data.context.broadcast(w)
  val localGradient = gradient        // 这里是LogisticGradient

  val (gradientSum, lossSum) = data.treeAggregate((Vectors.zeros(n), 0.0))(
      seqOp = (c, v) => (c, v) match { case ((grad, loss), (label, features)) =>
        val l = localGradient.compute( // 8. LR的梯度计算
          features, label, bcW.value, grad)
        (grad, loss + l)
      },
      combOp = (c1, c2) => (c1, c2) match { case ((grad1, loss1), (grad2, loss2)) =>
        axpy(1.0, grad2, grad1)
        (grad1, loss1 + loss2)
      })
  // compute方法返回(更新以后的权重，正则项的损失)，这这里只取后者
  // 这里传入的梯度是零向量，stepSize=0，iter=1，只计算正则项的损失
  val regVal = updater.compute(w, Vectors.zeros(n), 0, 1, regParam)._2 // 9. 正则项梯度更新
  // 总损失
  val loss = lossSum / numExamples + regVal
  // 更新正则项梯度
  val gradientTotal = w.copy
  // 这里传入的梯度是零向量，stepSize=1，iter=1，只计算正则项的梯度
  axpy(-1.0, updater.compute(w, Vectors.zeros(n), 1, 1, regParam)._1, gradientTotal)
  // 更新总梯度
  axpy(1.0 / numExamples, gradientSum, gradientTotal)

  (loss, gradientTotal.toBreeze.asInstanceOf[BDV[Double]])
} // return 6.

5.2 LR目标函数梯度计算

上面是从总体上了解LR损失的计算与梯度的更新，细节的东西在gradient.compute和updater.compute中。先看gradient的计算，在子类LogisticGradient中。

1. 二分类

二分类的部分比较简单，对照二分类的NLL(Negative Log Likelihood)损失函数公式，不过逻辑回归的损失函数通常有两种形式(这里只是对单个样本而言)，具体见MLAPP的8.3.1节，不要搞混了：

l (w) = - (y log (g (w T x)) + (1 - y) log (1 - g (w T x))) (3)

l (w) = log (1 + exp (- y \cdot w T x)) (4)

分别对应 y∈{0, 1} 和 y∈{-1, 1} 。其中，使用式(3)对 w 求梯度：

\partial l \partial w = x T (g (w T x) - y) (5)

计算完当前样本的梯度后，使用axpy方法对梯度进行累加。后面的log1pExp部分是计算二分类的损失部分，不过损失是用(4)式计算的(…懵)，不过(3)与(4)都是等价的，没关系。计算损失时为了保证数值的稳定性，这里有一个小trick。因为计算margin时可能因为噪声样本的存在使得margin的值非常大，当margin>709.78，exp就溢出了。以计算

log(1+ex) 为例，当

x>0 时，做简单的变换

log(e−x⋅ex+ex)=x+log(e−x) ，这时指数部分

−x<0 就不会溢出了。

// 8.LogisticGradient#compute(...)
// ...
numClasses match {
  case 2 =>
    val margin = -1.0 * dot(data, weights)                   // w^T*x
    val multiplier = (1.0 / (1.0 + math.exp(margin))) - label // 对应式(5)
    axpy(multiplier, data, cumGradient)                     // 梯度累加
    if (label > 0) {
      // The following is equivalent to log(1 + exp(margin)) but more numerically stable.
      MLUtils.log1pExp(margin) 
    } else {
      MLUtils.log1pExp(margin) - margin
    }
} // return 7.

2. 多分类

多分类看到想哭，不过没关系，一点点分析。多分类(Multinomial logistic regression)，也叫Softmax，作为逻辑回归的一般化形式。使用它的一个好处就是它能处理多类别分类问题。另一个就是它的输出也是一个概率分布。因此深度学习中的多分类问题也经常使用Softmax作为最后一层输出各类别下的预测概率。

一般对K类问题时Softmax可以有K个权重向量作为参数，但实际上一个参数是冗余的，前面也提到了，因为模型输出概率求和为1，所以冗余的这列实际上可以由其他参数表示。在实际应用中，为了使算法实现更简单清楚，往往保留所有的K个参数向量。不过冗余的参数可能会导致模型过拟合，需要对代价函数做一个改动：加入权重衰减。权重衰减可以解决Softmax 回归的参数冗余所带来的数值问题，详见Softmax。Spark在实现Softmax稍微有些不同，它去掉了冗余的这一列权重向量，对一般的K分类问题，其权重参数大小为 numFeature×(K−1) ，选择 K=0 作为Pivot，有：

log (P ( y = 1 | x ; w ) P ( y = 0 | x ; w )) log (P ( y = 2 | x ; w ) P ( y = 0 | x ; w )) log (P ( y = K - 1 | x ; w ) P ( y = 0 | x ; w )) = w T 1 x = w T 2 x . . . = w T K - 1 x (6)

上式可以写为：

P (y = 1 | x; w) P (y = 2 | x; w) P (y = K - 1 | x; w) = e x p ( w T 1 x ) ( 1 + \sum K - 1 k = 1 exp ( w T k x ) ) = e x p ( w T 2 x ) ( 1 + \sum K - 1 k = 1 exp ( w T k x ) ) . . . = e x p ( w T K - 1 x ) ( 1 + \sum K - 1 k = 1 exp ( w T k x ) ) (7)

且有：

P (y = 0 | x; w) = 1 - \sum k = 1 K - 1 P (y = k | x; w) = 1 ( 1 + \sum K - 1 k = 1 exp ( w T k x ) ) (8)

有了(7)和(8)式我们可以写出Softmax的NLL损失函数，式(9)，在代码中会用到：

l (w) = - l o g P (y | x; w) = - α (y) l o g P (y = 0 | x; w) - (1 - α (y)) l o g P (y | x; w) = l o g (1 + \sum k = 1 K - 1 exp (w T k x)) - (1 - α (y)) w T y - 1 x = l o g (1 + \sum k = 1 K - 1 exp (m a r g i n s k)) - (1 - α (y)) m a r g i n s y - 1 (9)

其中：

α = {α (i) = 1 α (i) = 0 i \neq 0 i = 0

到这里就快要接近胜利了，因为损失函数我们已经有了，只要再写下梯度就OK了。不过这里还是刚刚的trick，就是exp的数值溢出的问题，因此我们需要让margins中的最大值maxMargin，对exp做等价变换，详见 Softmax。

l (w, x) = l o g (1 + \sum k = 1 K - 1 exp (m a r g i n s k)) - (1 - α (y)) m a r g i n s y - 1 = l o g (exp (- m a x M a r g i n) + \sum k = 1 K - 1 exp (m a r g i n s k - m a x M a r g i n)) + m a x M a r g i n - (1 - α (y)) m a r g i n s y - 1 = l o g (1 + s u m) + m a x M a r g i n - (1 - α (y)) m a r g i n s y - 1 (10)

上式(10)中有：

s u m = exp (- m a x M a r g i n) + \sum k = 1 K - 1 exp (m a r g i n s k - m a x M a r g i n) - 1 (11)

不过具体到代码实现的时候我感觉这个sum好像少了最后那个-1哎。

好累…，终于搞定了损失函数了，只差一个梯度，go on…，根据(9)式其实可以很方便的写出梯度公式：

\partial l ( w ) \partial w i = (e x p ( m a r g i n s i ) 1 + \sum K - 1 k = 1 exp ( m a r g i n s k ) - (1 - α (y)) δ y, i + 1) x = (exp ( m a r g i n s i - m a x M a r g i n ) exp ( - m a x M a r g i n ) + \sum K - 1 k = 1 e x p ( m a r g i n s k - m a x M a r g i n ) - (1 - α (y)) δ y, i + 1) \cdot x = (exp ( m a r g i n s i - m a x M a r g i n ) ( 1 + s u m ) - (1 - α (y) δ y, i + 1)) x = m u l t i p l i e r \cdot x (12)

其中：当

y=i+1 时，

δy,i+1 取值为1，否则为0。

好了，现在我们手上拿着公式(10)和公式(12)去怼源码， (╯｀□′)╯（┻━┻。

// 8.LogisticGradient#compute(...)
numClasses match {
  // ...
  case _ =>
    // ...
    // marginY=margins(label - 1)，记录了公式10的最后一项
    var marginY = 0.0
    var maxMargin = Double.NegativeInfinity
    var maxMarginIndex = 0
    // 记录maxMargin及其下标，减去maxMargin防止exp数值溢出
    val margins = Array.tabulate(numClasses - 1) { i =>
      var margin = 0.0
      data.foreachActive { (index, value) =>
        if (value != 0.0) margin += value * weightsArray((i * dataSize) + index)
      }
      if (i == label.toInt - 1) marginY = margin
      if (margin > maxMargin) {
        maxMargin = margin
        maxMarginIndex = i
      }
      margin
    }

    // 计算公式11
    val sum = {
      var temp = 0.0
      if (maxMargin > 0) {
        for (i <- 0 until numClasses - 1) {
          margins(i) -= maxMargin
          if (i == maxMarginIndex) {
            temp += math.exp(-maxMargin)
          } else {
            temp += math.exp(margins(i))
          }
        }
      } else {
        for (i <- 0 until numClasses - 1) {
          temp += math.exp(margins(i))
        }
      }
      temp
    }
    // 梯度累加，计算公式12
    for (i <- 0 until numClasses - 1) {
      val multiplier = math.exp(margins(i)) / (sum + 1.0) - {
        if (label != 0.0 && label == i + 1) 1.0 else 0.0
      }
      data.foreachActive { (index, value) =>
        if (value != 0.0) cumGradientArray(i * dataSize + index) += multiplier * value
      }
    }

    // 计算公式10及其最后一项
    val loss = if (label > 0.0) math.log1p(sum) - marginY else math.log1p(sum)
    // 计算公式10的maxMargin项
    if (maxMargin > 0) {
      loss + maxMargin
    } else {
      loss
    }
} // return 7.

5.3 LR正则项计算及梯度更新

这一部分主要是计算正则项损失，以及梯度的更新。当stepSize=0，iter=1时，可以通过返回值第二项取得正则项的损失，当stepSize=1，iter=1时，可以通过返回值第一项取得正则项的梯度。否则则进行梯度的更新操作，这里第二项为L2正则项的梯度：

w = w - α (\nabla g + λ w) = (1 - α λ) w - α \nabla g (12)

注：这里有一点就是步长是随迭代次数衰减的。

// 9. SquaredL2Updater#compute(...)
class SquaredL2Updater extends Updater {
  override def compute(
      weightsOld: Vector,
      gradient: Vector,
      stepSize: Double,
      iter: Int,
      regParam: Double): (Vector, Double) = {
    val thisIterStepSize = stepSize / math.sqrt(iter)
    val brzWeights: BV[Double] = weightsOld.toBreeze.toDenseVector
    brzWeights :*= (1.0 - thisIterStepSize * regParam)
    brzAxpy(-thisIterStepSize, gradient.toBreeze, brzWeights)
    val norm = brzNorm(brzWeights, 2.0)

    (Vectors.fromBreeze(brzWeights), 0.5 * regParam * norm * norm)
  }
} // return 7.

6. 模型预测

其实模型预测没有什么好讲的了，优化完权重参数后会根据二分类还是多分类创建对应的模型，二分类如果预测概率大于threshold则判定为正类，反之负类。多分类的话会遍历所有的权重，去预测概率最大的类，如果计算的maxMargin为负，则返回第1类。还有就是预测时默认是返回样本所属类别的，可以通过调用model.clearThreshold()方法，返回预测概率，不过多分类想要得到各类概率在这个版本貌似是没有的，不过实现起来也不难。

7. 总结

通过对Spark LR源码的分析，终于了解了它内部是如何实现了，终于不用做LR的调包侠了。到这里我们也能解答文章开始的两个问题了：

Spark在哪里对LR算法进行了并行化？

在计算全量样本的梯度时，是可以分开计算的，之后会对分开计算的梯度做聚合。因此在计算梯度的地方就是并行的地方。当然不只是梯度，损失也是同理。
如何并行化？

Spark使用了RDD的treeAggregate方法对梯度和损失计算进行了并行计算，首先通过seqOp计算出每个RDD分区内的样本的梯度，之后combOp对所有的分区的结果做聚合，从而得到总体的梯度。

如果文章中有什么错误的地方西方大家指出，共同进步，逃~

参考：

1. CS229 Lecture Note

2. MLAPP-Logistic Regression

3. 牛顿法与拟牛顿法学习笔记（五）L-BFGS 算法

4. Softmax回归 - ufldl

5. Multinomial logistic regression - wiki

6. CS231n Softmax classifier

7. Multinomial Logistic Regression with Apache Spark

你可能感兴趣的:(spark,spark,源码,mllib,机器学习,逻辑回归)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
cesium添加原生MVT矢量瓦片方案 zhu_zhu_xia cesium vue arcgis cesium webgl javascript
项目中需要基于cesium接入mvt格式的服务并支持属性拾取查询，通过一系列预研测试，最后选择cesium-mvt-imagery-provider开源插件完成，关键源码信息如下：npmicesiumcesium-mvt-imagery-provider//安装依赖包//加载图层importCesiumMVTImageryProviderfrom"cesium-mvt-imagery-provid
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
OkHttp3源码解析--设计模式，android开发实习面试题
this.cache=builder.cache;}//构造者publicstaticfinalclassBuilder{Cachecache;…//构造cache属性值publicBuildercache(@NullableCachecache){this.cache=cache;returnthis;}//在build方法中真正创建OkHttpClient对象，并传入前面构造的属性值publi
OkHttp3源码解析--设计模式 2401_84413396 程序员设计模式
}//在创建OkHttpClient的时候OkHttpClientclient=newOkHttpClient.Builder().cache(/创建cache对象/).build();工厂模式====直接看代码：publicinterfaceCallextendsCloneable{Requestrequest();Responseexecute()throwsIOException;voide
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
android中百度定位、城市选择列表，右侧字母展示
好久好久没光顾过自己空空的博客了，做项目的时候都是逛着别人的博客急着把功能实现，近来闲下来了总结总结。这个城市选择功能也是当时做项目急着实现从哪找来的框架不记得了，然后改改用到项目中来的。非常感谢提供最初源码的博主，主要的区别是添加了搜索功能、定位功能，把以前的操作本地数据库sqlite的部分，改为操作对assest文件的操作，封装的有百度地图定位方法、可删除的edittext。百度地图的key需
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
HashMap的Get(),Put()源码解析 Ttang23 哈希算法散列表算法
1、什么是HashMap？HashMap是Java中用于存储键值对（Key-Value）的集合类，它实现了Map接口。其核心特点是：无序性：不保证元素的存储顺序，也不保证顺序恒定不变。唯一性：键（Key）不能重复，若插入重复键会覆盖原有值。允许null：允许一个null键和任意数量的null值。非线程安全：相比HashTable，HashMap不支持同步，性能更高。2.核心数据结构：哈希表（Has
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
Centos7安装uwsgi详细步骤快乐骑行^_^ 大数据 Centos7 安装uwsgi
Centos7安装uwsgi详细步骤步骤一：下载源码到centos7服务器步骤二：解压步骤三：编译环境准备步骤四：进入解压目录，并且编译uwsgi步骤五：准备测试安装是否成功的python代码testUwsgi步骤六：启动uWSGI来运行一个HTTP服务器步骤七：服务器ip+端口号访问步骤一：下载源码到centos7服务器uwsgi最新版2.0.20下载地址如下：https://github.co
Python uWSGI 安装配置 AI老李 python python 开发语言
关键要点uWSGI安装和配置适合PythonWSGI应用，资源丰富，适合初学者和中级用户。推荐菜鸟教程和官方文档，涵盖Linux和Windows环境。配置需注意操作系统差异和框架（如Django、Flask）需求。安装步骤uWSGI安装通常通过pip或源码编译完成。以下是基本步骤：Linux：安装依赖（如build-essentialpython-dev），然后用pipinstalluwsgi或编
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
macd的python代码同花顺_同花顺最牛MACD副图源码再来一碗饭
DIFF:EMA(CLOSE,6)-EMA(CLOSE,16),ColorFFFF26;DEA:EMA(DIFF,5),Color8A15FF;MACD:=2*(DIFF-DEA);对DIFF:0-(EMA(CLOSE,6)-EMA(CLOSE,16));对DEA:0-(EMA(DIFF,5));对称:0-(2*(DIFF-DEA)),STICK,ColorFF6060,LINETHICK1;{D
Elasticsearch混合搜索深度解析（下）：执行机制与完整流程 GeminiJM ES学习笔记 elasticsearch jenkins 大数据
引言在上篇中，我们发现了KNN结果通过SubSearch机制被保留的关键事实。本篇将继续深入分析混合搜索的执行机制，揭示完整的处理流程，并解答之前的所有疑惑。深入源码分析1.SubSearch的执行机制1.1KnnScoreDocQueryBuilder的实现KNN结果被转换为KnnScoreDocQueryBuilder，这个类负责在查询阶段重新执行KNN搜索：//server/src/main
GMSK调制解调算法的仿真与研究(源码+万字报告+讲解) 炳烛之明科技算法
目录GMSK调制解调算法的仿真与研究1摘要1Abstract11绪论51.1研究背景及意义51.2国内外研究现状61.3研究内容102几种数字调制方式112.1GMSK调制112.1.1GMSK简介112.1.2GMSK调制原理122.2QPSK调制152.3二进制相移键控(BPSK)163GMSK调制与解调方案与研究173.1GMSK传统调制方法173.1.1直接产生GMSK信号173.1.2P
树莓派 —— 在树莓派4b板卡下编译FFmpeg源码，支持硬件编解码器（mmal或openMax硬编解码加速）信必诺 FFmpeg 树莓派 FFmpeg 编译源码 mmal openMax 树莓派树莓派4b
FFmpeg相关音视频技术、疑难杂症文章合集（掌握后可自封大侠⓿_⓿）（记得收藏，持续更新中…）正文 1、准备工作（1）树莓派烧录RaspberryPi系统（2）树莓派配置固定IP（文末）（3）xshell连接树莓派（4）
四. go 常见数据结构实现原理之 map 苹果香蕉西红柿 #二.Go 常见数据结构实现原理数据结构 golang 哈希算法
目录一.基础hash的基本方案二.map初始化创建map的底层结构hmapbucket桶桶的细节总结minTopHash与是否迁移extra一些重要的常量标志初始化三.插入数据存储数据时key的定位策略四.查询数据五.删除六.扩容扩容策略与扩容大小扩容与数据迁移源码七.总结map底层结构相关问题总结初始化底层总结插入数据底层总结查询数据底层总结扩容底层总结常见问题一.基础在go基础入门十一map集
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
kotlin - 协程 launch 源码分析
kotlin-协程launch源码分析CoroutineScope(Dispatchers.Main).launch{}1.launch函数入口launch是CoroutineScope的扩展函数，定义在kotlinx.coroutines库中：publicfunCoroutineScope.launch(context:CoroutineContext=EmptyCoroutineContext
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python+springboot+vue的音乐系统 QQ_511008285 python spring boot vue.js django flask node.js php
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl