cjneo

逻辑回归梯度下降法详解

原文地址 http://blog.csdn.net/lookqlp/article/details/51161640

引言

逻辑回归常用于预测疾病发生的概率，例如因变量是是否恶性肿瘤，自变量是肿瘤的大小、位置、硬度、患者性别、年龄、职业等等（很多文章里举了这个例子，但现代医学发达，可以通过病理检查，即获取标本放到显微镜下观察是否恶变来判断）；广告界中也常用于预测点击率或者转化率(cvr/ctr)，例如因变量是是否点击，自变量是物料的长、宽、广告的位置、类型、用户的性别、爱好等等。
本章主要介绍逻辑回归算法推导、梯度下降法求最优值的推导及spark的源码实现。

常规方法

一般回归问题的步骤是：
1. 寻找预测函数（h函数，hypothesis）
2. 构造损失函数（J函数）
3. 使损失函数最小，获得回归系数θ

而第三步中常见的算法有：
1. 梯度下降
2. 牛顿迭代算法
3. 拟牛顿迭代算法（BFGS算法和L-BFGS算法）
其中随机梯度下降和L-BFGS在spark mllib中已经实现，梯度下降是最简单和容易理解的。

推导

二元逻辑回归

构造预测函数
$h θ (x) = g (θ T x) = 1 1 + e - θ T x$
其中：
$θ T x = \sum i = 1 n θ i x i = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n θ = ⎡ ⎣ ⎢ ⎢ ⎢ θ 0 θ 1 . . . θ n ⎤ ⎦ ⎥ ⎥ ⎥, x = ⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 . . . x n ⎤ ⎦ ⎥ ⎥ ⎥$
为何LR模型偏偏选择sigmoid 函数呢？逻辑回归不是回归问题，而是二分类问题，因变量不是0就是1，那么我们很自然的认为概率函数服从伯努利分布，而伯努利分布的指数形式就是个sigmoid 函数。
函数hθ(x)表示结果取1的概率，那么对于分类1和0的概率分别为：
$P (y = 1 | x; θ) = h θ (x) P (y = 0 | x; θ) = 1 - h θ (x)$
概率一般式为：
$P (y | x; θ) = (h θ (x)) y ((1 - h θ (x))) 1 - y$
最大似然估计的思想
当从模型总体随机抽取m组样本观测值后，我们的目标是寻求最合理的参数估计θ′使得从模型中抽取该m组样本观测值的概率最大。最大似然估计就是解决此类问题的方法。求最大似然函数的步骤是：
1. 写出似然函数
2. 对似然函数取对数
3. 对对数似然函数的参数求偏导并令其为0，得到方程组
4. 求方程组的参数
为什么第三步要取对数呢，因为取对数后，乘法就变成加法了，且单调性一致，不会改变极值的位置，后边就更好的求偏导。
构造损失函数
线性回归中的损失函数是：
$J (θ) = 1 2 m \sum i = 1 m (y i - h θ (x i)) 2$
线性回归损失函数有很明显的实际意义，就是平方损失。而逻辑回归却不是，它的预测函数hθ(x)明显是非线性的，如果类比的使用线性回归的损失函数于逻辑回归，那J(θ)很有可能就是非凸函数，即存在很多局部最优解，但不一定是全局最优解。我们希望构造一个凸函数，也就是一个碗型函数做为逻辑回归的损失函数。
按照求最大似然函数的方法，逻辑回归似然函数：
$L (θ) = \prod i = 1 m P (y i | x i; θ) = \prod i = 1 m (h θ (x i)) y i ((1 - h θ (x i))) 1 - y i$
其中m表示样本数量，取对数：
$l (θ) = l o g L (θ) = \sum i = 1 m (y i l o g h θ (x i) + (1 - y i) l o g (1 - h θ (x i)))$
我们的目标是求最大l(θ)时的θ，如上函数是一个上凸函数，可以使用梯度上升来求得最大似然函数值(最大值)。或者上式乘以-1，变成下凸函数，就可以使用梯度下降来求得最小负似然函数值（最小值）：
$J (θ) = - 1 m l (θ)$
同样是取极小值，思想与损失函数一致，即我们把如上的J(θ)作为逻辑回归的损失函数。Andrew Ng的课程中，上式乘了一个系数1/m，我怀疑就是为了和线性回归的损失函数保持一致吧。
求最小值时的参数
我们求最大似然函数参数的第三步时，令对参数θ偏导=0，然后求解方程组。考虑到参数数量的不确定，即参数数量很大，此时直接求解方程组的解变的很困难，或者根本就求不出精确的参数。于是，我们用随机梯度下降法，求解方程组的值。
当然也可以使用牛顿法、拟牛顿法。梯度下降法是最容易理解和推导的，如下是推导过程：
梯度下降θ的更新过程，走梯度方向的反方向：
$θ j : = θ j - α δ δ θ j J (θ)$
其中：
$δ δ θ j J (θ) = - 1 m \sum i = 1 m (y i 1 h θ ( x i ) δ δ θ j h θ (x i) - (1 - y i) 1 1 - h θ ( x i ) δ δ θ j h θ (x i)) = - 1 m \sum i = 1 m (y i 1 g ( θ T x i ) - (1 - y i) 1 1 - g ( θ T x i )) δ δ θ j g (θ T x i) = - 1 m \sum i = 1 m (y i 1 g ( θ T x i ) - (1 - y i) 1 1 - g ( θ T x i )) g (θ T x i) (1 - g (θ T x i)) δ δ θ j θ T x i = - 1 m \sum i = 1 m (y i (1 - g (θ T x i)) - (1 - y i) g (θ T x i)) x j i = - 1 m \sum i = 1 m (y i - g (θ T x i)) x j i = 1 m \sum i = 1 m (h θ (x i) - y i)) x j i$
第二步推导请注意：

那么可以推导：
$δ δ θ j g (θ T x i) = - e - θ T x i ( 1 + e - θ T x i ) 2 δ δ θ j (- 1) θ T x i = g (θ T x i) (1 - g (θ T x i)) δ θ j θ T x i$
因此更新过程可以写成：
$θ j : = θ j - α 1 m \sum i = 1 m (h θ (x i) - y i)) x j i$
那迭代多少次停止呢，spark是指定迭代次数和比较两次梯度变化或者cost变化小于一定值时停止。
过拟合问题
过拟合问题，即我们求得的回归系数在实验集中效果很好，但之外的数据效果很差。机器学习中的特征基本上是靠人的经验选择的，有可能某一些特征或者特征组合与因变量没有任何关系，即某些θi≈0。所以我们需要把不必要的特征剔除，一般我们使用正则化来保留所有特征，并让它相应的系数≈0，L1范数正则化后θ的更新：
$θ j : = θ j - α 1 m \sum i = 1 m (h θ (x i) - y i)) x j i - λ m θ j$
λ越大，对模型的复杂度惩罚越大，有可能出现欠拟合现象。λ越小，惩罚越小，可能新出现过拟合现象。spark逻辑回归的随机梯度下降法中，使用的是L2范数正则化。

多元逻辑回归

推广到K元逻辑回归，即因变量为0、1、2、…、k-1。在二元逻辑回归中有这样的性质：

l o g P ( y = 1 | x , θ ) P ( y = 0 | x , θ ) = θ T x

推广至K元逻辑回归：

l o g P ( y = 1 | x , θ ) P ( y = 0 | x , θ ) = θ T 1 x l o g P ( y = 2 | x , θ ) P ( y = 0 | x , θ ) = θ T 2 x . . . l o g P ( y = K - 1 | x , θ ) P ( y = 0 | x , θ ) = θ T K - 1 x

其中，

θ=(θ1,θ2,...,θK−1)T ，是个（k-1）*（n+1）的矩阵，n为特征的个数，加1是增加截距项。去除对数则得到概率分布：

P (y = 0 | x, θ) = 1 1 + \sum K - 1 i = 1 e θ T i x P (y = 1 | x, θ) = e θ T 1 x 1 + \sum K - 1 i = 1 e θ T i x . . . P (y = K - 1 | x, θ) = e θ T K - 1 x 1 + \sum K - 1 i = 1 e θ T i x

K元逻辑回归似然函数：

L (θ) = \prod i = 1 m P (y | x, θ)

定义：

α (y i) = 1 i f y i = 0 α (y i) = 0 i f y i \neq 0

取对数：

l (θ, x) = \sum i = 1 m l o g P (y i | x i, θ) = \sum i = 1 m α (y i) l o g P (y = 0 | x i, θ) + (1 - α (y i)) l o g P (y i | x i, θ) = \sum i = 1 m α (y i) l o g 1 1 + \sum K - 1 k = 1 e θ T k x + (1 - α (y i)) l o g e θ T y i x 1 + \sum K - 1 k = 1 e θ T k x = \sum i = 1 m (1 - α (y i)) θ T y i x - l o g (1 + \sum k = 1 K - 1 e θ T k x)

同样的我们得到损失函数：

J (θ, x) = - 1 m l (θ, x)

θ 更新过程：

θ j : = θ j - α δ δ θ j J (θ, x)

对

θ 求偏导得到梯度：

G k j (θ, x) = - 1 m δ l ( θ , x ) δ θ k j = - 1 m (\sum i = 1 m (1 - α (y i)) x i j δ k, y i - e θ T x i 1 + e θ T x i x i j)

其中k表示因变量，j表示特征数量，i表示实验数。
spark源码注释中，稍稍不一样，

l(w,x) 乘以了-1，其实与我们上边推导的

−1m 意义一样。我们来看看spark的推导过程。

P (y = 0 | x, w) = 1 / (1 + \sum i K - 1 exp (x w i)) P (y = 1 | x, w) = e x p (x w 1) / (1 + \sum i K - 1 exp (x w i)) . . . P (y = K - 1 | x, w) = e x p (x w K - 1) / (1 + \sum i K - 1 exp (x w i)

取对数：

l (w, x) = - l o g P (y | x, w) = - α (y) l o g P (y = 0 | x, w) - (1 - α (y)) l o g P (y | x, w) = l o g (1 + \sum i K - 1 exp (x w i)) - (1 - α (y)) x w y - 1 = l o g (1 + \sum i K - 1 exp (m a r g i n s i)) - (1 - α (y)) m a r g i n s y - 1

其中：

α (i) = 1 i f i! = 0, α (i) = 0 i f i = = 0, m a r g i n s i = x w i .

求偏导：

\partial l ( w , x ) \partial w i j = (exp (x w i) / (1 + \sum k K - 1 exp (x w k)) - (1 - α (y) δ y, i + 1)) * x j = m u l t i p l i e r i * x j

其中：

δ i, j = 1 i f i = = j, δ i, j = 0 i f i! = j, m u l t i p l i e r = exp (m a r g i n s i) / (1 + \sum k K - 1 exp (m a r g i n s i)) - (1 - α (y) δ y, i + 1)

为了不让数值溢出,xw项减了maxMargin，

l(w,x) 改写为：

l (w, x) = l o g (1 + \sum i K - 1 exp (m a r g i n s i)) - (1 - α (y)) m a r g i n s y - 1 = l o g (exp (- m a x M a r g i n) + \sum i K - 1 exp (m a r g i n s i - m a x M a r g i n)) + m a x M a r g i n - (1 - α (y)) m a r g i n s y - 1 = l o g (1 + s u m) + m a x M a r g i n - (1 - α (y)) m a r g i n s y - 1

其中：

s u m = exp (- m a x M a r g i n) + \sum i K - 1 exp (m a r g i n s i - m a x M a r g i n) - 1

而multiplier可以表示为：

m u l t i p l i e r = exp (m a r g i n s i) / (1 + \sum k K - 1 exp (m a r g i n s i)) - (1 - α (y) δ y, i + 1) = exp (m a r g i n s i - m a x M a r g i n) / (1 + s u m) - (1 - α (y) δ y, i + 1)

spark源码

先看实例代码:

import org.apache.spark.SparkContext
import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionModel}
import org.apache.spark.mllib.evaluation.MulticlassMetrics
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.util.MLUtils

// Load training data in LIBSVM format.
//样例数据格式:
//1 特征id1:值id1 特征id2:值id2 ...
//0 特征id1:值id3 特征id4:值id4 ...
//特征和特征对应的值都使用数值一一标示了
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt")

// Split data into training (60%) and test (40%).
val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L)
val training = splits(0).cache()
val test = splits(1)

// Run training algorithm to build the model
// 官方样例分类数设置为10,但样例数据因变量是0和1,所以这里应该时设置错了.
// 梯度下降法每次迭代都会变量整个样本集,推荐使用拟牛顿法LBFGS,后续文章中继续介绍
val model = new LogisticRegressionWithLBFGS()
  .setNumClasses(10)
  .run(training)

// Compute raw scores on the test set.
val predictionAndLabels = test.map { case LabeledPoint(label, features) =>
  val prediction = model.predict(features)
  (prediction, label)
}

// Get evaluation metrics.
val metrics = new MulticlassMetrics(predictionAndLabels)
val precision = metrics.precision
println("Precision = " + precision)

// Save and load model
// 输出是个模型,就是一个向量$\theta$,带入概率分布函数求得类型的概率
model.save(sc, "myModelPath")
val sameModel = LogisticRegressionModel.load(sc, "myModelPath")

随机梯度下降调用:

 /**
   * Train a logistic regression model given an RDD of (label, features) pairs. We run a fixed
   * number of iterations of gradient descent using the specified step size. Each iteration uses
   * `miniBatchFraction` fraction of the data to calculate the gradient. The weights used in
   * gradient descent are initialized using the initial weights provided.
   * NOTE: Labels used in Logistic Regression should be {0, 1}
   *
   * @param input RDD of (label, array of features) pairs.
   * @param numIterations Number of iterations of gradient descent to run.迭代次数
   * @param stepSize Step size to be used for each iteration of gradient descent.步长
   * @param miniBatchFraction Fraction of data to be used per iteration.用于模型预估数据的比例
   * @param initialWeights Initial set of weights to be used. Array should be equal in size to the number of features in the data.初始化权重
   */
  @Since("1.0.0")
  def train(
      input: RDD[LabeledPoint],
      numIterations: Int,
      stepSize: Double,
      miniBatchFraction: Double,
      initialWeights: Vector): LogisticRegressionModel = {
    new LogisticRegressionWithSGD(stepSize, numIterat2 Aions, 0.0, miniBatchFraction)
      .run(input, initialWeights)
  }

LogisticRegressionWithLBFGS和LogisticRegressionWithSGD都继承于GeneralizedLinearModel,它的run方法:

 def run(input: RDD[LabeledPoint], initialWeights: Vector): M = {

    if (numFeatures < 0) {
    // 输入的特征数等于第一行特征个数.
      numFeatures = input.map(_.features.size).first()
    }
    // 输入数据的存储类别.
    if (input.getStorageLevel == StorageLevel.NONE) {
      logWarning("The input data is not directly cached, which may hurt performance if its"
        + " parent RDDs are also uncached.")
    }

    // Check the data properties before running the optimizer
    if (validateData && !validators.forall(func => func(input))) {
      throw new SparkException("Input validation failed.")
    }

    /**
     * Scaling columns to unit variance as a heuristic to reduce the condition number:
     *
     * During the optimization process, the convergence (rate) depends on the condition number of
     * the training dataset. Scaling the variables often reduces this condition number
     * heuristically, thus improving the convergence rate. Without reducing the condition number,
     * some training datasets mixing the columns with different scales may not be able to converge.
     *
     * GLMNET and LIBSVM packages perform the scaling to reduce the condition number, and return
     * the weights in the original scale.
     * See page 9 in http://cran.r-project.org/web/packages/glmnet/glmnet.pdf
     *
     * Here, if useFeatureScaling is enabled, we will standardize the training features by dividing
     * the variance of each column (without subtracting the mean), and train the model in the
     * scaled space. Then we transform the coefficients from the scaled space to the original scale
     * as GLMNET and LIBSVM do.
     *通过每一列除以这一列的标准差,将数据标准化.LBFGS算法中可以启用.
     * Currently, it's only enabled in LogisticRegressionWithLBFGS
     */
    val scaler = if (useFeatureScaling) {
      new StandardScaler(withStd = true, withMean = false).fit(input.map(_.features))
    } else {
      null
    }

    // Prepend an extra variable consisting of all 1.0's for the intercept.
    // TODO: Apply feature scaling to the weight vector instead of input data.
    // 默认是不加入截距项的
    val data =
      if (addIntercept) {
        if (useFeatureScaling) {
          input.map(lp => (lp.label, appendBias(scaler.transform(lp.features)))).cache()
        } else {
          input.map(lp => (lp.label, appendBias(lp.features))).cache()
        }
      } else {
        if (useFeatureScaling) {
          input.map(lp => (lp.label, scaler.transform(lp.features))).cache()
        } else {
          input.map(lp => (lp.label, lp.features))
        }
      }

    /**
     * TODO: For better convergence, in logistic regression, the intercepts should be computed
     * from the prior probability distribution of the outcomes; for linear regression,
     * the intercept should be set as the average of response.
     */
    val initialWeightsWithIntercept = if (addIntercept && numOfLinearPredictor == 1) {
      appendBias(initialWeights)
    } else {
      /** If `numOfLinearPredictor > 1`, initialWeights already contains intercepts. */
      initialWeights
    }
    //SGD 或者 LBFGS算法
    val weightsWithIntercept = optimizer.optimize(data, initialWeightsWithIntercept)
    ...
    createModel(weights, intercept)
  }

梯度下降SGD实现:

def runMiniBatchSGD(
      data: RDD[(Double, Vector)],
      gradient: Gradient,
      updater: Updater,
      stepSize: Double,
      numIterations: Int,
      regParam: Double,
      miniBatchFraction: Double,
      initialWeights: Vector,
      convergenceTol: Double): (Vector, Array[Double]) = {
    ...
      //不知道此数组干啥用的
    val stochasticLossHistory = new ArrayBuffer[Double](numIterations)
    ...
    // Initialize weights as a column vector
    var weights = Vectors.dense(initialWeights.toArray)
    val n = weights.size

    /**
     * For the first iteration, the regVal will be initialized as sum of weight squares
     * if it's L2 updater; for L1 updater, the same logic is followed.
     */
    var regVal = updater.compute(
      weights, Vectors.zeros(weights.size), 0, 1, regParam)._2

    var converged = false // indicates whether converged based on convergenceTol
    var i = 1
    while (!converged && i <= numIterations) {
      val bcWeights = data.context.broadcast(weights)
      // Sample a subset (fraction miniBatchFraction) of the total data
      // compute and sum up the subgradients on this subset (this is one map-reduce)
      val (gradientSum, lossSum, miniBatchSize) = data.sample(false, miniBatchFraction, 42 + i)
        .treeAggregate((BDV.zeros[Double](n), 0.0, 0L))(
          seqOp = (c, v) => {
            // c: (grad, loss, count), v: (label, features)
            // 返回损失loss,没看明白为何要算loss,及loss为何这么算log(1 + exp(margin))
            // 主要目的时计算c._1梯度向量
            val l = gradient.compute(v._2, v._1, bcWeights.value, Vectors.fromBreeze(c._1))
            (c._1, c._2 + l, c._3 + 1)
          },
          combOp = (c1, c2) => {
            // c: (grad, loss, count)
            (c1._1 += c2._1, c1._2 + c2._2, c1._3 + c2._3)
          })

      if (miniBatchSize > 0) {
        /**
         * lossSum is computed using the weights from the previous iteration
         * and regVal is the regularization value computed in the previous iteration as well.
         */
        stochasticLossHistory.append(lossSum / miniBatchSize + regVal)
        // 正则化
        val update = updater.compute(
          weights, Vectors.fromBreeze(gradientSum / miniBatchSize.toDouble),
          stepSize, i, regParam)
        weights = update._1
        regVal = update._2

        previousWeights = currentWeights
        currentWeights = Some(weights)
        if (previousWeights != None && currentWeights != None) {
          converged = isConverged(previousWeights.get,
            currentWeights.get, convergenceTol)
        }
      } else {
        logWarning(s"Iteration ($i/$numIterations). The size of sampled batch is zero")
      }
      i += 1
    }

    logInfo("GradientDescent.runMiniBatchSGD finished. Last 10 stochastic losses %s".format(
      stochasticLossHistory.takeRight(10).mkString(", ")))

    (weights, stochasticLossHistory.toArray)

  }

combOp是θ的更新过程中的∑过程.在二元逻辑回归情况下:

case 2 =>
        /**
         * For Binary Logistic Regression.
         *
         * Although the loss and gradient calculation for multinomial one is more generalized,
         * and multinomial one can also be used in binary case, we still implement a specialized
         * binary version for performance reason.
         */
        val margin = -1.0 * dot(data, weights)
        val multiplier = (1.0 / (1.0 + math.exp(margin))) - label
        axpy(multiplier, data, cumGradient)
        if (label > 0) {
          // The following is equivalent to log(1 + exp(margin)) but more numerically stable.
          MLUtils.log1pExp(margin)
        } else {
          MLUtils.log1pExp(margin) - margin
        }

margin 就是(−θTx),而multiplier就是hθ(xi)−yi.axpy方法就是(hθ(xi)−yi))xi.

一文详解：使用HTTPS有哪些优势？ JoySSL303 https 网络协议 http ssl 网络
互联网发展到今天，HTTP协议的明文传输会让用户存在非常大的安全隐患。试想一下，假如你在一个HTTP协议的网站上面购物，你需要在页面上输入你的银行卡号和密码，然后你把数据提交到服务器实现购买。假如这个环节稍有不慎，你的传输数据被第三者给截获了，由于HTTP明文数据传输的原因，你的银行卡号和密码，将会被这个截获人所得到。现在你还敢在一个HTTP的网站上面购物吗？你还会在一个HTTP的网站上面留下你的
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
c语言逻辑运算符编程,C语言之逻辑运算符详解湛蓝色的迷惘 c语言逻辑运算符编程
一逻辑运算符：&&：逻辑与，读作并且表达式左右两边都为真，那么结果才为真口诀：一假则假||：逻辑或，读作或者表达式左右两边，有一个为真，那么结果就为真口诀：一真则真!:逻辑非，读作取反表达式的结果如果为假，就变成真，如果为真，就变成假口诀：真变假，假变真二逻辑运算符的短路问题tips:非0为真，0为假短路的情况：&&：左边如果为假，则右边短路(右边不会被执行)||：左边如果为真，则右边短路(右边不
C语言正则表达式使用详解
标准的C和C++都不支持正则表达式，但有正则表达式的函数库提供这功能.C语言处理正则表达式常用的函数有regcomp()、regexec()、regfree()和regerror()。使用正则表达式步骤：1)编译正则表达式regcomp()2)匹配正则表达式regexec()3)释放正则表达式regfree()4)获取regcomp或者regexec产生错误，获取包含错误信息的字符串函数声明如下：
Linux守护进程不脱发的程序猿嵌入式Linux“望闻问切“linux 嵌入式
目录1、编写守护进程的步骤2、守护进程的使用和案例设计2.1、案例功能分析2.2、守护进程代码结构2.3、代码实现2.4、代码详解3、编译和运行守护进程4、检查守护进程5、停止守护进程守护进程（Daemon）是一种在后台运行的特殊进程，通常用于执行系统服务、管理任务或处理请求。它们具有几个显著的特征，使其在系统中扮演重要角色。主要特征：长期运行：守护进程通常在系统启动时启动，并会持续运行，直至系统
C#.NET log4net 详解 c#.net
简介log4net是.NET平台上非常成熟的日志组件，源自Java世界的log4j。它功能丰富、性能高、配置灵活，是企业应用中常见的日志框架之一。核心特点支持多种输出目标（Appender）：文件、数据库、控制台、远程服务等支持多种格式化（Layout）支持按级别（Level）记录日志支持日志分类（Logger分组、命名空间隔离）配置灵活，可通过XML文件配置，也可通过代码配置支持异步日志、按文件
ollama v0.9.6版本发布详解：修复启动屏幕样式及新增工具名称参数支持福大大架构师每日一题文心一言vschatgpt ollama
作为近年来备受瞩目的开源对话式人工智能框架之一，ollama持续更新优化其产品，致力于为开发者带来更稳定、高效的使用体验。2025年7月8日，ollama发布了v0.9.6版本，这一版本在用户界面和API的可用性方面做出了重要改进，进一步增强了开发和集成的便捷性。本文将对ollamav0.9.6版本的更新内容进行全面解析，详细介绍新特性、修复的具体问题、应用示例及最佳实践，帮助开发者快速掌握和应用
青少年编程与数学 02-022 专业应用软件简介 22 电子签名和合同管理平台：法大大明月看潮生编程与数学第02阶段青少年编程应用软件编程与数学电子签名合同管理
青少年编程与数学02-022专业应用软件简介22电子签名和合同管理平台：法大大引言一、法大大的背景与发展历程1.1公司概述1.2发展历程二、产品功能详解2.1核心功能介绍2.2特色功能展示三、应用场景案例分析3.1行业应用实例3.2成功案例分享四、技术安全保障措施4.1数据加密技术4.2风险控制体系4.3合规性审查五、市场地位与未来展望5.1市场份额与影响力5.2未来发展计划摘要：法大大是中国领先
408考研逐题详解：2010年第23题——系统调用
2010年第23题下列选项中，操作系统提供给应用程序的接口是（）A.系统调用\qquadB.中断\qquadC.库函数\qquadD.原语解析本题考查对操作系统接口机制的理解，特别是应用程序如何与操作系统内核交互以请求服务（如文件操作、进程管理等）。系统调用：是操作系统内核为应用程序提供的一组预定义接口，允许应用程序请求内核服务（如I/O操作、进程控制、内存分配等）。应用程序通过特定的指令（如in
408考研逐题详解：2010年第22题——显存带宽 CS创新实验室考研复习408 考研计算机考研 408 真题解析
2010年第22题假定一台计算机的显示存储器用DRAM芯片实现，若要求显示分辨率为1600×1200，颜色深度为24位，帧频为85Hz，显存总带宽的50%用来刷新屏幕，则需要的显存总带宽至少约为（）A.245Mbps\qquadB.979Mbps\qquadC.1958Mbps\qquadD.7834Mbps解析本题主要考查显存总带宽的计算方法，涉及计算机显示系统的基本参数，包括分辨率、颜色深度、
[SystemVerilog] Clocking S＆Z3463 SystemVerilog fpga开发
SystemVerilogClocking用法详解SystemVerilog的clocking块（ClockingBlock）是一种专门用于定义信号时序行为的构造，主要用于验证环境（如UVM）中，以精确控制信号的采样和驱动时序。clocking块通过将信号与特定时钟关联，简化了测试环境中对时序敏感信号的处理，减少了手动时序管理的复杂性。本文将详细介绍SystemVerilog中clocking块的
shell编程之sed命令详解
shell编程之sedsed编辑器介绍sed（流编辑器）是一种非交互式文本处理工具，基于预设规则逐行处理数据流（文件或管道输入）。它将当前行存入模式空间，按命令处理后输出到标准输出，不修改原始文件。工作流程读取一行数据到模式空间；按顺序执行编辑命令；输出处理后的行；重复直至所有行处理完毕。命令格式sed[options]'script'[file1file2...]选项：选项描述-escript显
【JAVA】Spring MVC 详解弗瑞德学JAVA JAVA复习 java spring mvc
SpringMVC基本概念1.SpringMVC概述SpringMVC是Spring框架中的一个模块，专注于为Web应用程序提供Model-View-Controller(MVC)架构。它帮助开发者构建可扩展、可维护的Web应用，并且能够轻松集成到Spring生态系统中。2.DispatcherServletDispatcherServlet是SpringMVC的核心组件，负责接收HTTP请求，并
MySQL 统计信息详解：从原理到实践我科绝伦（Huanhuan Zhou） mysql mysql android 数据库
MySQL统计信息是数据库优化器生成查询执行计划的关键依据，记录了表和索引的基本特性，辅助优化器估算查询成本、选择最优执行路径。一、统计信息主要内容分为表级、索引级和列级三类。1.1表级统计信息描述表基本属性，如行数（TABLE_ROWS）、平均行长度（AVG_ROW_LENGTH）、数据大小（DATA_LENGTH）、索引大小（INDEX_LENGTH）、空闲空间（DATA_FREE）。获取方式
深度学习核心知识简介和模型调参研术工坊深度学习知识和技巧深度学习人工智能 python
深度学习模型调优就像调制一道复杂的菜肴，需要掌握多种"调料"的用法。本文将为您详解这些关键"调料"，帮助您烹饪出高性能的模型。###核心参数及其影响####1️⃣Loss（损失函数）**基本介绍**：衡量模型预测与真实值差距的指标，是模型优化的指南针。**生活类比**：想象你在教小孩认识动物：-**完美情况**：小孩看到猫说"猫"，看到狗说"狗"→Loss=0-**有错误**：小孩看到猫说"狗"→
Maven详解之仓库------本地仓库、远程仓库娜娜带你学架构师 java maven java spring boot 运维算法
在Maven中，任何一个依赖、插件或者项目构建的输出，都可以称之为构件。Maven在某个统一的位置存储所有项目的共享的构件，这个统一的位置，我们就称之为仓库。（仓库就是存放依赖和插件的地方）任何的构件都有唯一的坐标，Maven根据这个坐标定义了构件在仓库中的唯一存储路径，解读Maven在仓库中的存储路径：1.基于groupId准备路径，将句点分隔符转成路径分隔符，就是将“.”转换成“/”;exam
Log4J日志配置详解
今天群里一个哥们问一个问题：我想先控制每天日志的大小比如10个1M的这个是我最初使用的log4j配置文件里的内容log4j.appender.RF=org.apache.log4j.DailyRollingFileAppenderlog4j.appender.RF.File=./log/log.txtlog4j.appender.RF.DatePattern='.'yyyy-MM-dd'.txt'
高并发计数器LongAdder 实现原理与使用场景详解
LongAdder原理与应用详解一、设计背景与核心思想1.传统原子类的性能瓶颈AtomicInteger/AtomicLong基于CAS实现高并发场景缺陷：CAS失败率随竞争加剧指数上升CPU空转消耗大量资源缓存一致性流量（MESI协议）导致总线风暴2.LongAdder设计目标降低竞争：通过数据分片分散写压力空间换时间：牺牲部分内存换取更高吞吐最终一致性：允许读取结果存在短暂误差二、实现原理剖析
web3钱包的运作原理
Web3钱包的运作原理核心在于通过加密技术管理区块链资产，实现用户对数字资产的自主控制，以下是其具体运作原理的概括与详解：核心结论Web3钱包是管理区块链账户的工具，通过生成公私钥对、利用区块链共识机制验证交易，并依托智能合约实现资产交互，本质是用户掌控数字资产所有权的“密码管理器”。详细运作原理1.公私钥加密体系：账户的数字身份-私钥：由钱包随机生成的一串长字符串（如64位十六进制数），是账户的
【web安全】SQLMap 参数深度解析：--risk 与 --level 详解
目录简介一、--risk参数：测试风险控制1.基本定义2.各级别详细对比risk=1(默认)risk=2risk=33.使用建议二、--level参数：测试深度控制1.基本定义2.各级别详细对比level=1(默认)level=2level=3level=4level=53.技术实现差异4.使用建议三、参数组合策略1.经典组合方案2.DVWAHigh级别推荐四、性能与效果对比1.测试数据统计2.资
框架面试题07Spring框架中bean的创建过程？
Spring框架中Bean的创建过程是一个精细控制的生命周期流程，涉及多个关键步骤和扩展点。以下是Spring容器（如ApplicationContext）创建Bean的完整过程详解：一、核心流程图
Scrapy与分布式开发(2.3)：lxml+xpath基本指令和提取方法详解九月镇灵将打造高效爬虫系统 scrapy 分布式 xpath lxml
lxml+xpath基本指令和提取方法详解一、XPath简介XPath，全称为XMLPathLanguage，是一种在XML文档中查找信息的语言。它允许用户通过简单的路径表达式在XML文档中进行导航。XPath不仅适用于XML，还常用于处理HTML文档。二、基本指令和提取方法选择节点使用XPath，你可以轻松地选择XML文档中的节点。*选择根节点：/*选择子节点：/parent/child*选择所
JavaScript Symbol 属性详解超烦淇淇 javascript 前端开发语言笔记
一、Symbol的本质与基础1.Symbol是什么JavaScript的第七种原始数据类型（ES6引入）创建唯一的、不可变的标识符主要用途：作为对象的属性键（Symbol属性）//创建Symbolconstid=Symbol('id');//'id'是描述符（可选）console.log(typeofid);//"symbol"2.核心特性特性说明示例唯一性每个Symbol都是唯一的Symbol(
深层神经网络：原理与传播机制详解网安spinage 深度学习神经网络人工智能机器学习深度学习
网络架构概述本文探讨的深层神经网络结构如下：输入层：3个神经元第一隐藏层：5个神经元第二隐藏层：5个神经元第三隐藏层：3个神经元输出层：1个神经元输出层隐藏层3隐藏层2隐藏层1输入层输出神经元3.1神经元3.2神经元3.3神经元2.1神经元2.2神经元2.3神经元2.4神经元2.5神经元1.1神经元1.2神经元1.3神经元1.4神经元1.5输入1输入2输入3数学符号定义符号含义维度XXX输入数据3
GlusterFS 分布式文件系统详解 Sally璐璐运维运维
一、核心特性高扩展性GlusterFS采用无共享架构，支持横向扩展，只需添加服务器节点即可提升存储容量和性能，理论上可达PB甚至EB级规模，且扩展过程对上层应用完全透明。例如，一个初始4节点、20TB的集群可无缝扩展至100节点、500TB规模，仅需执行简单扩容命令，无需中断服务或数据迁移。详细扩容步骤：准备新服务器并安装GlusterFS软件确保操作系统版本兼容安装glusterfs-serve
pytest测试框架完全指南
目录1.安装与基础配置安装方法版本检查配置文件2.编写测试函数基本结构断言机制3.测试执行与报告基本执行方式常用命令行选项测试报告4.测试组织与管理测试类模块化测试5.高级测试功能Fixtures详解参数化测试异常测试进阶6.测试控制与标记跳过测试标记测试7.插件生态系统常用插件8.最佳实践9.完整示例项目10.学习资源pytest是Python生态中最流行、功能最强大的测试框架之一，它提供了简洁
C语言实现DNS客户端 | 详解dns_create_question函数的设计与实现（Charon）服务器网络 linux
在实现一个简易的DNS查询客户端时，构造DNS报文是最关键的一步。DNS报文大致由两个部分组成：Header（报文头）Question（问题）本文聚焦于dns_create_question函数，即如何将用户输入的域名（如"www.example.com"）编码为符合DNS协议格式的查询字段，并构造相关的qtype与qclass信息。一、DNSQuestion结构体定义回顾structdns_qu
C++最小生成树算法详解你的冰西瓜 c++算法图论最小生成树
C++最小生成树算法详解引言在图论中，最小生成树（MinimumSpanningTree,MST）是一个非常重要的概念。对于给定的带权无向连通图，最小生成树是一棵包含图中所有顶点且边权之和最小的树。它在网络设计、电路布线等实际应用中具有广泛的意义。本文将详细介绍两种常见的最小生成树算法：Prim算法和Kruskal算法，并提供C++实现代码。一、最小生成树的基本概念1.1生成树一个连通图的生成树是
Python MoviePy详解：从入门到实战的视频编辑指南 detayun Python python 音视频开发语言
一、MoviePy核心特性与优势MoviePy是一个基于Python的开源视频编辑库，其核心设计理念是基于时间的函数式组合。与传统视频编辑软件不同，它将视频视为可动态计算的函数集合，每个视频剪辑（Clip）本质上是一个时间函数F(t)，返回指定时间点的图像帧或音频样本。这种设计赋予了开发者极大的灵活性：动态内容生成通过定义make_frame函数，可实现完全程序化的视频生成。例如：defgener
word中的单位详解
Word中的单位转换全面指南一、Word中支持的单位类型及转换关系1.常用单位类型磅（pt）：国际通用排版单位，1磅≈0.03527厘米，1厘米≈28.35磅。厘米（cm）：公制单位，1厘米≈28.35磅。毫米（mm）：1毫米≈2.8346磅。英寸（inch）：1英寸=72磅=2.54厘米。十二点活字（pica）：1十二点活字=12磅。像素（px）：在Word中不直接使用，但可通过分辨率换算（如9
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方