罗西的思考

Alink漫谈(十三) ：在线学习算法FTRL 之具体实现

Alink漫谈(十三) ：在线学习算法FTRL 之具体实现
- 0x00 摘要
- 0x01 回顾
- 0x02 在线训练
  - 2.1 预置模型
    - 2.1.1 训练模型
    - 2.1.2 加载模型
  - 2.2 分割高维向量
  - 2.3 迭代训练
    - 2.3.1 Flink Stream迭代功能
    - 2.3.2 迭代构建
      - 2.3.2.1 迭代的输入
      - 2.3.2.2 迭代的反馈
    - 2.3.3 迭代体 CalcTask / ReduceTask
      - 2.3.3.1 迭代初始化
      - 2.3.3.2 处理输入数据
      - 2.3.3.3 归并数据
      - 2.3.3.4 判断是否反馈
      - 2.3.3.5 判断是否输出模型
      - 2.3.3.6 处理反馈数据/更新参数
  - 2.4 输出模型
- 0x03 在线预测
  - 3.1 初始化
  - 3.2 获取在线训练模型
  - 3.3 在线预测
    - 3.3.1 加载预设置模型
    - 3.3.2 在线预测
    - 3.3.3 在线更新模型
- 0x04 问题解答
- 0xFF 参考

0x00 摘要

Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台，是业界首个同时支持批式算法、流式算法的机器学习平台。本文和上文一起介绍了在线学习算法 FTRL 在Alink中是如何实现的，希望对大家有所帮助。

0x01 回顾

书接上回 Alink漫谈(十二) ：在线学习算法FTRL 之整体设计。到目前为止，已经处理完毕输入，接下来就是在线训练。训练优化的主要目标是找到一个方向，参数朝这个方向移动之后使得损失函数的值能够减小，这个方向往往由一阶偏导或者二阶偏导各种组合求得。

为了让大家更好理解，我们再次贴出整体流程图：

0x02 在线训练

在线训练主要逻辑是：

1）加载初始化模型到 dataBridge；dataBridge = DirectReader.collect(model);
2）获取相关参数。比如vectorSize默认是30000，是否 hasInterceptItem；
3）获取切分信息。splitInfo = getSplitInfo(featureSize, hasInterceptItem, parallelism); 下面马上会用到。
4）切分高维向量。初始化数据做了特征哈希，会产生高维向量，这里需要进行切割。 initData.flatMap(new SplitVector(splitInfo, hasInterceptItem, vectorSize,vectorTrainIdx, featureIdx, labelIdx))；
5）构建一个 IterativeStream.ConnectedIterativeStreams iteration，这样会构建（或者说连接）两个数据流：反馈流和训练流；
6）用iteration来构建迭代体 iterativeBody，其包括两部分：CalcTask，ReduceTask；
- 6.1）CalcTask分成两个部分。flatMap1 是分布计算FTRL迭代需要的predict，flatMap2 是FTRL的更新参数部分；
- 6.2）ReduceTask分为两个功能：“归并这些predict计算结果“ / ”如果满足条件则归并模型 & 向下游算子输出模型“；
7）result = iterativeBody.filter；基本是以时间间隔为标准来判断（也可以认为是时间驱动），"时间未过期&向量有意义" 的数据将被发送回反馈数据流，继续迭代，回到步骤 6)，进入flatMap2；
8）output = iterativeBody.filter；符合标准（时间过期了）的数据将跳出迭代，然后算法会调用WriteModel将LineModelData转换为多条Row，转发给下游operator（也就是在线预测阶段）；即定时把模型更新给在线预测阶段。

2.1 预置模型

前面说到，FTRL先要训练出一个逻辑回归模型作为FTRL算法的初始模型，这是为了系统冷启动的需要。

2.1.1 训练模型

具体逻辑回归模型设定/训练是：

// train initial batch model
LogisticRegressionTrainBatchOp lr = new LogisticRegressionTrainBatchOp()
            .setVectorCol(vecColName)
            .setLabelCol(labelColName)
            .setWithIntercept(true)
            .setMaxIter(10);
BatchOperator initModel = featurePipelineModel.transform(trainBatchData).link(lr);

训练好之后，模型信息是DataSet 类型，位于变量 BatchOperator initModel之中，这是一个批处理算子。

2.1.2 加载模型

FtrlTrainStreamOp将initModel作为初始化参数。

FtrlTrainStreamOp model = new FtrlTrainStreamOp(initModel)

在FtrlTrainStreamOp构造函数中会加载这个模型；

dataBridge = DirectReader.collect(initModel);

具体加载时通过MemoryDataBridge直接获取初始化模型DataSet中的数据。

public MemoryDataBridge generate(BatchOperator batchOperator, Params globalParams) {
   return new MemoryDataBridge(batchOperator.collect());
}

2.2 分割高维向量

从前文可知，Alink的FTRL算法设置的特征向量维度是30000。所以算法第一步就是切分高维度向量，以便分布式计算。

String vecColName = "vec";
int numHashFeatures = 30000;

首先要获取切分信息，代码如下，就是将特征数目featureSize 除以并行度parallelism，然后得到了每个task对应系数的初始位置。

private static int[] getSplitInfo(int featureSize, boolean hasInterceptItem, int parallelism) {
    int coefSize = (hasInterceptItem) ? featureSize + 1 : featureSize;
    int subSize = coefSize / parallelism;
    int[] poses = new int[parallelism + 1];
    int offset = coefSize % parallelism;
    for (int i = 0; i < offset; ++i) {
        poses[i + 1] = poses[i] + subSize + 1;
    }
    for (int i = offset; i < parallelism; ++i) {
        poses[i + 1] = poses[i] + subSize;
    }
    return poses;
}
//程序运行时变量如下
featureSize = 30000
hasInterceptItem = true
parallelism = 4
coefSize = 30001
subSize = 7500
poses = {int[5]@11660} 
 0 = 0
 1 = 7501
 2 = 15001
 3 = 22501
 4 = 30001
offset = 1

然后根据切分信息对高维向量进行切割。

// Tuple5
DataStream> input
          = initData.flatMap(new SplitVector(splitInfo, hasInterceptItem, vectorSize,
                            vectorTrainIdx, featureIdx, labelIdx))
          .partitionCustom(new CustomBlockPartitioner(), 1);

具体切分在SplitVector.flatMap函数完成，结果就是把一个高维度向量分割给各个CalcTask。

代码摘要如下：

public void flatMap(Row row, Collector> collector) throws Exception {
				long sampleId = counter;
        counter += parallelism;
        Vector vec;
        if (vectorTrainIdx == -1) {
           .....
        } else {
            // 输入row的第vectorTrainIdx个field就是那个30000大小的系数向量
            vec = VectorUtil.getVector(row.getField(vectorTrainIdx));
        }

        if (vec instanceof SparseVector) {
            Map tmpVec = new HashMap<>();
            for (int i = 0; i < indices.length; ++i) {
              .....
              // 此处迭代完成后，tmpVec中就是task number个元素，每一个元素是分割好的系数向量。
            }
            for (Integer key : tmpVec.keySet()) {
                //此处遍历，给后面所有CalcTask发送五元组数据。
                collector.collect(Tuple5.of(sampleId, key, subNum, tmpVec.get(key), row.getField(labelIdx)));
            }
        } else {
         ......
        }
    }
}

这个Tuple5.of(sampleId, key, subNum, tmpVec.get(key), row.getField(labelIdx) )就是后面CalcTask的输入。

2.3 迭代训练

此处理论上有以下几个重点：

预测方法：在每一轮t中，针对特征样本xt，以及迭代后（第一次则是给定初值）的模型参数wt，我们可以预测该样本的标记值：pt=σ(wt,xt)，其中σ(a)=1/(1+exp(−a))是一个sigmoid函数。
损失函数：对一个特征样本xt，其对应的标记为yt ∈ 0,1，则通过 logistic loss 来作为损失函数。
迭代公式：我们的目的是使得损失函数尽可能的小，即可以采用极大似然估计来求解参数。首先求梯度，然后使用FTRL进行迭代。

伪代码思路大致如下

double p = learner.predict(x); //预测
learner.updateModel(x, p, y);  //更新模型
double loss = LogLossEvalutor.calLogLoss(p, y); //计算损失
evalutor.addLogLoss(loss); //更新损失
totalLoss += loss;
trainedNum += 1;

具体实施上Alink有自己的特点和调整。

2.3.1 Flink Stream迭代功能

机器学习都需要迭代训练，Alink这里利用了Flink Stream的迭代功能。

IterativeStream的实例是通过DataStream的iterate方法创建的˙。iterate方法存在两个重载形式：

一种是无参的，表示不限定最大等待时间；
一种提供一个长整型maxWaitTimeMillis参数，允许用户指定等待反馈边的下一个输入元素的最大时间间隔。

Alink选择了第二种。

在创建ConnectedIterativeStreams时候，用迭代流的初始输入作为第一个输入流，用反馈流作为第二个输入。

每一种数据流（DataStream）都会有与之对应的流转换（StreamTransformation）。IterativeStream对应的转换是FeedbackTransformation。

迭代流（IterativeStream）对应的转换是反馈转换（FeedbackTransformation），它表示拓扑中的一个反馈点（也即迭代头）。一个反馈点包含一个输入边以及若干个反馈边，且Flink要求每个反馈边的并行度必须跟输入边的并行度一致，这一点在往该转换中加入反馈边时会进行校验。

当IterativeStream对象被构造时，FeedbackTransformation的实例会被创建并传递给DataStream的构造方法。

迭代的关闭是通过调用IterativeStream的实例方法closeWith来实现的。这个函数指定了某个流将成为迭代程序的结束，并且这个流将作为输入的第二部分（second input）被反馈回迭代。

2.3.2 迭代构建

对于Alink来说，迭代构建代码是：

// train data format = 
// feedback format = Tuple7
IterativeStream.ConnectedIterativeStreams<
    Tuple5,
    Tuple7>
    iteration = input.iterate(Long.MAX_VALUE)
    .withFeedbackType(TypeInformation
    .of(new TypeHint>() {}));

// 即iteration是一个 IterativeStream.ConnectedIterativeStreams<...>

2.3.2.1 迭代的输入

从代码和注释可以看出，迭代的两种输入是：

train data format = ；这种其实是训练数据；
Tuple7；这种其实是反馈数据，就是“迭代的反馈流”作为这个第二输入 (second input)；

2.3.2.2 迭代的反馈

反馈流的设置是通过调用IterativeStream的实例方法closeWith来实现的。Alink这里是

DataStream>
		result = iterativeBody.filter(
            return (t3.f0 > 0 && t3.f2 > 0); // 这里是省略版本代码
            );

iteration.closeWith(result);

前面已经提到过，result filter 的判断是 return (t3.f0 > 0 && t3.f2 > 0) ，如果满足条件，则说明时间未过期&向量有意义，所以此时应该反馈回去，继续训练。

反馈流的格式是：

Tuple7；

2.3.3 迭代体 CalcTask / ReduceTask

迭代体由两部分构成：CalcTask / ReduceTask。

CalcTask每一个实例都拥有初始化模型dataBridge。

DataStream iterativeBody = iteration.flatMap(
    new CalcTask(dataBridge, splitInfo, getParams()))

2.3.3.1 迭代初始化

迭代是由 CalcTask.open 函数开始，主要做如下几件事

设定各种参数，比如
- 工作task个数，numWorkers = getRuntimeContext().getNumberOfParallelSubtasks();
- 本task的id，workerId = getRuntimeContext().getIndexOfThisSubtask();
读取初始化模型
- List modelRows = DirectReader.directRead(dataBridge);
- 把Row类型数据转换为线性模型 LinearModelData model = new LinearModelDataConverter().load(modelRows);
读取本task对应的系数 coef[i - startIdx]，这里就是把整个模型切分到numWorkers这么多的Task中，并行更新。
指定本task的开始时间 startTime = System.currentTimeMillis();

2.3.3.2 处理输入数据

CalcTask.flatMap1主要实现的是FTRL算法中的predict部分（注意，不是FTRL预测）。

解释：pt=σ(Xt⋅w)是LR的预测函数，求出pt的唯一目的是为了求出目标函数（在LR中采用交叉熵损失函数作为目标函数）对参数w的一阶导数g，gi=(pt−yt)xi。此步骤同样适用于FTRL优化其他目标函数，唯一的不同就是求次梯度g（次梯度是左导和右导之间的集合，函数可导--左导等于右导时，次梯度就等于一阶梯度）的方法不同。

函数的输入是 "训练输入数据"，即SplitVector.flatMap的输出 ----> CalcCalcTask的输入。输入数据是一个五元组，其格式为 train data format = ；

有三点需要注意：

是如果是第一次进入，则需要savedFristModel；
这里是有输入就处理，然后立即输出（和flatMap2不同，flatMap2有输入就处理，但不是立即输出，而是当时间到期了再输出）；
predict的实现：((SparseVector)vec).getValues()[i] * coef[indices[i] - startIdx];

大家会说，不对！predict函数应该是 sigmoid = 1.0 / (1.0 + np.exp(-w.dot(x)))。是的，这里还没有做 sigmoid 操作。当ReduceTask做了聚合之后，会把聚合好的 p 反馈回迭代体，然后在 CalcTask.flatMap2 中才会做 sigmoid 操作。

public void flatMap1(Tuple5 value,
                     Collector> out) throws Exception {
    if (!savedFristModel) { //第一次进入需要存模型
        out.collect(Tuple7.of(-1L, 0, getRuntimeContext().getIndexOfThisSubtask(),
            new DenseVector(coef), labelValues, -1.0, modelId++));
        savedFristModel = true;
    }
    Long timeStamps = System.currentTimeMillis();
    double wx = 0.0;
    Long sampleId = value.f0;
    Vector vec = value.f3;
    if (vec instanceof SparseVector) {
        int[] indices = ((SparseVector)vec).getIndices();
        // 这里就是具体的Predict
        for (int i = 0; i < indices.length; ++i) {
            wx += ((SparseVector)vec).getValues()[i] * coef[indices[i] - startIdx];
        }
    } else {
       ......
    }
    //处理了就输出
    out.collect(Tuple7.of(sampleId, value.f1, value.f2, value.f3, value.f4, wx, timeStamps));
}

2.3.3.3 归并数据

ReduceTask.flatMap 负责归并数据。

public static class ReduceTask extends
    RichFlatMapFunction,
        Tuple7> {
    private int parallelism;
    private int[] poses;
    private Map> buffer;
    private Map>> models = new HashMap<>();
}

flatMap函数大致完成如下功能，即两种归并：

为了输出模型使用。判断是否时间过期 if (value.f0 < 0)，如果过期，则归并模型：
- 生成一个List> model = models.get(value.f6); 以value.f6，即时间戳为key，插入到HashMap中。
- 如果全部收集完成，则向下游算子输出模型，并且从HashMap中删除暂存的模型。
为了归并predict使用。归并每个CalcTask计算的predict，形成一个 lable y；
- 用 label y 更新 Tuple7的f5，即Tuple7 中的 label，也就是预测的 y。
- 给每个下游算子（就是每个CalcTask了，不过是作为flatMap2的输入）发送这个新Tuple7；

当具体用作输出模型使用时，其变量如下：

models = {HashMap@13258}  size = 1
 {Long@13456} 1 -> {ArrayList@13678}  size = 1
  key = {Long@13456} 1
  value = {ArrayList@13678}  size = 1
   0 = {Tuple2@13698} "(1,0.0 -8.244533295515879E-5 0.0 -1.103997743166529E-4 0.0 -3.336931546279811E-5....."

2.3.3.4 判断是否反馈

这个 filter result 是用来判断是否反馈的。这里t3.f0 是sampleId, t3.f2是subNum。

DataStream>
    result = iterativeBody.filter(
    new FilterFunction>() {
        @Override
        public boolean filter(Tuple7 t3)
            throws Exception {
            // if t3.f0 > 0 && t3.f2 > 0 then feedback
            return (t3.f0 > 0 && t3.f2 > 0);
        }
    });

对于 t3.f0，有两处代码会设置为负值。

会在savedFirstModel 这里设置一次"-1"；即

if (!savedFristModel) {
		out.collect(Tuple7.of(-1L, 0, getRuntimeContext().getIndexOfThisSubtask(),
                    new DenseVector(coef), labelValues, -1.0, modelId++));
    savedFristModel = true;
}

也会在时间过期时候设置为 "-1"。

if (System.currentTimeMillis() - startTime > modelSaveTimeInterval) {
    startTime = System.currentTimeMillis();
    out.collect(Tuple7.of(-1L, 0, getRuntimeContext().getIndexOfThisSubtask(),
        new DenseVector(coef), labelValues, -1.0, modelId++));
}

对于 t3.f2，如果 subNum 大于零，说明在高维向量切分时候，是得到了有意义的数值。

因此 return (t3.f0 > 0 && t3.f2 > 0) 说明时间未过期&向量有意义，所以此时应该反馈回去，继续训练。

2.3.3.5 判断是否输出模型

这里是filter output。

value.f0 < 0 说明时间到期了，应该输出模型。

DataStream output = iterativeBody.filter(
    new FilterFunction>() {
        @Override
        public boolean filter(Tuple7 value) 
        {
            /* if value.f0 small than 0, then output */
            return value.f0 < 0;
        }
    }).flatMap(new WriteModel(labelType, getVectorCol(), featureCols, hasInterceptItem));

2.3.3.6 处理反馈数据/更新参数

CalcTask.flatMap2实际完成的是FTRL算法的其余部分，即更新参数部分。主要逻辑如下：

计算时间间隔 timeInterval = System.currentTimeMillis() - value.f6;
正式计算predict， p = 1 / (1 + Math.exp(-p)); 即sigmoid 操作；
计算梯度 g = (p - label) * values[i] / Math.sqrt(timeInterval); 这里除以了时间间隔；
更新参数；
输入。注意，这里是有输入就处理，但 不是立即输出，而是累积参数，当时间到期了再输出，也就是做到了定期输出模型；

在 Logistic Regression 中，sigmoid函数是σ(a) = 1 / (1 + exp(-a)) ，预估 pt = σ(xt . wt), 则 LogLoss 函数是

\[l_t(w_t) = -y_t log(p_t) - (1-y_t)log(1-p_t) \]

直接计算可以得到

\[∇l(w) = (σ(w.x_t) - y_t)x_t = (p_t - y_t)x_t \]

具体 LR + FTRL 算法实现如下：

@Override
public void flatMap2(Tuple7 value,
                     Collector> out)
    throws Exception {
    double p = value.f5;
    // 计算时间间隔 
    long timeInterval = System.currentTimeMillis() - value.f6;
    Vector vec = value.f3;

    /* eta */
    // 正式计算predict，之前只是计算了一半，这里计算后半部，即
    p = 1 / (1 + Math.exp(-p));
    .....

    if (vec instanceof SparseVector) {
        // 这里是更新参数
        int[] indices = ((SparseVector)vec).getIndices();
        double[] values = ((SparseVector)vec).getValues();

        for (int i = 0; i < indices.length; ++i) {
            // update zParam nParam
            int id = indices[i] - startIdx;
            // values[i]是xi
            // 下面的计算基本和Google伪代码一致
            double g = (p - label) * values[i] / Math.sqrt(timeInterval);
            double sigma = (Math.sqrt(nParam[id] + g * g) - Math.sqrt(nParam[id])) / alpha;
            zParam[id] += g - sigma * coef[id];
            nParam[id] += g * g;

            // update model coefficient
            if (Math.abs(zParam[id]) <= l1) {
                coef[id] = 0.0;
            } else {
                coef[id] = ((zParam[id] < 0 ? -1 : 1) * l1 - zParam[id])
                    / ((beta + Math.sqrt(nParam[id]) / alpha + l2));
            }
        }
    } else {
      ......
    }

    // 当时间到期了再输出，即做到了定期输出模型
    if (System.currentTimeMillis() - startTime > modelSaveTimeInterval) {
        startTime = System.currentTimeMillis();
        out.collect(Tuple7.of(-1L, 0, getRuntimeContext().getIndexOfThisSubtask(),
            new DenseVector(coef), labelValues, -1.0, modelId++));
    }
}

2.4 输出模型

WriteModel 类实现了输出模型功能，大致逻辑如下：

生成一个LinearModelData，用训练好的Tuple7来填充这个 LinearModelData。其中两个重要点：
- modelData.coefVector = (DenseVector)value.f3;
- modelData.labelValues = (Object[])value.f4;
把模型数据转换成List rows。LinearModelDataConverter().save(modelData, listCollector);
序列化，发送给下游算子。因为模型可能会很大，所以这里打散之后分布发送给下游算子。

public void flatMap(Tuple7 value, Collector out){
  
//输入value变量打印如下：
value = {Tuple7@13296} 
 f0 = {Long@13306} -1
 f1 = {Integer@13307} 0
 f2 = {Integer@13308} 2
 f3 = {DenseVector@13309} "-0.7383426732137565 0.0 0.0 0.0 1.5885293675862715E-4 -4.834608575902742E-5 0.0 0.0 -6.754208708318647E-5 ......"
  data = {double[30001]@13314} 
 f4 = {Object[2]@13310} 
 f5 = {Double@13311} -1.0
 f6 = {Long@13312} 0  
  
        //生成模型
        LinearModelData modelData = new LinearModelData();
        ......
        modelData.coefVector = (DenseVector)value.f3;
        modelData.labelValues = (Object[])value.f4;

        //把模型数据转换成List rows
        RowCollector listCollector = new RowCollector();
        new LinearModelDataConverter().save(modelData, listCollector);
        List rows = listCollector.getRows();

        for (Row r : rows) {
            int rowSize = r.getArity();
            for (int j = 0; j < rowSize; ++j) {
 							.....
              //序列化
            }
            out.collect(row);
        }

        iter++;
    }
}

0x03 在线预测

预测功能是在 FtrlPredictStreamOp 完成的。

// ftrl predict
FtrlPredictStreamOp predictResult = new FtrlPredictStreamOp(initModel)
        .setVectorCol(vecColName)
        .setPredictionCol("pred")
        .setReservedCols(new String[]{labelColName})
        .setPredictionDetailCol("details")
        .linkFrom(model, featurePipelineModel.transform(splitter.getSideOutput(0)));

从上面代码我们可以看到

FtrlPredict 功能同样需要初始模型 initModel，我们也是把逻辑回归模型赋予它。这样也是为了冷启动，即当FTRL训练模块还没有产生模型之前，FTRL预测模块也是可以对其输入数据做预测的。
model 是 FtrlTrainStreamOp 的输出，即 FTRL 的训练输出。所以 WriteModel 就直接把输出传给了 FtrlPredict功能。
splitter.getSideOutput(0) 这里是前面提到的测试输入，就是测试数据集。

linkFrom函数完成了业务逻辑，大致功能如下：

使用 inputs[0].getDataStream().flatMap ------> partition ----> map ----> flatMap(new CollectModel()) 得到了模型 LinearModelData modelstr；
使用 DataStream.connect 把输入的测试数据集和模型 LinearModelData modelstr关联起来，这样每个task都拥有了在线模型 modelstr，就可以通过 flatMap(new PredictProcess(...) 进行分布式预测；
使用 setOutputTable 和 LinearModelMapper 把预测结果输出；

即 FTRL的预测功能有三个输入：

初始模型 initModel -----> 最后被 PredictProcess.open 加载，作为冷启动的预测模型；
测试数据流 -----> 被 PredictProcess.flatMap1处理，进行预测；
FTRL训练阶段产生的模型数据流 ----> 被 PredictProcess.flatMap2 处理，进行在线模型更新；

3.1 初始化

构造函数中完成了初始化，即获取事先训练好的逻辑回归模型。

public FtrlPredictStreamOp(BatchOperator model) {
    super(new Params());
    if (model != null) {
        dataBridge = DirectReader.collect(model);
    } else {
        throw new IllegalArgumentException("Ftrl algo: initial model is null. Please set a valid initial model.");
    }
}

3.2 获取在线训练模型

CollectModel完成了获取在线训练模型功能。

其逻辑主要是：模型被分成若干块，其中 (long)inRow.getField(1) 这里记录了具体有多少块。所以 flatMap 函数会把这些块累积起来，最后组装成模型，统一发送给下游算子。

具体是通过一个 HashMap<> buffers 来完成临时拼装/最后组装的。

public static class CollectModel implements FlatMapFunction {

    private Map> buffers = new HashMap<>(0);

    @Override
    public void flatMap(Row inRow, Collector out) throws Exception {
      
// 输入参数如下      
inRow = {Row@13389} "0,19,0,{"hasInterceptItem":"true","vectorCol":"\"vec\"","modelName":"\"Logistic Regression\"","labelCol":null,"linearModelType":"\"LR\"","vectorSize":"30000"},null"
 fields = {Object[5]@13405} 
  0 = {Long@13406} 0
  1 = {Long@13403} 19
  2 = {Long@13406} 0
  3 = "{"hasInterceptItem":"true","vectorCol":"\"vec\"","modelName":"\"Logistic Regression\"","labelCol":null,"linearModelType":"\"LR\"","vectorSize":"30000"}"      
" 
        long id = (long)inRow.getField(0);
        Long nTab = (long)inRow.getField(1);

        Row row = new Row(inRow.getArity() - 2);

        for (int i = 0; i < row.getArity(); ++i) {
            row.setField(i, inRow.getField(i + 2));
        }

        if (buffers.containsKey(id) && buffers.get(id).size() == nTab.intValue() - 1) {
            buffers.get(id).add(row);
            // 如果累积完成，则组装成模型
            LinearModelData ret = new LinearModelDataConverter().load(buffers.get(id));
            buffers.get(id).clear();
            // 发送给下游算子。
            out.collect(ret);
        } else {            
            if (buffers.containsKey(id)) {
                //如果有key。则往list添加。
                buffers.get(id).add(row);
            } else {
                // 如果没有key，则添加list
                List buffer = new ArrayList<>(0);
                buffer.add(row);
                buffers.put(id, buffer);
            }
        }
    }
}

//变量类似这种
this = {FtrlPredictStreamOp$CollectModel@13388} 
 buffers = {HashMap@13393}  size = 1
  {Long@13406} 0 -> {ArrayList@13431}  size = 2
   key = {Long@13406} 0
    value = 0
   value = {ArrayList@13431}  size = 2
    0 = {Row@13409} "0,{"hasInterceptItem":"true","vectorCol":"\"vec\"","modelName":"\"Logistic Regression\"","labelCol":null,"linearModelType":"\"LR\"","vectorSize":"30000"},null"
    1 = {Row@13471} "1048576,{"featureColNames":null,"featureColTypes":null,"coefVector":{"data":[-0.7383426732137549,0.0,0.0,0.0,1.5885293675862704E-4,-4.834608575902738E-5,0.0,0.0,-6.754208708318643E-5,-1.5904172331763155E-4,0.0,-1.315219790338925E-4,0.0,-4.994749246390495E-4,0.0,2.755456604395511E-4,-9.616429481614131E-4,-9.601054004112163E-5,0.0,-1.6679174640370486E-4,0.0,......"

3.3 在线预测

PredictProcess 完成了在线预测功能，LinearModelMapper 是具体预测实现。

public static class PredictProcess extends RichCoFlatMapFunction {
    private LinearModelMapper predictor = null;
    private String modelSchemaJson;
    private String dataSchemaJson;
    private Params params;
    private int iter = 0;
    private DataBridge dataBridge;
}

3.3.1 加载预设置模型

其构造函数获得了 FtrlPredictStreamOp 类的 dataBridge，即事先训练好的逻辑回归模型。每一个Task都拥有完整的模型。

open函数会加载逻辑回归模型。

public void open(Configuration parameters) throws Exception {
    this.predictor = new LinearModelMapper(TableUtil.fromSchemaJson(modelSchemaJson),
        TableUtil.fromSchemaJson(dataSchemaJson), this.params);
    if (dataBridge != null) {
        // read init model
        List modelRows = DirectReader.directRead(dataBridge);
        LinearModelData model = new LinearModelDataConverter().load(modelRows);
        this.predictor.loadModel(model);
    }
}

3.3.2 在线预测

FtrlPredictStreamOp.flatMap1 函数完成了在线预测。

public void flatMap1(Row row, Collector collector) throws Exception {
    collector.collect(this.predictor.map(row));
}

调用栈如下：

predictWithProb:157, LinearModelMapper (com.alibaba.alink.operator.common.linear)
predictResultDetail:114, LinearModelMapper (com.alibaba.alink.operator.common.linear)
map:90, RichModelMapper (com.alibaba.alink.common.mapper)
flatMap1:174, FtrlPredictStreamOp$PredictProcess (com.alibaba.alink.operator.stream.onlinelearning)
flatMap1:143, FtrlPredictStreamOp$PredictProcess (com.alibaba.alink.operator.stream.onlinelearning)
processElement1:53, CoStreamFlatMap (org.apache.flink.streaming.api.operators.co)
processRecord1:135, StreamTwoInputProcessor (org.apache.flink.streaming.runtime.io)

具体是通过 LinearModelMapper 完成。

public abstract class RichModelMapper extends ModelMapper {
    public Row map(Row row) throws Exception {
        if (isPredDetail) { 
            // 我们的示例代码在这里
            Tuple2 t2 = predictResultDetail(row);
            return this.outputColsHelper.getResultRow(row, Row.of(t2.f0, t2.f1));
        } else {
            return this.outputColsHelper.getResultRow(row, Row.of(predictResult(row)));
        }
    }  
}

预测代码如下，可以看出来使用了sigmoid。

/**
 * Predict the label information with the probability of each label.
 */
public Tuple2  predictWithProb(Vector vector) {
   double dotValue = MatVecOp.dot(vector, model.coefVector);
   switch (model.linearModelType) {
      case LR:
      case SVM:
         double prob = sigmoid(dotValue);
         return new Tuple2 <>(dotValue >= 0 ? model.labelValues[0] : model.labelValues[1],
            new Double[] {prob, 1 - prob});
   }
}

3.3.3 在线更新模型

FtrlPredictStreamOp.flatMap2 函数完成了处理在线训练输出的模型数据流，在线更新模型。

LinearModelData参数是由CollectModel完成加载并且传输出来的。

在模型加载过程中，是不能预测的，没有看到相关保护机制。如果我疏漏请大家指出。

public void flatMap2(LinearModelData linearModel, Collector collector) throws Exception {
    this.predictor.loadModel(linearModel);
}

0x04 问题解答

针对之前我们提出的问题，现在总结归纳如下：

训练阶段和预测阶段都有预制模型以应对"冷启动"嘛？都有预制模型；
训练阶段和预测阶段是如何关联起来的？用 linkFrom 直接把训练阶段和预测阶段的算子连在一起；
如何把训练出来的模型传给预测阶段？训练阶段用 Flink collector.collect 把模型发给下游算子；
输出模型时候，模型过大怎么处理？在线训练会 模型打散 之后分布发送给下游算子；
在线训练的模型通过什么机制实现更新？是定时驱动更新嘛？定时更新；
预测阶段加载模型过程中，还可以预测嘛？有没有机制保证这段时间内也能预测？目前没有发现类似保护机制；
训练阶段中，有哪些阶段用到了并行处理？训练过程中主要是FTRL算法的"预测predict" 和 "更新参数"两个部分，以及发送模型；
预测阶段中，有哪些阶段用到了并行处理？预测过程中主要是分布式接受模型和分布式预测；
遇到高维向量如何处理？切分开嘛？切分处理；

0xFF 参考

【机器学习】逻辑回归（非常详细）

逻辑回归(logistics regression)

【机器学习】LR的分布式（并行化）实现

并行逻辑回归

机器学习算法及其并行化讨论

Online LR—— FTRL 算法理解

在线优化算法 FTRL 的原理与实现

LR+FTRL算法原理以及工程化实现

Flink流处理之迭代API分析

FTRL公式推导

FTRL论文笔记

在线机器学习FTRL(Follow-the-regularized-Leader)算法介绍

FTRL代码实现

FTRL实战之LR+FTRL（代码采用的稠密数据）

在线学习算法FTRL-Proximal原理

基于FTRL的在线CTR预测算法

CTR预测算法之FTRL-Proximal

各大公司广泛使用的在线学习算法FTRL详解

在线最优化求解(Online Optimization)之五：FTRL

FOLLOW THE REGULARIZED LEADER (FTRL) 算法总结

你可能感兴趣的:(Alink漫谈(十三) ：在线学习算法FTRL 之具体实现)

python 实现延时队列独壹@无贰 python 开发语言
python实现延时队列#延时队列importthreadingimportfunctoolsimportqueueimportdatetimedeftest():print("执行成功")defseconds_chagne(dt):returndt.seconds+dt.days*24*60*60#延迟任务类classDelayTask:#delay_time即将过期的时间#task参与延迟的任
深入浅出：Tailwind CSS 详解 chenNorth。 css css 前端
TailwindCSS是一款功能强大的、低级的CSS框架，它与传统的CSS框架（如Bootstrap或Foundation）不同，它不提供具体的UI组件，而是通过实用工具类来帮助开发者更灵活、更高效地构建自定义的网页设计。TailwindCSS强调“原子化”CSS，这意味着它通过大量的小工具类（UtilityClasses）来定义网页元素的样式，而不是通过写大量的自定义CSS代码。这种方式让开发者
【Python】爬虫实战03：自动化抢票脚本【某麦网】 m0_74825152 python 爬虫自动化
1.脚本介绍1.1背景介绍在这个数字化时代，演唱会、体育赛事和各种活动的门票销售往往在线上进行。由于热门活动的高需求和门票的有限供应，抢票成为了一场激烈的竞争。许多粉丝和爱好者经常因为手速不够快或网络延迟而错失购票机会。为了提高抢票的成功率，自动化抢票脚本应运而生。以下这个脚本是一个用Python编写的自动化抢票程序，利用Selenium库来模拟用户在网页上的操作。下面是脚本的详细功能和结构介绍：
篡改猴脚本已安装但使用不了解决方法梅羽落经验分享脚本
在扩展权限中选择允许访问文件URL具体脚本如何安装使用可看博主之前的文章如何使用插件(刷课,游戏等)-CSDN博客有问题还可以评论哦~~
批量将.doc文件转换为.docx文件的Python脚本优化袁公白 python c#microsoft
在本篇博客中，我将分享如何使用Python编写一个脚本，可以批量将一个文件夹中的所有.doc文件转换为.docx文件。这个脚本利用了Python的win32com库来操作Word应用程序进行文件格式转换，并通过tkinter库中的filedialog模块实现文件夹选择对话框，让用户选择需要转换的文件夹路径。首先，我们定义了两个函数：doc_to_docx用于将单个.doc文件转换为.docx文件，
客户订单管理的微服务例子自由鬼 Java程序微服务架构云原生
下述代码实现了一个客户基本信息管理的微服务，包含以下功能：1、用户认证：使用SpringSecurity和OAuth2进行认证。配置了角色和权限控制。2、角色授权：通过@PreAuthorize注解实现角色授权，只有管理员可以执行某些操作。3、调用其他微服务：使用FeignClient调用用户管理微服务，从中获取用户数据。此示例具备扩展性，可以轻松增加其他功能，例如更多的RESTAPI或与其他微服
35. IP地址的组成 MineGi #网络基础网络
IP地址的组成IP地址（InternetProtocolAddress）是用于在Internet上唯一标识一个设备（如计算机、路由器、服务器等）的数字标签。它遵循特定的格式和规则，以确保全球范围内的唯一性和可路由性。IP地址的组成通常分为两部分：网络部分（NetworkID）：这部分标识了设备所在的网络。在IPv4中，网络部分可能占用IP地址的前几位到几十位不等，具体取决于所使用的子网掩码（Sub
Android实战技巧之五十：App的系统签名全速前行 Android Android实战技巧系统签名 sign
这件事困扰我们多时了。我们一直想用非源码编译的方式解决此事，按如下步骤。这种获取系统签名的方法如下：1、apk中需要使用android:sharedUserId=”android.uid.system”这个属性。在Manifest文件修改，如下：2、将app做无签名编译（AndroidStudio）用命令行编译Windows:gradlew.batassembleReleaseMac/linux:
Nginx UI：一款开源的Nginx可视化管理界面，让你轻松管理nginx的配置小华同学ai nginx ui 开源
嗨，大家好，我是小华同学，关注我们获得“最新、最全、最优质”开源项目和工作学习方法NginxUI是由0xJacky和Hintay共同开发的一款Nginx网络管理界面。它旨在为Nginx提供一个易于使用的图形界面，让用户可以在线查看服务器状态、编辑配置文件、管理网站和证书等。想要一睹为快？访问https://demo.nginxui.com/使用以下凭据登录：用户名：admin密码：admin特色功
vue+Element实现搜索关键字高亮功能 hsany330
本文实例为大家分享了vueelementUI表格关键字筛选高亮的具体代码，供大家参考，具体内容如下代码：1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787
数学：机器学习的理论基石每天五分钟玩转人工智能机器学习人工智能
一、数学：机器学习的理论基石机器学习是一种通过数据学习模式和规律的科学。其核心目标是从数据中提取有用的信息，以便对未知数据进行预测和分类。为了实现这一目标，机器学习需要一种数学框架来描述和解决问题。数学在机器学习中起着至关重要的作用，它提供了一种数学模型来描述数据和模式，以及一种数学方法来优化模型。数学在机器学习中的应用非常广泛，涵盖了线性代数、概率论、统计学、微积分、优化等多个领域。这些数学方法
【AUTOSAR】VCU开发实际项目讲解（二）----VCU软件与结构描述大道生单片机嵌入式硬件 AUTOSAR 26262 VCU 汽车
VCU软件描述VCU软件架构主要分为底层软件驱动和应用层控制策略，其中应用层控制策略通过基于模型的开发，自动生成代码并可与底层驱动软件实现无缝连接。VCU软件通过BOOTLOADER和CAN总线进行更新刷写。标定及诊断支持CCP/XCP标定协议支持UDS诊断协议及SAEJ1939诊断协议故障存储：128KIIC外扩EEPROM提供程序刷新Bootloader软件工具基于CAN总线的控制器刷新工具支
Python延时函数详解及实例代码 HackDyno python java 前端 Python
Python延时函数详解及实例代码在Python编程中，有时我们需要在程序中添加延时，以便在执行特定操作之前等待一段时间。延时函数允许我们在代码中创建一个暂停的时间间隔。本文将详细介绍Python中的延时函数，并提供一些实例代码供参考。Python中的延时函数可以通过time模块来实现。time模块是Python标准库中的一部分，提供了与时间相关的函数和方法。我们可以使用time.sleep()函
Python中删除文件和目录湫兮之风 python java 开发语言
python中分别提供os包下的os.remove()与shutil包下的shutil.rmtree()函数，其中os.remove(）的主要作用是删除一个具体的文件，shutil.rmtree()主要作用是删除一个具体的目录。os.remove()这个函数需要一个参数，即要删除的文件的路径。importosfile_path="/path/to/your/file.txt"#将此处的路径替换为你
HarmonyOS NEXT应用开发之NAPI封装ArkTS接口案例_harmonyos napi 2401_83946826 2024年程序员学习 harmonyos 华为
std::unique_lockstd::mutexunil(uniContext->resultWaitUtil.lock);uniContext->resultWaitUtil.cv.wait(unil,[]{returnuniContext->resultWaitUtil.isFinished;});return;}else{status=napi_call_function(uniCont
【机器学习：二十六、决策树】 KeyPan 机器学习机器学习决策树人工智能算法深度学习数据挖掘
1.决策树概述决策树是一种基于树状结构的监督学习算法，既可以用于分类任务，也可以用于回归任务。其主要通过递归地将数据划分为子集，从而生成一个具有条件结构的树模型。核心概念节点（Node）：每个节点表示一个特定的决策条件。根节点（RootNode）：树的起点，包含所有样本。分支（Branch）：每个分支代表一个条件划分的结果。叶节点（LeafNode）：终止节点，表示最终的决策结果。优点直观可解释：
Python常用OS库之path模块学习风陵苑主 python 学习
学习python没有太多捷径，有也只有技巧，更重要的是要多学多练，个人觉得练更重要，读万卷书不如行万里路。编程是一门技能，所以除了看还要多实践，写得多了自然也就有了路。如果看全部的标准库文档，可以访问这个链接os---多种操作系统接口—Python3.12.3文档接下来就来敲敲OS库下的path方法，这里只是记录一下，搬运工作，加深印象。那就开始吧。os.path常用方法一、os.path.abs
linux中网卡配置，两张网卡，分别用于内网和外网的通信橘橘子~ Linux linux
环境：centos7、VMware一、一张网卡实现内网通信（不能访问外网）：1.首先查看已有的网卡：[root@localhost~]#ipaddr我的默认网卡是ens332.VMware右下角打开设置第一张网卡ens33：3.选择VMnet14.打开真机的网络连接查看网段，我的为112网段：5.配置网卡文件：<
力扣刷题之——旋转矩阵 say-input 矩阵 leetcode 算法
给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]作者：力扣(LeetCode)链接：https://leetcode.cn/leetbook/read/array-an
如何从0开始写一个操作系统 c后端
本贴用来记录作者用c语言写一个操作系统，主要参考《操作系统真相还原》一书写的，同时也会对书里的代码和linux进行对比，尽量看一下现代操作系统中是如何实现的。原书的代码https://github.com/yifengyou/os-elephant/tree/master我会挑一些说说传统的操作系统课一般从内存，虚拟化等等方面讲起，因为是自己实现操作系统，肯定不能一上来就写开始写内存管理这种大活，
PyMySQL 详解一只猪皮怪5 SQL 数据库 mysql python
PyMySQL是一个纯Python实现的MySQL客户端操作库，支持事务、存储过程、批量执行等。PyMySQL遵循Python数据库APIv2.0规范，并包含了pure-PythonMySQL客户端库。安装pipinstallPyMySQL创建数据库连接importpymysqlconnection=pymysql.connect(host='localhost',port=3306,user='
风控系统之事件溯源，决策流程记录与版本控制后端
个人博客：无奈何杨（wnhyang）个人语雀：wnhyang共享语雀：在线知识共享Github：wnhyang-Overview背景一天，小明在风控管理台查看事件数据时，发现一笔决策结果为“拒绝”❌的交易事件，小明点开事件详情发现其触发了一条“24小时内向不同陌生账户转账超过30w”的规则，规则设置的处置方式是“拒绝”❌。小明通过策略规则却查不到那条“24小时内向不同陌生账户转账超过30w”的规则
python界面小游戏贪吃蛇_用Python实现童年小游戏贪吃蛇 weixin_39627052 python界面小游戏贪吃蛇
贪吃蛇作为一款经典小游戏，早在1976年就面世了，我最早接触它还是在家长的诺基亚手机中。尽管贪吃蛇的历史相对比较久远，但它却有着十分顽强的生命力，保持经久不衰，其中很重要的原因便是游戏厂家不断的对其进行更新迭代。现在，这款游戏无论是游戏场景、规则等都变得十分丰富。接下来，我们看一下如何通过Python简单的实现这款小游戏。规则要有游戏主界面、贪吃蛇、食物能够控制贪吃蛇移动并获取食物贪吃蛇吃了食物后
Flask 和阿里云 OSS 实现文件上传功能 ivwdcwso 开发 flask 阿里云 python oss
在本教程中,我们将学习如何使用Flask框架和阿里云对象存储服务(OSS)来创建一个简单而强大的文件上传应用。这个应用将允许用户通过Web界面上传文件,然后将文件安全地存储到阿里云OSS中,并返回可访问的文件URL。准备工作在开始之前,请确保您已经完成以下准备工作:安装Python(推荐Python3.7+)安装Flask:pipinstallflask安装阿里云OSSSDK:pipinstall
鸿蒙Next之数据同步艺术之一：方舟数据管理揭秘 SameX-4869 harmonyos 华为
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）的技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。本文将介绍华为鸿蒙HarmonyOSNext中的核心数据管理框架——方舟数据管理（ArkData），并探讨其在HarmonyOS系统中的角色和重要性。
虚拟专用网络（VPN）的 30 个知识 | 附带华为防火墙 IPSec VPN 配置实例 IT运维大本营网络华为 php
虚拟专用网络（VPN）定义：VPN就是一种能在公共网络上弄出个安全的私人网络的技术，靠加密连接实现。工作原理：VPN会通过隧道协议在用户的设备和VPN服务器之间弄出个加密的通道，这样就能保护数据传输啦。加密协议：常见的VPN加密协议有OpenVPN、L2TP/IPsec、PPTP和IKEv2这些。匿名性：用VPN能把用户的IP地址藏起来，这样上网的时候匿名性就高啦。安全性：VPN能保护用户在公共W
HarmonyOS 应用开发之ArkData OpenHarmony_小贾 OpenHarmony HarmonyOS 移动开发 harmonyos 华为移动开发鸿蒙开发 ui
功能介绍ArkData（方舟数据管理）为开发者提供数据存储、数据管理和数据同步能力，比如联系人应用数据可以保存到数据库中，提供数据库的安全、可靠以及共享访问等管理机制，也支持与手表同步联系人信息。标准化数据定义：提供OpenHarmony跨应用、跨设备的统一数据类型标准，包含标准化数据类型和标准化数据结构。数据存储：提供通用数据持久化能力，根据数据特点，分为用户首选项、键值型数据库和关系型数据库。
2807. 在链表中插入最大公约数不玩return的马可乐链表数据结构 leetcode 算法职场和发展 c++
在本篇博客文章中，我们将探讨如何实现一个算法，该算法可以在链表中相邻节点之间插入一个新的节点，新节点的值为相邻两个节点值的最大公约数（GCD）。这个问题是LeetCode上的一个中等难度问题，涉及到链表操作和最大公约数的计算。问题描述解题思路理解问题首先，我们需要理解问题的核心：在链表的相邻节点之间插入新节点，新节点的值为相邻节点值的最大公约数。计算最大公约数我们需要一个函数来计算两个数的最大公约
黄金矿工小游戏（Java）不玩return的马可乐小项目 java intellij-idea ui 算法
在游戏开发的世界里，用代码构建一个充满趣味的游戏是一次极具挑战与收获的旅程。今天，我将带大家深入了解我用Java开发的“黄金矿工”游戏背后的代码逻辑和实现细节，一同领略编程与游戏结合的魅力。一、引言这款“黄金矿工”游戏拥有经典的玩法，玩家通过操控钩子抓取屏幕中的各种物体，包括黄金、石头和炸弹等，目标是在规定时间内达到一定的积分以进入下一关。同时，游戏还配备了登录注册系统，确保玩家数据的记录和管理，
leetcode 215.数组中的第K个最大元素嘤国大力士 LeetCode leetcode 算法数据结构
LeetCode第215题“数组中的第K个最大元素”要求找到未排序数组中第k个最大的元素。通常有几种常见的解决方案，包括使用排序、使用最小堆或快速选择算法。以下是这三种方法的详细C++实现：方法一：使用排序这种方法最为直观，先对数组进行排序，然后返回第k个最大的元素。#include#include#includeusingnamespacestd;classSolution{public:int
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

Alink漫谈(十三) ：在线学习算法FTRL 之 具体实现

Alink漫谈(十三) ：在线学习算法FTRL 之 具体实现

0x00 摘要

0x01 回顾

0x02 在线训练

2.1 预置模型

2.1.1 训练模型

2.1.2 加载模型

2.2 分割高维向量

2.3 迭代训练

2.3.1 Flink Stream迭代功能

2.3.2 迭代构建

2.3.2.1 迭代的输入

2.3.2.2 迭代的反馈

2.3.3 迭代体 CalcTask / ReduceTask

2.3.3.1 迭代初始化

2.3.3.2 处理输入数据

2.3.3.3 归并数据

2.3.3.4 判断是否反馈

2.3.3.5 判断是否输出模型

2.3.3.6 处理反馈数据/更新参数

2.4 输出模型

0x03 在线预测

3.1 初始化

3.2 获取在线训练模型

3.3 在线预测

3.3.1 加载预设置模型

3.3.2 在线预测

3.3.3 在线更新模型

0x04 问题解答

0xFF 参考

你可能感兴趣的:(Alink漫谈(十三) ：在线学习算法FTRL 之 具体实现)

Alink漫谈(十三) ：在线学习算法FTRL 之具体实现

Alink漫谈(十三) ：在线学习算法FTRL 之具体实现

你可能感兴趣的:(Alink漫谈(十三) ：在线学习算法FTRL 之具体实现)