罗西的思考

Alink漫谈(十四) ：多层感知机之总体架构

文章目录

Alink漫谈(十四) ：多层感知机之总体架构
- 0x00 摘要
- 0x01 背景概念
- - 1.1 前馈神经网络
  - 1.2 反向传播
  - 1.3 代价函数
  - 1.4 优化过程
  - - 1.4.1 迭代法
    - 1.4.2 梯度下降
  - 1.5 相关公式
  - - 1.5.1 加权求和 h
    - 1.5.2 神经元输出值 a
    - 1.5.3 输出层的输出值 y
    - 1.5.4 激活函数g(h)
    - 1.5.5 损失函数E
    - 1.5.6 误差反向传播——更新权重
    - 1.5.7 输出层增量项 δo
    - 1.5.8 更新输出层权重wjk
- 0x02 示例代码
- 0x03 训练总体逻辑
- - 3.1 总体逻辑示例图
  - 3.2 L-BFGS训练调用逻辑概述
  - 3.3 获取训练数据
  - 3.4 构建拓扑
  - - 3.4.1 AffineLayer
    - 3.4.2 FuntionalLayer
    - 3.4.3 SoftmaxLayerWithCrossEntropyLoss
    - - 3.4.3.1 Softmax
      - 3.4.3.2 softmax loss
      - 3.4.3.3 cross entropy
      - 3.4.3.4 SoftmaxLayerWithCrossEntropyLoss
  - 3.5 构建训练器
- 0xFF 参考

0x00 摘要

Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台，是业界首个同时支持批式算法、流式算法的机器学习平台。本文和下文将带领大家来分析Alink中多层感知机的实现。

因为Alink的公开资料太少，所以以下均为自行揣测，肯定会有疏漏错误，希望大家指出，我会随时更新。

0x01 背景概念

几乎所有的深度学习算法都可以被描述为一个相当简单的配方：特定的数据集、代价函数、优化过程和模型。

1.1 前馈神经网络

前馈神经网络（Feedforward Neural Network， FNN ）中，把每个神经元按接收信息的先后分为不同的组，每一组可以看做是一个神经层。每一层中的神经元接收前一层神经元的输出，并输出到下一层神经元。整个网络中的信息是朝着一个方向传播的，没有反向的信息传播（和误差反向传播不是一回事），即整个网络中无反馈，信号从输入层向输出层单向传播，可以用一个有向无环图来表示。在前馈神经网络中，第0层叫做输入层，最后一层叫做输出层，其他中间层叫做隐藏层。

反馈神经网络中神经元不但可以接收其他神经元的信号，而且可以接收自己的反馈信号。和前馈神经网络相比，反馈神经网络中的神经元具有记忆功能，在不同时刻具有不同的状态。反馈神经网络中的信息传播可以是单向也可以是双向传播，因此可以用一个有向循环图或者无向图来表示。

前馈网络的主要目标是近似一些函数f*。例如，回归函数y = f *(x)将输入x映射到值y。前馈网络定义了y = f (x; θ)映射，并学习参数θ的值，使结果更加接近最佳函数。

例如，我们有三个函数f(1),f(2)和f(3)连接在一个链上以形成f(x)=f(3)(f(2)(f(1)(x)))。这些链式结构是神经网络中最常用的结构。在这种情况下，f(1)被称为网络的第一层(first layer)，f(2)被称为第二层(second layer)，依此类推。链的全长称为模型的深度(depth)。正是因为这个术语才出现了”深度学习”这个名字。

现在问题来了，为什么当我们有线性机器学习模型时，还需要前馈网络？这是因为线性模型仅限于线性函数，而神经网络不是。当我们的数据不是线性可分离的线性模型时，面临着近似的问题，而神经网络则相当容易应对。隐藏层用于增加非线性并改变数据的表示，以便更好地泛化函数。

1.2 反向传播

怎么理解这个“反向传播”呢，其实DL的核心理念就在于找到全局性误差函数Loss符合要求的，对应的权值 “w” 与 “b”。那么问题就来了，当得到的误差Loss不符合要求（即误差过大），就可以通过“反向传播”的方式，把输出层得到的误差反过来传到隐含层，并分配给不同的神经元，以此调整每个神经元的“权值”，最终调整至Loss符合要求为止，这就是“误差反响传播”的核心理念。

在此我们首先要澄清一个容易混淆的概念，即有的地方经常会用反向传播来代指深度模型的整个学习算法，其实这是不准确的，整体的学习算法可以分为两方面：

代价信息如何传递到深度模型的每一层？
基于传递到本层的信息，本层的参数应该如何更新？

在特定结构中，信息沿着组织结构向前流动，我们称之为前向传播，相应的，反向传播则指信息沿着结构从后向前流动。

在前馈神经网络中，前向传播的是输入，并且在过程中逐渐抽象为特征，反向传播的则是当前输出值与期望输出的代价信息，或者说误差，传递到每一层的信息则是该层的输出值与该层的 “期望输出” 的代价信息。

在如今的主流框架中，反向传播与代价信息和梯度结合起来借助计算图来实现。因此，反向传播既不是只有神经网络或者深度模型才有，也不能全部代表深度模型的整个学习算法，它所代表的只是第一个问题，即基于代价信息如何更新参数如何进行更高效的优化则是优化算法的问题。现代最有效的优化算法主要是基于梯度下降的，并以其为基础做出了很多创新工作。

总结深度模型的训练过程如下：针对既定的网络结构和性能指标，细致地定义代价/误差/目标函数，输入通过前向传播到达输出层，并且针对每一个或一批输入产生的输出，在定义好的代价函数下计算代价信息，通过反向传播传递到深度模型的每一层，在每一层上基于代价信息对参数的梯度更新参数，直到满足停止条件，完成训练。

1.3 代价函数

代价函数的作用是显示了我们的模型得出的近似值与我们试图达到的实际目标值之间的差异。

通常代价函数至少含有一项使学习过程进行统计估计的成分。最常见的代价函数是负对数似然、最小化代价函数导致的最大似然估计。代价函数也可能含有附加项，如正则化项。

在某些情况下，由于计算原因，我们不能实际计算代价函数。在这种情况下，只要我们有近似其梯度的方法，那么我们仍然可以使用迭代数值优化近似最小化目标。

与机器学习算法一样，前馈网络也使用基于梯度的学习方法进行训练，在这种学习方法中，使用随机梯度下降等算法来使代价函数达到最小化。整个训练过程在很大程度上取决于我们的代价函数的选择，其选择或多或少与其他参数模型相同。

对于反向传播算法的代价函数，它必须满足两个属性：

代价函数必须能够表达为平均值。
代价函数不能依赖于输出层旁边网络的任何激活值。

代价函数的形式主要是C(W, B, Sr, Er)，其中W是神经网络的权重，B是网络的偏置，Sr是单个训练样本的输入，Er是该训练样本的期望输出。

1.4 优化过程

1.4.1 迭代法

在一个算法模型训练最开始，权值w和偏置b都是随机赋予的，理论上它可能是出现在整个函数图像中的任何位置，那如何让他去找到我们所要求的那个值呢。

这里就要引入“迭代”的思想：我们可以通过代入左右不同的点去尝试，假设代入当前 x 左面的一个点比右面的更小，那么就可以让 x 变为左面的点，然后继续尝试，直到找到“极小值”么。这也是为什么算法模型需要时间去不断迭代很训练的原因。

1.4.2 梯度下降

使用迭代法，那么随之而来另外一个问题：这样一个一个尝试，虽然最终结果是一定会找到我们所需要的值，但有没有什么方法可以让它离“极值”远的时候，挪动的步子更大，离“极值”近的时候，挪动的步子变小（防止越过极值），实现更快更准确地“收敛”。假如是一个“二次函数”的图像，那么如果取得点越接近“极小值”，在这个点的函数“偏导”越小（偏导即“在那个点的函数斜率”）。接下来引出下面这个方法：
$x_{n+1} = x_n - η\frac{df(x)}{dx}$
梯度下降核心思想：Xn代表的就是挪动的“步长”，后面的部分表示当前这个点在函数的“偏导”，这样也就代表当点越接近极值点，那么“偏导”越小，所以挪动的“步长”就短；反之如果离极值点很远，则下一次挪动的“步长”越大。

把这个公式换到我们的算法模型，就找到了“挪动步长”与Loss和（w,b）之间的关系，实现快速“收敛”。

通过“迭代法”和“梯度下降法”的配合，我们实现了一轮一轮地迭代，每次更新都会越来越接近极值点，直到更新的值非常小或已经满足我们的误差范围内，训练结束，此时得到的（w,b）就是我们寻找的模型。

1.5 相关公式

以下是相关各种公式，摘录出来给大家在阅读时查阅。

1.5.1 加权求和 h

$h_j = \sum_{i=0}^M w_{ij}x_j$

hj 表示当前节点的所有输入加权之和。

1.5.2 神经元输出值 a

$a_j = g(h_j) = g(\sum_{i=0}^M w_{ij}x_j)$

a_j 表示隐藏层神经元的输出值。
g()代表激活函数，w是权重，x是输入。
a_j=x_jk 即当前层神经元的输出值，等于下一层神经元的输入值。

1.5.3 输出层的输出值 y

$a_k = g(h_k) = g(\sum_{i=0}^M w_{jk}x_{jk})$

y 表示输出层的值，也就是最终结果。
h_k 表示输出层神经元k的输入加权之和。

1.5.4 激活函数g(h)

采用Sigmoid function：
$\frac{1}{1+e^{-h}}$

sigmoid函数的导数：
$σ' (x) = σ (x) [1 - σ (x)]$
将 aj=g(hj) 代入可得

$g ′ (h)=a_j (1−a_j )$

1.5.5 损失函数E

采用误差平方和（sum-of-squares error function）
$\frac{1}{2}\sum _{k=1}^N(y-t)^2$

平方是为了避免超平面两端的误差点相互抵消（y−t 存在正负）。
前面系数取1/2 是为了之后采用梯度下降时，求梯度（偏导数）时能抵消平方求导后的2。

1.5.6 误差反向传播——更新权重

采用梯度下降求最优解，也就是求损失函数E关于权重w的偏导数
$\frac{∂E}{∂w_{ik}} = \frac{∂E}{∂h_k} \frac{∂h_k}{∂w_{ik}}$

等式右边可以解释为：如果我们想知道当权重w改变时，输出的误差E是如何变化的，我们可以通过观察误差E是如何随着激活函数的输入值h变化，以及激活函数的输入值h是如何随着权重w变化。

h_k表示输出层神经元k的所有输入加权之和，也就是激活函数g(h)的输入值。

1.5.7 输出层增量项 δo

右边第一项比较重要，这里称为增量项δ（error or delta term），继续通过链式法则推导，最终得到输出层的增量项
$δ_o(k) = \frac{∂E}{∂h_{k}} = \frac{∂E}{∂y} \frac{∂y}{∂h_k} = (y−t)g ′(h_ k )$
接下来可以对输出层的权重w进行更新。

1.5.8 更新输出层权重wjk

对损失函数使用梯度下降法，更新权重：
$w_{jk} ←w _{jk} −η \frac{∂E}{∂w_{jk}}$
于是得到
$w_{jk} = w_{jk} - ηδ_o(k)a_i$

ai是上一层的输出值，也即是输出层的输入值xi。

0x02 示例代码

本文示例代码如下：

public class MultilayerPerceptronClassifierExample {
     
    public static void main(String[] args) throws Exception {
     
        BatchOperator data = Iris.getBatchData();

        MultilayerPerceptronClassifier classifier = new MultilayerPerceptronClassifier()
                .setFeatureCols(Iris.getFeatureColNames())
                .setLabelCol(Iris.getLabelColName())
                .setLayers(new int[]{
     4, 5, 3})
                .setMaxIter(100)
                .setPredictionCol("pred_label")
                .setPredictionDetailCol("pred_detail");

        BatchOperator res = classifier.fit(data).transform(data);

        res.print();
    }
}

Iris定义如下

public class Iris {
     
    final static String URL = "https://alink-release.oss-cn-beijing.aliyuncs.com/data-files/iris.csv";
    final static String SCHEMA_STR
            = "sepal_length double, sepal_width double, petal_length double, petal_width double, category string";

    public static BatchOperator getBatchData() {
     
        return new CsvSourceBatchOp(URL, SCHEMA_STR);
    }

    public static StreamOperator getStreamData() {
     
        return new CsvSourceStreamOp(URL, SCHEMA_STR);
    }

    public static String getLabelColName() {
     
        return "category";
    }

    public static String[] getFeatureColNames() {
     
        return new String[] {
     "sepal_length", "sepal_width", "petal_length", "petal_width"};
    }
}

0x03 训练总体逻辑

MultilayerPerceptronTrainBatchOp 类是批处理训练的实现。

protected BatchOperator train(BatchOperator in) {
     
	return new MultilayerPerceptronTrainBatchOp(this.getParams()).linkFrom(in);
}

所以还是老套路，直接看 MultilayerPerceptronTrainBatchOp 的 linkFrom 函数。

其大致思路如下：

1）获取一些元信息，比如label名称，特征列名，特征类型等；
2）获取测试数据 trainData = getTrainingSamples；
3）训练
- 3.1）获取初始权重 initialWeights = getInitialWeights();
- 3.2）构建拓扑 topology = FeedForwardTopology.multiLayerPerceptron
- 3.3）构建训练器 FeedForwardTrainer。
  - 3.3.1）初始化模型
  - 3.3.2）构建目标函数
  - 3.3.3）训练器会基于目标函数构建优化器，这里的优化器是L-BFGS。
- 3.4）训练获取最终权重 weights = trainer.train
4）输出模型 DataSet；
5）把DataSet转成Table；

@Override
public MultilayerPerceptronTrainBatchOp linkFrom(BatchOperator<?>... inputs) {
     
        BatchOperator<?> in = checkAndGetFirst(inputs);

        // 1）获取一些元信息，比如label名称，特征列名，特征类型等。
        final String labelColName = getLabelCol();
        final String vectorColName = getVectorCol();
        final boolean isVectorInput = !StringUtils.isNullOrWhitespaceOnly(vectorColName);
        final String[] featureColNames = isVectorInput ? null :
            (getParams().contains(FEATURE_COLS) ? getFeatureCols() :
                TableUtil.getNumericCols(in.getSchema(), new String[]{
     labelColName}));

        final TypeInformation<?> labelType = in.getColTypes()[TableUtil.findColIndex(in.getColNames(),
            labelColName)];
        DataSet<Tuple2<Long, Object>> labels = getDistinctLabels(in, labelColName);

// 此处程序变量如下：
labelColName = "category"
vectorColName = null
isVectorInput = false
featureColNames = {
     String[4]@6412} 
 0 = "sepal_length"
 1 = "sepal_width"
 2 = "petal_length"
 3 = "petal_width"
labelType = {
     BasicTypeInfo@6414} "String"
labels = {
     MapOperator@6415} 
    
        // 2）获取测试数据
        // get train data
        DataSet<Tuple2<Double, DenseVector>> trainData =
            getTrainingSamples(in, labels, featureColNames, vectorColName, labelColName);

        // train 3）训练
        final int[] layerSize = getLayers();
        final int blockSize = getBlockSize();
        // 3.1）获取初始权重
        final DenseVector initialWeights = getInitialWeights();
        // 3.2）获取拓扑
        Topology topology = FeedForwardTopology.multiLayerPerceptron(layerSize, true);
        // 3.3）构建训练器 
        FeedForwardTrainer trainer = new FeedForwardTrainer(topology,
            layerSize[0], layerSize[layerSize.length - 1], true, blockSize, initialWeights);
        // 3.4）训练获取最终权重 
        DataSet<DenseVector> weights = trainer.train(trainData, getParams());

        // output model 4）输出模型
        DataSet<Row> modelRows = weights
            .flatMap(new RichFlatMapFunction<DenseVector, Row>() {
     
                @Override
                public void flatMap(DenseVector value, Collector<Row> out) throws Exception {
     
                    List<Tuple2<Long, Object>> bcLabels = getRuntimeContext().getBroadcastVariable("labels");
                    Object[] labels = new Object[bcLabels.size()];
                    bcLabels.forEach(t2 -> {
     
                        labels[t2.f0.intValue()] = t2.f1;
                    });

                    MlpcModelData model = new MlpcModelData(labelType);
                    model.labels = Arrays.asList(labels);
                    model.meta.set(ModelParamName.IS_VECTOR_INPUT, isVectorInput);
                    model.meta.set(MultilayerPerceptronTrainParams.LAYERS, layerSize);
                    model.meta.set(MultilayerPerceptronTrainParams.VECTOR_COL, vectorColName);
                    model.meta.set(MultilayerPerceptronTrainParams.FEATURE_COLS, featureColNames);
                    model.weights = value;
                    new MlpcModelDataConverter(labelType).save(model, out);
                }
            })
            .withBroadcastSet(labels, "labels");

        // 5）把DataSet转成Table
        setOutput(modelRows, new MlpcModelDataConverter(labelType).getModelSchema());
}

3.1 总体逻辑示例图

总体逻辑示例图如下，这里为了更好说明，把初始化步骤顺序做了微调。

----------------------------------------------------------------------------------------
       │                                                          │  
       │                                                          │  
┌──────────────────────┐                    		    ┌────────────────────┐
│ multiLayerPerceptron │ 构建拓扑                        │ getTrainingSamples │ 获取训练数据
└──────────────────────┘                                └────────────────────┘      
       │                                                          │ <label index, vector> 
       │                                                          │          
       │                                                          │  
┌──────────────────────┐                                          │
│ FeedForwardTopology  │ 拓扑，里面包含 layers                      │
└──────────────────────┘ layers是拓扑的各个层，比如AffineLayer       │
       │                                                          │       
       │                                                          │  
       │                                                          │      
┌────────────┐                    		                ┌────────────────────┐
│ initModel  │ 初始化模型                                 │trainData = stack() │
└────────────┘                                          └────────────────────┘    
       │                                                          │ 把训练数据压缩成向量     
       │                                                          │  
       │                                                          │   
┌─────────────────────────────┐                                   │
│ FeedForwardTrainer(topology)│ 生成训练器                          │
└─────────────────────────────┘                                   │ 
       │                                                          │    
       │                                                          │     
       │                                                          │       
┌──────────────────────────┐                                      │
│ AnnObjFunc 目标函数       │ 基于FeedForwardTopology生成优化目标函数  │
│ [topology,topologyModel] │ 成员变量 topology 是神经网络的拓扑       │
└──────────────────────────┘ 成员变量 topologyModel 是计算模型       │ 
       │                                                          │ 
       │                                                          │ 
       │                                                          │    
┌──────────────────────────┐                                      │
│ AnnObjFunc.topologyModel │ 生成目标函数中的拓扑模型                 │
└──────────────────────────┘                                      │ 
       │                                                          │   
       │                                                          │         
       │                                                          │   
┌───────────────────────────────────────┐                         │
│ optimizer = new Lbfgs(..annObjFunc..) │ 生成优化器（训练过程中）    │
└───────────────────────────────────────┘ 基于目标函数生成           │ 
       │                                                          │     
       │                                                          │   
       │                                                          │    
┌──────────────────────────────────┐                              │
│ optimizer.initCoefWith(initCoef) │ 初始化优化器                   │
└──────────────────────────────────┘                              │  
       │                                                          │     
       │                                                          │         
       │ <--------------------------------------------------------│   
       │                                                           
┌──────────────────────────────────────────────┐
│          optimizer.optimize()                │ 优化器L-BFGS迭代训练
│                 │                            │ 
│                 │                            │   
│    ┌──────────────────────────┐              │   
│    │   计算梯度（利用拓扑模型）   │              │
│    │  1. 计算各层的输出         │              │
│    │  2. 计算输出层损失         │              │
│    │  3. 计算各层的Delta        │              │
│    │  4. 计算各层梯度           │              │  
│    └──────────────────────────┘              │ 
│                 │                            │ 
│                 │                            │   
│    ┌──────────────────────────┐              │   
│    │         计算方向          │              │
│    │这里没有用到目标函数的拓扑模型 │              │
│    └──────────────────────────┘              │   
│                 │                            │ 
│                 │                            │   
│    ┌──────────────────────────┐              │   
│    │   计算损失（利用拓扑模型）   │              │
│    │  1. 计算各层的输出         │              │
│    │  2. 计算输出层损失         │              │
│    └──────────────────────────┘              │ 
│                 │                            │ 
│                 │                            │   
│    ┌──────────────────────────┐              │   
│    │         更新模型          │              │
│    │这里没有用到目标函数的拓扑模型 │              │
│    └──────────────────────────┘              │   
│                 │                            │ 
│                 │                            │      
└──────────────────────────────────────────────┘
       │                                                               
       │                      
----------------------------------------------------------------------------------------

上面图可能在手机上变形，所以也可以参见下面图片：

3.2 L-BFGS训练调用逻辑概述

针对上图需要说明，L-BFGS是我们的优化器，其中几个关键步骤如下：

CalcGradient() 计算梯度
CalDirection(...) 计算方向
CalcLosses(...) 计算损失
UpdateModel(...) 更新模型

算法框架都是基本不变的，所差别的就是具体目标函数和损失函数的不同。比如线性回归采用的是UnaryLossObjFunc，损失函数是 SquareLossFunc。而多层感知机这里，用的目标函数是：AnnObjFunc。

具体针对多层感知机，L-BFGS中与目标函数的相关步骤如下：

CalcGradient 计算梯度

1）调用 AnnObjFunc.updateGradient；
- 1.1）调用目标函数中拓扑模型 topologyModel.computeGradient 来计算
  - 1.1.1）计算各层的输出；forward(data, true)
  - 1.1.2）计算输出层损失；labelWithError.loss
  - 1.1.3）计算各层的Delta；layerModels.get(i).computePrevDelta
  - 1.1.4）计算各层梯度；layerModels.get(i).grad

CalDirection 计算方向

这里没有用到目标函数的拓扑模型。

CalcLosses 计算损失

1）调用 AnnObjFunc.calcSearchValues; 其内部会调用 calcLoss 计算损失；
- 1.1）调用 topologyModel.computeGradient 来计算损失
  - 1.1.1）计算各层的输出；forward(data, true)
  - 1.1.2）计算输出层损失；labelWithError.loss

UpdateModel 更新模型

这里没有用到目标函数的拓扑模型。

3.3 获取训练数据

getTrainingSamples函数将从原始输入获取训练数据。

原始数据举例

5.1	3.5	1.4	0.2	Iris-setosa
5	2	3.5	1	Iris-versicolor
5.1	3.7	1.5	0.4	Iris-setosa
6.4	2.8	5.6	2.2	Iris-virginica
6	2.9	4.5	1.5	Iris-versicolor

主要做了如下：

1）获取元数据，比如特征列的index，label列的index；
2）把labels广播，后续会在open函数中使用；
3）open函数中得倒一个 label : index 的映射
4）map 函数中有两种执行序列，都会转换为这样的二元组
- 4.1）原始输入中有vector，比如类似 5.1 3.5 1.4 0.2 Iris-setosa 5.1 3.5 1.4 0.2，这些加粗的就是vector。
- 4.2）原始输入中没有vector，比如类似 5.1 3.5 1.4 0.2 Iris-setosa ；

具体代码如下：

private static DataSet<Tuple2<Double, DenseVector>> getTrainingSamples(
        BatchOperator data, DataSet<Tuple2<Long, Object>> labels,
        final String[] featureColNames, final String vectorColName, final String labelColName) {
     
        
        // 1）获取元数据，比如特征列的index，label列的index；
        final boolean isVectorInput = !StringUtils.isNullOrWhitespaceOnly(vectorColName);
        final int vectorColIdx = isVectorInput ? TableUtil.findColIndex(data.getColNames(), vectorColName) : -1;
        final int[] featureColIdx = isVectorInput ? null : TableUtil.findColIndices(data.getSchema(),
            featureColNames);
        final int labelColIdx = TableUtil.findColIndex(data.getColNames(), labelColName);

// 程序变量如下
isVectorInput = false
vectorColIdx = -1
featureColIdx = {
     int[4]@6443} 
 0 = 0
 1 = 1
 2 = 2
 3 = 3
labelColIdx = 4
    
        DataSet<Row> dataRows = data.getDataSet();
        return dataRows
            .map(new RichMapFunction<Row, Tuple2<Double, DenseVector>>() {
     
                transient Map<Comparable, Long> label2index;

                @Override
                public void open(Configuration parameters) throws Exception {
     
                    List<Tuple2<Long, Object>> bcLabels = getRuntimeContext().getBroadcastVariable("labels");
                    this.label2index = new HashMap<>();
                    // 得倒一个label : index 的映射
                    bcLabels.forEach(t2 -> {
     
                        Long index = t2.f0;
                        Comparable label = (Comparable) t2.f1;
                        this.label2index.put(label, index);
                    });
// 变量是
this = {
     MultilayerPerceptronTrainBatchOp$2@11578} 
 label2index = {
     HashMap@11580}  size = 3
  "Iris-versicolor" -> {
     Long@11590} 2
  "Iris-virginica" -> {
     Long@11592} 1
  "Iris-setosa" -> {
     Long@11594} 0                    
                    
                }

                @Override
                public Tuple2<Double, DenseVector> map(Row value) throws Exception {
     
                    Comparable label = (Comparable) value.getField(labelColIdx);
                    Long labelIdx = this.label2index.get(label);

                    if (isVectorInput) {
      // 4.1）如果原始输入中有vector
                        Vector vec = VectorUtil.getVector(value.getField(vectorColIdx));
                        // 转换为  这样的二元组
                        if (null == vec) {
     
                            return new Tuple2<>(labelIdx.doubleValue(), null);
                        } else {
     
                            return new Tuple2<>(labelIdx.doubleValue(),
                                (vec instanceof DenseVector) ? (DenseVector) vec
                                    : ((SparseVector) vec).toDenseVector());
                        }
                    } else {
      // 4.2）如果原始输入中没有vector
                        int n = featureColIdx.length;
                        DenseVector features = new DenseVector(n);
                        for (int i = 0; i < n; i++) {
     
                            double v = ((Number) value.getField(featureColIdx[i])).doubleValue();
                            features.set(i, v);
                        } 
                        // 转换为  这样的二元组
                        return Tuple2.of(labelIdx.doubleValue(), features);
                    }
                }
            })
            .withBroadcastSet(labels, "labels"); // 2）把labels广播，在open函数中使用；
}

3.4 构建拓扑

FeedForwardTopology.multiLayerPerceptron 完成了构建前馈神经网络拓扑的工作。

public static FeedForwardTopology multiLayerPerceptron(int[] layerSize, boolean softmaxOnTop) {
     
        List<Layer> layers = new ArrayList<>((layerSize.length - 1) * 2);
        for (int i = 0; i < layerSize.length - 1; i++) {
     
            layers.add(new AffineLayer(layerSize[i], layerSize[i + 1]));
            if (i == layerSize.length - 2) {
     
                if (softmaxOnTop) {
     
                    layers.add(new SoftmaxLayerWithCrossEntropyLoss());
                } else {
     
                    layers.add(new SigmoidLayerWithSquaredError());
                }
            } else {
     
                layers.add(new FuntionalLayer(new SigmoidFunction()));
            }
        }
        return new FeedForwardTopology(layers);
}

回顾下概念：前馈神经网络被称作网络 (network) 是因为它们通常用许多不同函数复合在一起来表示。该模型与一个有向无环图相关联，图描述了函数是如何复合在一起的。

各神经元从输入层开始，接收前一级输入，并输出到下一级，直至输出层。整个网络中无反馈。其中每一层包含若干个神经元，同一层的神经元之间没有互相连接，层间信息的传送只沿一个方向进行。其中第一层称为输入层。最后一层为输出层．中间为隐含层，简称隐层。隐层可以是一层。也可以是多层。

FeedForwardTopology 是前馈神经网络的拓扑结构，即上述网络层的逻辑展示。这个拓扑里面包含了从隐藏层到输出层的若干层。

/**
 * The topology of a feed forward neural network.
 */
public class FeedForwardTopology extends Topology {
     
    /**
     * All layers of the topology.
     */
    private List<Layer> layers;
}

构建出的拓扑变量大致如下，分为四个层：

仿射层 AffineLayer。仿射变换 = 线性变换 + 平移，即 h = WX + b；
功能层 FuntionalLayer，其函数为SigmoidFunction，其为前一个仿射层对应的激活层；
仿射层 AffineLayer；
输出层 SoftmaxLayerWithCrossEntropyLoss；

这里仿射层和功能层一起构成了隐藏单元。大多数的隐藏单元可以描述为接受输入向量x，计算仿射变换 z = wTx+b，然后使用一个逐元素的非线性函数g(z)。大多数隐藏单元的区别仅仅在于激活函数 g(z) 的形式。

现在把程序运行时具体变量打印出来让大家更有清晰认识。可以看出来，根据示例代码设定的神经网络参数 .setLayers(new int[]{4, 5, 3}) ，这里的各个层也做了相应设置 : 4，5，3。

this = {
     FeedForwardTopology@4951} 
 layers = {
     ArrayList@4944}  size = 4
      0 = {
     AffineLayer@4947} // 仿射层
       numIn = 4
       numOut = 5
      1 = {
     FuntionalLayer@4948} 
       activationFunction = {
     SigmoidFunction@4953}  // 激活函数
      2 = {
     AffineLayer@4949} // 仿射层
       numIn = 5
       numOut = 3
      3 = {
     SoftmaxLayerWithCrossEntropyLoss@4950}  // 激活函数

3.4.1 AffineLayer

是 y=A*x+b 的表示，即仿射层的各种配置信息，Layer properties of affine transformations。

public class AffineLayer extends Layer {
     
	public int numIn;
	public int numOut;

	public AffineLayer(int numIn, int numOut) {
     
		this.numIn = numIn;
		this.numOut = numOut;
	}

	@Override
	public LayerModel createModel() {
     
		return new AffineLayerModel(this);
	}
	...
}

3.4.2 FuntionalLayer

是 y = f(x) 的表示。这里的 activationFunction 就是 f(x)

public class FuntionalLayer extends Layer {
     
    public ActivationFunction activationFunction;
    
    @Override
    public LayerModel createModel() {
     
        return new FuntionalLayerModel(this);
    }    
}

3.4.3 SoftmaxLayerWithCrossEntropyLoss

3.4.3.1 Softmax

输出函数基本都使用Softmax 函数，其定义如下：
$σ_i(Z) = \frac{exp(Z_i)}{\sum_{j=1}^m exp(z_j)}, i = 1,...,m$
softmax的输出向量就是概率，是该样本属于各个类的概率！它在 Logistic Regression 里其到的作用是讲线性预测值转化为类别概率。

假设 z_i = W_i + b_i 是第 i 个类别的线性预测结果，带入 Softmax 的结果其实就是先对每一个z_i 取 exponential 变成非负，然后除以所有项之和进行归一化，现在每个 σ_i = σ_i(z) 就可以解释成观察到的数据 x 属于类别 i 的概率，或者称作似然 (Likelihood)。

因此我们训练全连接层的W的目标就是使得其输出的 W.X 在经过 softmax 层计算后其对应于真实标签的预测概率要最高。

3.4.3.2 softmax loss

弄懂了softmax，就要来说说softmax loss了。那softmax loss是什么意思呢?？具体如下：

$\sum_{j=1}^T y_j logS_j$

L是损失。
Sj是softmax的输出向量S的第j个值，表示的是这个样本属于第j个类别的概率。
yj前面有个求和符号，j的范围也是1到类别数T，因此 y 是一个1*T的向量，里面的T个值只有1个值是1，其他T-1个值都是0。那么哪个位置的值是1呢？答案是真实标签对应的位置的那个值是1，其他都是0。

所以这个公式其实有一个更简单的形式：
$L = -logS_j$
当然此时要限定 j 是指向当前样本的真实标签。

3.4.3.3 cross entropy

理清了softmax loss，就可以来看看cross entropy了。corss entropy是交叉熵的意思，它的公式如下：
$\sum_{j=1}^T y_j logP_j$

大多数现代的神经网络使用最大似然来训练。这意味着代价函数就是负的对数似然，它与训练数据和模型分布间的交叉熵等价。代价函数的具体形式随着模型而改变。

在信息论中，交叉熵是表示两个概率分布p,q，其中p表示真实分布，q表示非真实分布，在相同的一组事件中，其中用非真实分布q来表示某个事件发生所需要的平均比特数。交叉熵可在神经网络(机器学习)中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性。

是不是觉得和softmax loss的公式很像。当cross entropy的输入P是softmax的输出时，cross entropy等于softmax loss。Pj是输入的概率向量P的第j个值，所以如果你的概率是通过softmax公式得到的，那么cross entropy就是softmax loss

使用最大似然来导出代价函数的方法的一个优势是，它减轻了为每个模型设计代价函数的负担。明确一个模型p(y|x)则自动地确定了一个代价函数logp(y|x)。代价函数的梯度必须足够的大和具有足够的预测性，来为学习算法提供一个好的指引。

3.4.3.4 SoftmaxLayerWithCrossEntropyLoss

SoftmaxLayerWithCrossEntropyLoss 是 a softmax layer with cross entropy loss，即带交叉熵损失的softmax层。

public class SoftmaxLayerWithCrossEntropyLoss extends Layer {
     
    @Override
    public LayerModel createModel() {
     
        return new SoftmaxLayerModelWithCrossEntropyLoss();
    }   
}

3.5 构建训练器

回忆示例代码

.setLayers(new int[]{
     4, 5, 3})

这里指定了神经网络的结构。输入层是 4个，隐藏层是 5，输出层是 3。

生成训练器的代码如下：

FeedForwardTrainer trainer = new FeedForwardTrainer(topology,
            	layerSize[0], layerSize[layerSize.length - 1], true, blockSize, 	
            	initialWeights);

FeedForwardTrainer 是前馈神经网络的训练器。

public class FeedForwardTrainer implements Serializable {
     
    private Topology topology;
    private int inputSize;
    private int outputSize;
    private int blockSize; // 数据分块大小，默认值64，在压缩时候被stack函数调用到
    private boolean onehotLabel;
    private DenseVector initialWeights;
}

变量打印如下

trainer = {
     FeedForwardTrainer@6456} 
 topology = {
     FeedForwardTopology@6455} 
  layers = {
     ArrayList@4963}  size = 4
   0 = {
     AffineLayer@6461} 
   1 = {
     FuntionalLayer@6462} 
   2 = {
     AffineLayer@6463} 
   3 = {
     SoftmaxLayerWithCrossEntropyLoss@6464} 
 inputSize = 4
 outputSize = 3
 blockSize = 64
 onehotLabel = true
 initialWeights = null

我们可以看到，训练的核心变量是 FeedForwardTrainer，其包含了拓扑模型topology，而topology包含了四层layers。

我们提前把训练器使用的优化器和目标函数也一起展示出来。训练器使用优化器来优化目标函数。

这里优化器是Lbfgs，其包含的目标函数是 AnnObjFunc，包含拓扑和拓扑模型。

public class AnnObjFunc extends OptimObjFunc {
     
    private Topology topology;
    private transient TopologyModel topologyModel = null;
}

拓扑模型是依据拓扑生成的，这里是 FeedForwardModel，其中各层对应的模型是AffineLayerModel，FuntionalLayerModel等。

各层模型的作用就是计算损失，梯度等，比如 AffineLayerModel.eval 就是简单的仿射变换 WX + b。

至此，多层感知机第一部分完成。敬请期待后文。

0xFF 参考

深度学习中的深度前馈网络简介

Deep Learning 中文翻译

https://github.com/fengbingchun/NN_Test

深度学习入门——Affine层（仿射层-矩阵乘积）

机器学习——多层感知机MLP的相关公式

多层感知器速成

神经网络（多层感知器）信用卡欺诈检测（一）

手撸ANN之——损失层

【机器学习】人工神经网络ANN

人工神经网络（ANN）的公式推导

[深度学习] [梯度下降]用代码一步步理解梯度下降和神经网络(ANN))

softmax和softmax loss详细解析

Softmax损失函数及梯度的计算

Softmax vs. Softmax-Loss: Numerical Stability

【技术综述】一文道尽softmax loss及其变种

前馈神经网络入门：为什么它很重要？

深度学习基础理解：以前馈神经网络为例

监督学习与回归模型

机器学习——前馈神经网络

AI产品：BP前馈神经网络与梯度问题

深度学习之前馈神经网络（前向传播和误差反向传播）

一文搞懂反向传播算法

★★★★★★关于生活和技术的思考★★★★★★
微信公众账号：罗西的思考
如果您想及时得到个人撰写文章的消息推送，或者想看看个人推荐的技术资料，可以扫描下面二维码（或者长按识别二维码）关注个人公众号）。

你可能感兴趣的:(200_Alink漫谈,001_机器学习,002_大数据,机器学习,Alink,Flink,大数据)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
漫谈QWidget及其派生类(二) Caiaolun
原文地址:https://blog.csdn.net/dbzhang800/article/details/6741344上一部分漫谈QWidget及其派生类(一)介绍了QWidget及其派生类,分：窗口、普通控件两种类型(其实有个Qt::SubWindow没有提，不过本系列中也没有介绍它的打算，因为我不熟)。本文接下来试图看看QLayout与窗口的几何尺寸控制。注意：本文只是试图解释，QLayo
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

Alink漫谈(十四) ：多层感知机 之 总体架构

Alink漫谈(十四) ：多层感知机 之 总体架构

文章目录

0x00 摘要

0x01 背景概念

1.1 前馈神经网络

1.2 反向传播

1.3 代价函数

1.4 优化过程

1.4.1 迭代法

1.4.2 梯度下降

1.5 相关公式

1.5.1 加权求和 h

1.5.2 神经元输出值 a

1.5.3 输出层的输出值 y

1.5.4 激活函数g(h)

1.5.5 损失函数E

1.5.6 误差反向传播——更新权重

1.5.7 输出层增量项 δo

1.5.8 更新输出层权重wjk

0x02 示例代码

0x03 训练总体逻辑

3.1 总体逻辑示例图

3.2 L-BFGS训练调用逻辑概述

3.3 获取训练数据

3.4 构建拓扑

3.4.1 AffineLayer

3.4.2 FuntionalLayer

3.4.3 SoftmaxLayerWithCrossEntropyLoss

3.4.3.1 Softmax

3.4.3.2 softmax loss

3.4.3.3 cross entropy

3.4.3.4 SoftmaxLayerWithCrossEntropyLoss

3.5 构建训练器

0xFF 参考

你可能感兴趣的:(200_Alink漫谈,001_机器学习,002_大数据,机器学习,Alink,Flink,大数据)

Alink漫谈(十四) ：多层感知机之总体架构

Alink漫谈(十四) ：多层感知机之总体架构