Shark源码分析（七）：神经网络

对于神经网络这里应该就不用叙述了吧，之后可能会写一些关于深度学习方面的博客。这里要介绍的神经网络，名字应该叫做前馈神经网络（Feed-Forward Networks）。至于这个神经网络为什么要叫前馈，是因为这个网络在拓扑结构上不含有反向边，也就是没有环。而不是指的信号不能反向地传递。

对于单个神经元，Shark提供了几种激活函数以供选择：

Logistic函数，输出范围是[0, 1]。其实在这种类型的网络中使用该函数不是一个很好的选择，因为在该函数的大部分区域上，其导数值都非常接近于0。在基于梯度的方法进行训练中，导致参数无法进行有效地更新。这也就是常说的梯度弥散问题。这需要在目标函数上做出一些工作。
双曲正切函数（tanh），输出范围是[-1, 1]。这个函数与Logistic函数有着同样的问题。
Fast Sigmoid函数，是一种类sigmoid函数，较之前两个函数的计算速度更快，是一种长尾类型的函数，意味着梯度值不会消散的特别快。其具体的形式为：
$f (x) = x 1 + | x |$
修正线性单元（Rectified Linear Units），是最近使用非常广泛的激活函数。其形式如下：
$f (x) = {0, x < 0 x, x \geq 0$
当x大于0时，其导数值是一直存在的，且恒为1。这个函数构建的网络优化起来也特别方便。

5.线性函数，将它作为隐层神经元的激活函数可能不太合适。因为线性函数的组合结果还是线性函数，导致整个网络没有办法拟合特别复杂的函数。在中间的一些层次上也可以使用该函数，如果将后一层神经元的个数定的较少的话，可以达到一个降维的作用。

NeuronBase类

作为所有类型神经元的基类，它定义了神经元的激活函数以及激活函数对应的导数。该类定义在。

template<class Derived> //注意到模板的参数是一个派生类类型，这个玄机我们之后会说
    class NeuronBase{
    private:
        template<class T>
        struct Function{ //定义神经元的激活函数
            typedef T argument_type;
            typedef argument_type result_type;
            static const bool zero_identity = false;

            Function(NeuronBase const* self):m_self(static_castconst*>(self)){} //这一段代码也是需要注意的一点

            //重载括号运算符，计算激活函数的输出
            result_type operator()(argument_type x)const{
                return m_self->function(x);
            }
            Derived const* m_self;
        };

        //定义激活函数的导数，与Function结构是类似的
        template<class T>
        struct FunctionDerivative{
            typedef T argument_type;
            typedef argument_type result_type;
            static const bool zero_identity = false;

            FunctionDerivative(NeuronBase const* self):m_self(static_castconst*>(self)){}

            result_type operator()(argument_type x)const{
                return m_self->functionDerivative(x);
            }
            Derived const* m_self;
        };
    public:

        //对于输入的每一项，计算其对应的激活值
        template<class E>
        blas::vector_unarytypename E::value_type> > operator()(blas::vector_expression const& x)const{
            typedef Function<typename E::value_type> functor_type;
            return blas::vector_unary(x,functor_type(this));
        }

        template<class E>
        blas::matrix_unarytypename E::value_type> > operator()(blas::matrix_expression const& x)const{
            typedef Function<typename E::value_type> functor_type;
            return blas::matrix_unary(x,functor_type(this));
        }

        //计算输入对应的激活函数的导数值
        template<class E>
        blas::vector_unarytypename E::value_type> > derivative(blas::vector_expression const& x)const{
            typedef FunctionDerivative<typename E::value_type> functor_type;
            return blas::vector_unary(x,functor_type(this));
        }

        template<class E>
        blas::matrix_unarytypename E::value_type> > derivative(blas::matrix_expression const& x)const{
            typedef FunctionDerivative<typename E::value_type> functor_type;
            return blas::matrix_unary(x,functor_type(this));
        }
    };

需要在子类中定义具体的激活函数以及其对应的导数形式，接下来我们来看一个具体的神经元类。

struct LogisticNeuron : public detail::NeuronBase{
    template<class T>
    T function(T x)const{
        return sigmoid(x);
    }
    template<class T>
    T functionDerivative(T y)const{
        return y * (1 - y);
    }
};

其实这个类的实现还是非常简单的。但是将其与基类联系起来看，其实是利用模板来实现多态。这种方法我也是第一次碰到。我们还是利用一点点的篇幅来介绍下这种技术。

我们把传统的多态实现方式称为动态多态，而模板的实现则是静态多态。区别如下：

动态多态的多态性是在运行期决定的，而静态多态则是在编译期决定的。
动态多态的实现需要更多空间上的开销，每个对象会因为一个虚函数而增加4 bytes，而静态多态则没有这个问题。
动态多态的实现需要更多时间的开销，虚函数的调用在时间上会比普通函数多一次整形加法和指针的间接引用。
动态多态是编译器内置的实现方式，而静态多态则会额外带来使用的复杂性。
动态多态中虚函数不能通过内联来优化执行效率。

其余神经元与LogisticNeuron类的形式差不多，这里就不再具体介绍了。但是在其中会发现一个原来没有介绍过的神经元类型。

template<class Neuron>
struct DropoutNeuron: public detail::NeuronBase >{
    DropoutNeuron():m_probability(0.5),m_stochastic(true){}
    template<class T>
    T function(T x)const{
        if(m_stochastic && Rng::coinToss(m_probability)){
            return T(0);
        }
        else if(!m_stochastic){
            return (1-m_probability)*m_neuron.function(x);
        }else{
            return m_neuron.function(x);
        }
    }
    template<class T>
    T functionDerivative(T y)const{
        if(!m_stochastic){
            return (1-m_probability)*m_neuron.functionDerivative(y/ (1-m_probability));
        }else{
            return m_neuron.functionDerivative(y);
        }
    }

    void setProbability(double probability){m_probability = probability;}
    void setStochastic(bool stochastic){m_stochastic = stochastic;}

private:
    double m_probability; //将输出甚至为0的概率
    bool m_stochastic;
    Neuron m_neuron;
};

这个类是对我们之前介绍的基本神经元类型，如LogisticNeuron类，的一种封装。并在其中应用了dropout技术。该技术最近也是比较火。它的思想非常的简单，通过将神经元的输出以一定的概率设置为0，来达到减小模型过拟合的概率。这里有一个问题就是，当m_stochastic这个变量被设置为true时是dropout，但如果被设置为false呢？

FFNet类

该类是定义网络具体结构的类。神经网络中所有的隐层单元的激活函数都是一样的。但是输出层的激活函数与隐层的可以不一致。该类定义在中。

首先来介绍下网络的几种连接方式。

struct FFNetStructures{
    enum ConnectionType{
        Normal, //没有跨层之间的连接
        InputOutputShortcut, //有输入层到输出层的连接
        Full //网络中的某一层与其下所有层都是有连接的
    };
};

template<class HiddenNeuron,class OutputNeuron>
class FFNet :public AbstractModel
{
    //网络中的神经元数，输入层神经元数，输出层神经元数
    std::size_t m_numberOfNeurons;
    std::size_t m_inputNeurons;
    std::size_t m_outputNeurons;

    //层间神经元连接的权值矩阵
    std::vector m_layerMatrix;

    //输入层与输出层间的连接权值，当且仅当连接方式选择了InputOutputShortcut，这个矩阵才是有意义的
    RealMatrix m_inputOutputShortcut;

    //这个矩阵是从输出层方向看整个网络得到的权值连接矩阵，相当于是m_layerMatrix的转置，主要用于反传过程
    std::vector m_backpropMatrix;

    //神经元的偏置，只有隐层单元和输出神经元可能有这一项
    RealVector m_bias;

    // 表示隐藏层、输出层神经元的类型
    HiddenNeuron m_hiddenNeuron;
    OutputNeuron m_outputNeuron;

    struct InternalState: public State{
        //存储输入是上一个batch数据时，网络中每一个神经元的激活值
        RealMatrix responses;

        void resize(std::size_t neurons, std::size_t patterns){
            responses.resize(neurons,patterns);
        }
    };

public:

    FFNet()
    :m_numberOfNeurons(0),m_inputNeurons(0),m_outputNeurons(0){
        m_features|=HAS_FIRST_PARAMETER_DERIVATIVE;
        m_features|=HAS_FIRST_INPUT_DERIVATIVE;
    }

    std::string name() const
    { return "FFNet"; }

    std::size_t inputSize()const{
        return m_inputNeurons;
    }

    std::size_t outputSize()const{
        return m_outputNeurons;
    }

    std::size_t numberOfNeurons()const{
        return m_numberOfNeurons;
    }

    //返回隐层神经元数，这个值在类中是没有直接给出的
    std::size_t numberOfHiddenNeurons()const{
        return numberOfNeurons() - inputSize() -outputSize();
    }

    std::vector const& layerMatrices()const{
        return m_layerMatrix;
    }

    RealMatrix const& layerMatrix(std::size_t layer)const{
        return m_layerMatrix[layer];
    }

    //设置指定层次间的连接权值矩阵以及偏置，同样也需要更新反向权值矩阵
    void setLayer(std::size_t layerNumber, RealMatrix const& m, RealVector const& bias){
        SIZE_CHECK(m.size1() == bias.size());
        SIZE_CHECK(m.size1() == m_layerMatrix[layerNumber].size1());
        SIZE_CHECK(m.size2() == m_layerMatrix[layerNumber].size2());
        m_layerMatrix[layerNumber] = m;
        std::size_t start = 0;
        for(std::size_t i = 0; i != layerNumber; ++i){
            start += m_layerMatrix[i].size1();
        }
        noalias(subrange(m_bias,start,start+bias.size())) = bias;
        //set backprop matrices
        setParameterVector(parameterVector());
    }

    std::vector const& backpropMatrices()const{
        return m_backpropMatrix;
    }

    RealMatrix const& inputOutputShortcut() const{
        return m_inputOutputShortcut;
    }

    HiddenNeuron const& hiddenActivationFunction()const{
        return m_hiddenNeuron;
    }

    OutputNeuron const& outputActivationFunction()const{
        return m_outputNeuron;
    }

    HiddenNeuron& hiddenActivationFunction(){
        return m_hiddenNeuron;
    }

    OutputNeuron& outputActivationFunction(){
        return m_outputNeuron;
    }

    const RealVector& bias()const{
        return m_bias;
    }

    //返回第layer层的偏置向量
    RealVector bias(std::size_t layer)const{
        std::size_t start = 0;
        for(std::size_t i = 0; i != layer; ++i){
            start +=layerMatrices()[i].size1();
        }
        return subrange(m_bias,start,start+layerMatrices()[layer].size1());
    }

    std::size_t numberOfParameters()const{
        std::size_t numParams = m_inputOutputShortcut.size1()*m_inputOutputShortcut.size2();
        numParams += bias().size();
        for(std::size_t i = 0; i != layerMatrices().size(); ++i){
            numParams += layerMatrices()[i].size1()*layerMatrices()[i].size2();
        }
        return numParams;
    }

    //将网络中所有的参数向量化返回，注意到参数的顺序是连接权值矩阵，偏置，m_inputOutputShortcut矩阵
    RealVector parameterVector() const{
        RealVector parameters(numberOfParameters());
        init(parameters) << matrixSet(m_layerMatrix),m_bias,toVector(m_inputOutputShortcut);
        return parameters;
    }

    //根据传入的参数向量来更改神经网络的参数，注意到更新的顺序与输出的顺序是一致的
    void setParameterVector(RealVector const& newParameters){
        init(newParameters) >> matrixSet(m_layerMatrix),m_bias,toVector(m_inputOutputShortcut);

        //如果相邻两个层之间是有连接的，那么只需要将权值矩阵转置下即可
        //它这里考虑的情况还比较复杂，因为可能会有跨层之间的连接，比如说full的连接形式
        std::size_t layeriStart = 0;//表示layeri之下有多少个神经元
        for(std::size_t layeri = 0; layeri != m_layerMatrix.size(); ++layeri){
            std::size_t columni = 0;
            std::size_t neuronsi = inputSize(); //表示layeri层有多少个神经元
            if(layeri > 0)
                neuronsi = m_layerMatrix[layeri-1].size1();

            std::size_t layerjStart = layeriStart + neuronsi;//表示layerj之下有多少个神经元
            for(std::size_t layerj = layeri; layerj != m_layerMatrix.size(); ++layerj){
                std::size_t neuronsj = m_layerMatrix[layerj].size1();//表示这一层神经元的个数

                //表示layerj层之下神经元个数减去当前层神经元个数，是否小于等于layeri层之下神经元个数
                //如果是小于的话，表示这两层神经元之间是有交集的
                if(layerjStart-m_layerMatrix[layerj].size2() <= layeriStart){                   
                    std::size_t weightStartj = layeriStart -(layerjStart - m_layerMatrix[layerj].size2());
                    noalias(columns(m_backpropMatrix[layeri],columni,columni+neuronsj)) 
                    = trans(columns(m_layerMatrix[layerj],weightStartj,weightStartj+neuronsi)); 
                }
                columni += neuronsj; //为了处理full连接的情况，将该层之下的每一层给剥离开
                layerjStart += neuronsj; 
            }
            layeriStart += neuronsi;
        }
    }

    RealMatrix const& neuronResponses(State const& state)const{
        InternalState const& s = state.toState();
        return s.responses;
    }

    boost::shared_ptr createState()const{
        return boost::shared_ptr(new InternalState());
    }

    //计算第layer层神经元的激活值，参数patterns表示该层的输入
    void evalLayer(std::size_t layer,RealMatrix const& patterns,RealMatrix& outputs)const{
        std::size_t numPatterns = patterns.size1();
        std::size_t numOutputs = m_layerMatrix[layer].size1();
        outputs.resize(numPatterns,numOutputs);
        outputs.clear();

        noalias(outputs) = prod(patterns,trans(layerMatrix(layer)));
        if(!bias().empty()){
            noalias(outputs) += repeat(bias(layer),numPatterns);
        }

       //要注意区分是否是输出层神经元，因为所使用的激活函数有可能不一样
        if(layer < m_layerMatrix.size()-1) {
            noalias(outputs) = m_hiddenNeuron(outputs);
        }
        else {
            noalias(outputs) = m_outputNeuron(outputs);
        }
    }

    Data evalLayer(std::size_t layer, Data const& patterns)const{
        int batches = (int) patterns.numberOfBatches();
        Data result(batches);
        SHARK_PARALLEL_FOR(int i = 0; i < batches; ++i){
            evalLayer(layer,patterns.batch(i),result.batch(i));
        }
        return result;
    }

    //计算网络的输出值，在responses中保存结果的副本，参数patterns表示输入数据
    void eval(RealMatrix const& patterns,RealMatrix& output, State& state)const{
        InternalState& s = state.toState();
        std::size_t numPatterns = patterns.size1();

        s.resize(numberOfNeurons(),numPatterns);
        s.responses.clear();
        noalias(rows(s.responses,0,m_inputNeurons)) = trans(patterns);
        std::size_t beginNeuron = m_inputNeurons;

        for(std::size_t layer = 0; layer != m_layerMatrix.size();++layer){
            const RealMatrix& weights = m_layerMatrix[layer];

            //这里s.response的一列存储的是所有神经元的激活值，所以这里是一个累加的过程，beginNeuron表示本层神经元的开始位置，endNeuron表示结束位置
            //这里层次之间的权值矩阵是Wij，其中i表示上一层，j表示下一层，所以取出权值矩阵后，行数表示这一层神经元的个数，列数表示下一层神经元的个数
            std::size_t endNeuron = beginNeuron + weights.size1();

            //获取本层神经元的输入，也就是上一层神经元的输出
            RealSubMatrix const input = rows(s.responses,beginNeuron - weights.size2(),beginNeuron);

            //获取本层的输出
            RealSubMatrix responses = rows(s.responses,beginNeuron,endNeuron);

            noalias(responses) = prod(weights,input);
            if(!bias().empty()){
                ConstRealVectorRange bias = subrange(m_bias,beginNeuron-inputSize(),endNeuron-inputSize());
                noalias(responses) += trans(repeat(bias,numPatterns));
            }
            SHARK_CRITICAL_REGION{
                //beware Dropout Neurons!
                //这里需要判断是否是输出层，所使用的神经元类型可能不同
                if(layer < m_layerMatrix.size()-1) {
                    noalias(responses) = m_hiddenNeuron(responses);
                }
                else {
                    //add shortcuts if necessary
                    if(m_inputOutputShortcut.size1() != 0){
                        noalias(responses) += prod(m_inputOutputShortcut,trans(patterns));
                    }
                    noalias(responses) = m_outputNeuron(responses);
                }
            }
            //go to the next layer
            beginNeuron = endNeuron;
        }
        //Sanity check
        SIZE_CHECK(beginNeuron == m_numberOfNeurons);

        //copy output layer into output
        output.resize(numPatterns,m_outputNeurons);
        noalias(output) = trans(rows(s.responses,m_numberOfNeurons-outputSize(),m_numberOfNeurons)); //直接从responses中获取结果
    }
    using AbstractModel::eval;

    //计算BP过程中梯度的反传值，参数patterns表示的是网络的输入，参数coefficients表示目标函数的梯度值，参数gradient保存的是输出的梯度，这里不需要计算输入层权值的改变量
    void weightedParameterDerivative(
        BatchInputType const& patterns, RealMatrix const& coefficients, State const& state, RealVector& gradient
    )const{
        SIZE_CHECK(coefficients.size2() == m_outputNeurons);
        SIZE_CHECK(coefficients.size1() == patterns.size1());
        std::size_t numPatterns=patterns.size1();

        RealMatrix delta(numberOfNeurons(),numPatterns,0.0);
        RealSubMatrix outputDelta = rows(delta,delta.size1()-outputSize(),delta.size1());
        noalias(outputDelta) = trans(coefficients);

        computeDelta(delta,state,false);
        computeParameterDerivative(delta,state,gradient);
    }

    //需要计算所有神经元的改变量，参数inputDerivative是连接输入神经元权值的改变量
    void weightedInputDerivative(
        BatchInputType const& patterns, RealMatrix const& coefficients, State const& state, BatchInputType& inputDerivative
    )const{
        SIZE_CHECK(coefficients.size2() == m_outputNeurons);
        SIZE_CHECK(coefficients.size1() == patterns.size1());
        std::size_t numPatterns=patterns.size1();

        RealMatrix delta(numberOfNeurons(),numPatterns,0.0);
        RealSubMatrix outputDelta = rows(delta,delta.size1()-outputSize(),delta.size1());
        noalias(outputDelta) = trans(coefficients);

        computeDelta(delta,state,true);
        inputDerivative.resize(numPatterns,inputSize());
        noalias(inputDerivative) = trans(rows(delta,0,inputSize()));
    }

    virtual void weightedDerivatives(
        BatchInputType const & patterns,
        BatchOutputType const & coefficients,
        State const& state,
        RealVector& parameterDerivative,
        BatchInputType& inputDerivative
    )const{
        SIZE_CHECK(coefficients.size2() == m_outputNeurons);
        SIZE_CHECK(coefficients.size1() == patterns.size1());
        std::size_t numPatterns = patterns.size1();

        RealMatrix delta(numberOfNeurons(),numPatterns,0.0);
        RealSubMatrix outputDelta = rows(delta,delta.size1()-outputSize(),delta.size1());
        noalias(outputDelta) = trans(coefficients);

        computeDelta(delta,state,true);
        inputDerivative.resize(numPatterns,inputSize());
        noalias(inputDerivative) = trans(rows(delta,0,inputSize()));

        computeParameterDerivative(delta,state,parameterDerivative);
    }

    void weightedParameterDerivativeFullDelta(
        RealMatrix const& patterns, RealMatrix& delta, State const& state, RealVector& gradient
    )const{
        InternalState const& s = state.toState();
        SIZE_CHECK(delta.size1() == m_numberOfNeurons);
        SIZE_CHECK(delta.size2() == patterns.size1());
        SIZE_CHECK(s.responses.size2() == patterns.size1());

        computeDelta(delta,state,false);
        //now compute the parameter derivative from the delta values
        computeParameterDerivative(delta,state,gradient);
    }

    //设置网络的结构，网络中每一层的神经元数都存储在layers中，参数biasNeuron表示是否需要为每一个神经元设置偏置 
    void setStructure(
        std::vector const& layers,
        FFNetStructures::ConnectionType connectivity = FFNetStructures::Normal,
        bool biasNeuron = true
    ){
        SIZE_CHECK(layers.size() >= 2);

        //权值矩阵要比网络的层数少一层
        m_layerMatrix.resize(layers.size()-1);
        m_backpropMatrix.resize(layers.size()-1);

        //如果网络的连接形式是InputOutputShortcut，且网络只有三层，则意味着其网络结构与Full是等价的
        if(connectivity == FFNetStructures::InputOutputShortcut && layers.size() ==3)
            connectivity = FFNetStructures::Full;

        m_inputNeurons = layers.front();
        m_outputNeurons = layers.back();
        m_numberOfNeurons = 0;
        for(std::size_t i = 0; i != layers.size(); ++i){
            m_numberOfNeurons += layers[i];
        }
        if(biasNeuron){
            m_bias.resize(m_numberOfNeurons - m_inputNeurons);
        }

        if(connectivity == FFNetStructures::Full){
            //对于这种连接形式的网络来说，某一层与其下所有层都是有连接的，所以需要在之前对神经元数进行累加操作
            std::size_t numNeurons = layers[0];
            for(std::size_t i = 0; i != m_layerMatrix.size(); ++i){
                m_layerMatrix[i].resize(layers[i+1],numNeurons);
                m_backpropMatrix[i].resize(layers[i],m_numberOfNeurons-numNeurons);
                numNeurons += layers[i+1];
            }
            m_inputOutputShortcut.resize(0,0);
        }else{
            //only connect with the previous layer
            for(std::size_t i = 0; i != m_layerMatrix.size(); ++i){
                m_layerMatrix[i].resize(layers[i+1],layers[i]);
                m_backpropMatrix[i].resize(layers[i],layers[i+1]);
            }

            if(connectivity == FFNetStructures::InputOutputShortcut){
                m_inputOutputShortcut.resize(m_outputNeurons,m_inputNeurons);
            }
        }
    }

    void setStructure(
        std::size_t in,
        std::size_t hidden,
        std::size_t out,
        FFNetStructures::ConnectionType connectivity = FFNetStructures::Normal,
        bool bias      = true
    ){
        std::vector layer(3);
        layer[0] = in;
        layer[1] = hidden;
        layer[2] = out;
        setStructure(layer, connectivity, bias);
    }

    void setStructure(
        std::size_t in,
        std::size_t hidden1,
        std::size_t hidden2,
        std::size_t out,
        FFNetStructures::ConnectionType connectivity = FFNetStructures::Normal,
        bool bias      = true
    ){
        std::vector layer(4);
        layer[0] = in;
        layer[1] = hidden1;
        layer[2] = hidden2;
        layer[3] = out;
        setStructure(layer, connectivity, bias);
    }

    void read( InArchive & archive ){
        archive>>m_inputNeurons;
        archive>>m_outputNeurons;
        archive>>m_numberOfNeurons;
        archive>>m_layerMatrix;
        archive>>m_backpropMatrix;
        archive>>m_inputOutputShortcut;
        archive>>m_bias;
    }

    void write( OutArchive & archive ) const{
        archive<private:
    //计算每一层参数的delta值，bool参数表示是否需要计算输入层参数的delta值
    void computeDelta(
        RealMatrix& delta, State const& state, bool computeInputDelta
    )const{
        SIZE_CHECK(delta.size1() == numberOfNeurons());
        InternalState const& s = state.toState();

        //initialize output neurons using coefficients
        RealSubMatrix outputDelta = rows(delta,delta.size1()-outputSize(),delta.size1());
        ConstRealSubMatrix outputResponse = rows(s.responses,delta.size1()-outputSize(),delta.size1());
        noalias(outputDelta) *= m_outputNeuron.derivative(outputResponse); //就是计算出输出的导数值

        std::size_t endNeuron = delta.size1()-outputSize();
        std::size_t layer = m_backpropMatrix.size()-1; //注意到这里已经是设置成网络的层数减1
        std::size_t endIndex = computeInputDelta? 0: inputSize(); //表示是否需要计算输入的delta值
        while(endNeuron > endIndex){
            RealMatrix const& weights = m_backpropMatrix[layer];
            std::size_t beginNeuron = endNeuron - weights.size1();//first neuron of the current layer
            //get the delta and response values of this layer
            RealSubMatrix layerDelta = rows(delta,beginNeuron,endNeuron);
            RealSubMatrix layerDeltaInput = rows(delta,endNeuron,endNeuron+weights.size2()); //上一层传入的delta值
            ConstRealSubMatrix layerResponse = rows(s.responses,beginNeuron,endNeuron);

            //每一层的delta值，是上一层的delta值乘以连接的权值矩阵，再乘以该层激活函数的导数值
            //我感觉这里还是有点问题，每一层的delta值，应该是上一层的delta值乘以上一层的连接权值（最后一层除外），求和之后，再乘以所连接的上一层的神经元激活函数的导数值
            noalias(layerDelta) += prod(weights,layerDeltaInput);//add the values to the maybe non-empty delta part
            if(layer != 0){
                noalias(layerDelta) *= m_hiddenNeuron.derivative(layerResponse);
            }

            endNeuron=beginNeuron;
            --layer;
        }

        //add the shortcut deltas if necessary
        if(inputOutputShortcut().size1() != 0)
            noalias(rows(delta,0,inputSize())) += prod(trans(inputOutputShortcut()),outputDelta);
    }

    //计算误差的梯度值，在对神经元的偏置进行调整时，需要用到delta值，在对连接权值进行调整时需要用到梯度值。在进行激活值、delta值、梯度值计算时需要注意到层次间的对应关系
    void computeParameterDerivative(RealMatrix const& delta, State const& state, RealVector& gradient)const{
        SIZE_CHECK(delta.size1() == numberOfNeurons());
        InternalState const& s = state.toState();

        gradient.resize(numberOfParameters());
        std::size_t pos = 0;
        std::size_t layerStart = inputSize();
        for(std::size_t layer = 0; layer != layerMatrices().size(); ++layer){
            std::size_t layerRows =  layerMatrices()[layer].size1();
            std::size_t layerColumns =  layerMatrices()[layer].size2();
            std::size_t params = layerRows*layerColumns;

            //误差的梯度就是该层的delta值乘以下一层的输出
            axpy_prod(
                rows(delta,layerStart,layerStart+layerRows),
                trans(rows(s.responses,layerStart-layerColumns,layerStart)),
                to_matrix(subrange(gradient,pos,pos+params),layerRows,layerColumns)
            );
            pos += params;
            layerStart += layerRows;
        }

        //check whether we need the bias derivative
        //注意到偏置的梯度值是放在最后的，参数的更新只需要用到delta值
        if(!bias().empty()){
            for (std::size_t neuron = m_inputNeurons; neuron < m_numberOfNeurons; neuron++){
                gradient(pos) = sum(row(delta,neuron));
                pos++;
            }
        }

        //compute shortcut derivative
        if(inputOutputShortcut().size1() != 0){
            std::size_t params = inputSize()*outputSize();
            axpy_prod(
                rows(delta,delta.size1()-outputSize(),delta.size1()),
                trans(rows(s.responses,0,inputSize())),
                to_matrix(subrange(gradient,pos,pos+params),outputSize(),inputSize())
            );
        }
    }
};

网络参数的调整

在定义好网络之后，需要有相应的学习算法对网络的参数进行调整。最经典的方法莫过于BP算法，但是shark中使用的方法并不是传统的BP算法，只是使用了梯度的符号并没有使用其值来对参数进行调整。这句话的含义可以在具体的算法中理解。

说到这里，不得不跟目标函数扯上联系。因为正是利用目标函数的梯度的反传，才能对参数值进行调整。所以这里对于网络参数的优化，归根到底还是对于目标函数的优化。这一内容其实在之前的博客中也有提到过。

参数调整的方法定义在文件中，实现在中。

在这个文件中介绍了几个参数调整的方法，这里值介绍其中的一种方法，其他几种方法在思想上都是极其类似的。

delta的更新公式为：

Δ (t) i = {m i n (η + \cdot Δ (t - 1) i, Δ m a x), m a x (η - \cdot Δ (t - 1) i, Δ m i n), Δ (t - 1) i, if \partial E ( t - 1 ) \partial w i \cdot \partial E ( t ) \partial w i > 0 if \partial E ( t - 1 ) \partial w i \cdot \partial E ( t ) \partial w i < 0 otherwise

为了使delta值的更新更稳定，将更新的幅度控制在 [Δmin,Δmax] 内。其中参数 η+>1,0<η−<1 控制了delta值的更新速度。从公式中我们看得出，delta值的更新，主要取决于相邻两次计算的梯度的符号。

参数的更新公式为：

Δ w (t) i : = - sign (\partial E ( t ) \partial w i) \cdot Δ (t) i

class RpropMinus : public AbstractSingleObjectiveOptimizer
{
public:
    SHARK_EXPORT_SYMBOL RpropMinus(){
        m_features |= REQUIRES_FIRST_DERIVATIVE;
        m_features |= CAN_SOLVE_CONSTRAINED;

        m_increaseFactor = 1.2;
        m_decreaseFactor = 0.5;
        m_maxDelta = 1e100;
        m_minDelta = 0.0;
    }

    std::string name() const
    { return "RpropMinus"; }

    SHARK_EXPORT_SYMBOL void init(ObjectiveFunctionType& objectiveFunction, SearchPointType const& startingPoint){
        init(objectiveFunction,startingPoint,0.01);
    }

    //参数initDelta表示设定的初始值
    SHARK_EXPORT_SYMBOL virtual void init(ObjectiveFunctionType& objectiveFunction, SearchPointType const& startingPoint, double initDelta){
        checkFeatures(objectiveFunction);
        objectiveFunction.init();

        m_parameterSize = startingPoint.size();
        m_delta.resize(m_parameterSize);
        m_oldDerivative.resize(m_parameterSize);

        std::fill(m_delta.begin(),m_delta.end(),initDelta);
        m_oldDerivative.clear();
        m_best.point = startingPoint;
        //evaluate initial point
        //计算初始的梯度，返回的是网络的整体误差
        //这里的调用顺序是：首先是调用计算目标函数梯度的函数，之后该函数会调用计算网络每一层梯度的函数
        m_best.value = objectiveFunction.evalDerivative(m_best.point,m_derivative);
    }

    using AbstractSingleObjectiveOptimizer::init;

    SHARK_EXPORT_SYMBOL void step(ObjectiveFunctionType const& objectiveFunction){
        for (size_t i = 0; i < m_parameterSize; i++)
        {
            double p = m_best.point(i);
            if (m_derivative(i) * m_oldDerivative(i) > 0)
            {
                m_delta(i) = std::min(m_maxDelta, m_increaseFactor * m_delta(i));
            }
            else if (m_derivative(i) * m_oldDerivative(i) < 0)
            {
                m_delta(i) = std::max(m_minDelta, m_decreaseFactor * m_delta(i));
            }
            m_best.point(i) -= m_delta(i) * boost::math::sign(m_derivative(i));
            //如果这个点不在可行解的范围内，则不对参数的值进行改变
            if (! objectiveFunction.isFeasible(m_best.point))
            {
                m_best.point(i) = p;
                m_delta(i) *= m_decreaseFactor;
                m_oldDerivative(i) = 0.0;
            }
            else
            {
                m_oldDerivative(i) = m_derivative(i);
            }
        }
        //evaluate the new point
        m_best.value = objectiveFunction.evalDerivative(m_best.point,m_derivative);
    }

    SHARK_EXPORT_SYMBOL virtual void read( InArchive & archive );
    SHARK_EXPORT_SYMBOL virtual void write( OutArchive & archive ) const;

    void setEtaMinus(double etaMinus) {
        RANGE_CHECK( etaMinus < 1 );
        RANGE_CHECK( etaMinus > 0 );
        m_decreaseFactor = etaMinus;
    }

    void setEtaPlus(double etaPlus) {
        RANGE_CHECK( etaPlus > 1 );
        m_increaseFactor = etaPlus;
    }

    void setMaxDelta(double d) {
        RANGE_CHECK( d > 0 );
        m_maxDelta = d;
    }

    void setMinDelta(double d) {
        RANGE_CHECK( d >= 0 );
        m_minDelta = d;
    }

    double maxDelta() const {
        return *std::max_element(m_delta.begin(),m_delta.end());
    }
protected:
    ObjectiveFunctionType::FirstOrderDerivative m_derivative;//表示当前的梯度

    double m_increaseFactor;//$\eta^+$，默认1.2

    double m_decreaseFactor;//$\eta^-$，默认0.5

    double m_maxDelta;

    double m_minDelta;

    size_t m_parameterSize;//参数的个数

    RealVector m_oldDerivative;//上一次的梯度

    RealVector m_delta;//这一次的delta值
};

一个具体的例子

在介绍完那么多的内容之后，最后给出一个具体的例子，将之前那么多的内容都串联起来。

#include
#include
#include
#include
#include
#include
#include
#include

using namespace shark;
using namespace std;

// data generating distribution for our toy
// multi-category classification problem
class Problem : public LabeledDataDistributionunsigned int>
{
private:
    double m_noise;
public:
    Problem(double noise):m_noise(noise){}
    void draw(RealVector& input, unsigned int& label)const
    {
        label = Rng::discrete(0, 4);
        input.resize(2);
        input(0) = m_noise * Rng::gauss() + 3.0 * std::cos((double)label);
        input(1) = m_noise * Rng::gauss() + 3.0 * std::sin((double)label);
    }
};

int main(){
    //get problem data
    Problem problem(1.0);
    LabeledDataunsigned int> training = problem.generateDataset(1000);
    LabeledDataunsigned int> test = problem.generateDataset(100);

    std::size_t inputs=inputDimension(training);
    std::size_t outputs = numberOfClasses(training);
    std::size_t hiddens = 10;
    unsigned numberOfSteps = 1000;

    //create network and initialize weights random uniform
    FFNet network;
    network.setStructure(inputs,hiddens,outputs);
    initRandomUniform(network,-0.1,0.1);

    //create error function
    CrossEntropy loss;
    ErrorFunction error(training,&network,&loss);

    // loss for evaluation
    // The zeroOneLoss for multiclass problems assigns the class to the highest output
    ZeroOneLoss<unsigned int, RealVector> loss01; 

    // evaluate initial network
    Data prediction = network(training.inputs());
    cout << "classification error before learning:\t" << loss01.eval(training.labels(), prediction) << endl;

    //initialize Rprop
    IRpropPlus optimizer;
    optimizer.init(error);

    for(unsigned step = 0; step != numberOfSteps; ++step) 
        optimizer.step(error);

    // evaluate solution found by training
    network.setParameterVector(optimizer.solution().point); // set weights to weights found by learning
    prediction = network(training.inputs());
    cout << "classification error after learning:\t" << loss01(training.labels(), prediction) << endl;
}

首先是构建网络的结构，这里是一个三层的结构。之后就是定义目标函数，这里是将交叉熵函数作为目标函数。选择IRpropPlus方法作为目标函数的优化方法，其实与我们所介绍的RpropMinus方法是类似的。最后是将学习到的最优参数写回到模型中去。

你可能感兴趣的:(Shark源码分析,shark,神经网络)

ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
JVM源码分析之堆外内存完全解读 HeapDump性能社区
概述广义的堆外内存说到堆外内存，那大家肯定想到堆内内存，这也是我们大家接触最多的，我们在jvm参数里通常设置-Xmx来指定我们的堆的最大值，不过这还不是我们理解的Java堆，-Xmx的值是新生代和老生代的和的最大值，我们在jvm参数里通常还会加一个参数-XX:MaxPermSize来指定持久代的最大值，那么我们认识的Java堆的最大值其实是-Xmx和-XX:MaxPermSize的总和，在分代算法
Java -jar 如何在后台运行项目 vincent_hahaha
撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>>说到运行jar包通常我们都会以下面的方式运行:java-jarspringboot-0.0.1-SNAPSHOT.jar这样运行的话会有一个问题，就是我们一关闭当前窗口就会停止运行项目，要想解决这个问题，就需要在后台运行。nohupjava-jarbabyshark-0.0.1-SNAPSHOT.jar >log.file 2>&
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
Golang Channel PandaSkr golang
Channel解析1.Channel源码分析1.1Channel数据结构typehchanstruct{qcountuint//channel的元素数量dataqsizuint//channel循环队列长度bufunsafe.Pointer//指向循环队列的指针elemsizeuint16//元素大小closeduint32//channel是否关闭0-未关闭elemtype*_type//元素类
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
Java集合类框架源码分析之 RoleList源码解析【6】 yunzhonghefei Java集合类源码分析 RoleList源码解析
该类继承于ArrayList，针对Role进行了一些扩展。其他方法和ArrayList中基本相同，源码不做针对性分析：看一下类简介：/***代表了一个roles的列表，作为方法setRoles()的参数，去创建一个关联关系，并且尝试在同一个关系中设置多个角色。*ARoleListrepresentsalistofroles(Roleobjects).Itisusedas*parameterwhen
【鸿蒙OH-v5.0源码分析之 Linux Kernel 部分】004 - Kernel 启动引导代码head.S 源码逐行分析 "小夜猫&小懒虫&小财迷"的男人鸿蒙OH-v5.0源码分析之 Uboot+Kernel 部分 harmonyos linux 华为
【鸿蒙OH-v5.0源码分析之LinuxKernel部分】004-Kernel启动引导代码head.S源码逐行分析系列文章汇总：《鸿蒙OH-v5.0源码分析之Uboot+Kernel部分】000-文章链接汇总》本文链接：《【鸿蒙OH-v5.0源码分析之LinuxKernel部分】004-Kernel启动引导代码head.S源码逐行分析》head.S主要工作如下：保存内核启动参数,无效化处理器缓存(
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Java高并发编程详解系列-深入理解Thread构造 nihui123 高并发 Java高并发 Java 高并发
上篇分享中主要是对线程的基本概念和基本操作做了一个分享，同时提出了两种常用的创建多线程的方法，当然在后期的分享中也会提及到更多的创建线程的方式，到后期的分享的时候再说。这次主要是深入的理解一下Thread的构造函数，通过构造函数对于Thread有一个更加深入的了解。这里首先提供一个JDK1.6的ThreadAPI截图线程命名规范从源码分析可以看到在Thread类中默认提供了线程的命名方式，这个
【QT教程】QT6硬件图形界面编程 QT硬件编程 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 c++QT教程
QT6硬件图形界面编程使用AI技术辅助生成QT界面美化视频课程QT性能优化视频课程QT原理与源码分析视频课程QTQMLC++扩展开发视频课程免费QT视频课程您可以看免费1000+个QT技术视频免费QT视频课程QT统计图和QT数据可视化视频免费看免费QT视频课程QT性能优化视频免费看免费QT视频课程QT界面美化视频免费看1QT6硬件图形界面编程概述1.1QT6硬件图形界面编程简介1.1.1QT6硬件
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
Jetpack LiveData源码分析 xiangxiongfly915 #Android Jetpack系列 Jetpack LiveData 源码分析
文章目录JetpackLiveData源码分析前提源码分析注册订阅流程LiveData#observe()LifecycleRegistry#addObserver()ObserverWithState#dispatchEvent()LiveData#removeObserver()LiveData$LifecycleBoundObserver类LifecycleBoundObserver#sho
ExoPlayer架构详解与源码分析（17）——TrackSelector 山雨楼 ExoPlayer 架构 android 音视频 ExoPlayer Media3 源码
系列文章目录ExoPlayer架构详解与源码分析（1）——前言ExoPlayer架构详解与源码分析（2）——PlayerExoPlayer架构详解与源码分析（3）——TimelineExoPlayer架构详解与源码分析（4）——整体架构ExoPlayer架构详解与源码分析（5）——MediaSourceExoPlayer架构详解与源码分析（6）——MediaPeriodExoPlayer架构详解与
ExoPlayer架构详解与源码分析（12）——Cache 山雨楼 ExoPlayer 架构 android 音视频 ExoPlayer Media3 源码
系列文章目录ExoPlayer架构详解与源码分析（1）——前言ExoPlayer架构详解与源码分析（2）——PlayerExoPlayer架构详解与源码分析（3）——TimelineExoPlayer架构详解与源码分析（4）——整体架构ExoPlayer架构详解与源码分析（5）——MediaSourceExoPlayer架构详解与源码分析（6）——MediaPeriodExoPlayer架构详解与
ExoPlayer架构详解与源码分析（7）——SampleQueue(4) 2401_83740189 程序员架构
long[]newSourceIds=newlong[newCapacity];long[]newOffsets=newlong[newCapacity];long[]newTimesUs=newlong[newCapacity];int[]newFlags=newint[newCapacity];int[]newSizes=newint[newCapacity];CryptoData[]newC
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【3.6 python中的numpy编写一个“手写数字识”的神经网络】 wang151038606 深度学习入门 python numpy 神经网络
3.6python中的numpy编写一个“手写数字识”的神经网络要使用Python中的NumPy库从头开始编写一个“手写数字识别”的神经网络，我们通常会处理MNIST数据集，这是一个广泛使用的包含手写数字的图像数据集。但是，完全用NumPy来实现神经网络（包括数据的加载、预处理、模型定义、前向传播、损失计算、反向传播和权重更新）是一个相当复杂的任务，因为NumPy本身不提供自动微分或高级优化算法（
【HarmonyOS】- 常见算法简单写法数的羊都睡了 HarmonyOS ArkTS 鸿蒙
文章目录知识回顾前言源码分析1.冒泡排序2.二分法查找拓展知识时间、空间复杂度总结知识回顾前言常见算法简单写法源码分析1.冒泡排序functionbubbleSort(arr:number[]):number[]{constn=arr.length;for(leti=0;iarr[j+1]){//交换元素consttemp=arr[j];arr[j]=arr[j+1];arr[j+1]=temp;
yolov5单目测距+速度测量+目标跟踪 cv_2025 YOLO 目标跟踪人工智能计算机视觉机器学习图像处理 opencv
要在YOLOv5中添加测距和测速功能，您需要了解以下两个部分的原理：单目测距算法单目测距是使用单个摄像头来估计场景中物体的距离。常见的单目测距算法包括基于视差的方法（如立体匹配）和基于深度学习的方法（如神经网络）。基于深度学习的方法通常使用卷积神经网络（CNN）来学习从图像到深度图的映射关系。单目测距代码单目测距涉及到坐标转换，代码如下：defconvert_2D_to_3D(point2D,R,
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C