muyuu

CRF++代码解读

代码结构

代码的结构如下：

"CrfLearn"和"CrfTest"分别是学习过程和预测过程的入口。"Encoder"是服务于"CrfLearn"用来执行具体的学习过程。
"LbfgsOptimizer"是在损失函数和梯度被计算完毕后被"Encoder"调用来进行参数优化，"Mcsrch"是服务于"LbfgsOptimizer"进行步长搜索的函数。
剩下的"FeatureIndex, Model, Node, Pair, Tagger, …"都是自定义的数据结构，方便其他功能性函数使用。

特征提取

数据读入

运行"CrfLearn"会直接调用"Encoder"里面的learn函数：

    Encoder encoder = new Encoder();
    if (!encoder.learn(restArgs[0], restArgs[1], restArgs[2],textmodel, maxiter, freq, eta, C1, C2, threadNum, shrinkingSize, algo, compact)) {
        System.err.println("fail to learn model");
        return false;
    }

learn函数中首先读取了trainFile和templFile，这两个文件的格式都在理论篇中介绍了。

    List<TaggerImpl> x = new ArrayList<TaggerImpl>();//用于放所有的train data，按句分开
    if (!featureIndex.open(templFile, trainFile)) {//featureIndex用于储存所有与特征函数相关的东西，包括特征模板，特征函数及其id，特征函数的权重，output的label等等，详见EncoderFeatureIndex类
        System.err.println("Fail to open " + templFile + " " + trainFile);
    }

生成特征函数

接下来对每一句话，定义一个TaggerImpl类的变量tagger，tagger里面存这句话的训练数据以及特征模板信息：

    TaggerImpl tagger = new TaggerImpl(TaggerImpl.Mode.LEARN);//tagger用来储存一句训练数据包含的所有内容，详见TaggerImpl类
    tagger.open(featureIndex);//tagger里存特征模板信息
    TaggerImpl.ReadStatus status = tagger.read(br);//tagger里存训练数据

接下来解析特征函数的入口在这里：

    if (!tagger.shrink()) {//遍历模板及数据，将得到的特征，特征的index，以及特征被hit中的次数放到featureIndex.dic_里面去
         System.err.println("fail to build feature index ");
         return false;
    }

进入shrink()函数，立马就调用了buildFeatures()，再进入buildFeatures()函数，可以看到它是分别解析unigram和bigram两类模板生成的特征：

    public boolean buildFeatures(TaggerImpl tagger) {//该函数的功能是根据模板提取特征
        List<Integer> feature = new ArrayList<Integer>();
        List<List<Integer>> featureCache = tagger.getFeatureCache_();
        tagger.setFeature_id_(featureCache.size());

        //unigram模板一共生成x_.size()*num个特征，x_.size()*num*y_.size()个特征函数，其中num是模板的个数
        for (int cur = 0; cur < tagger.size(); cur++) {//一次读tagger里面的一行，例如"Confidence NN B"
            if (!buildFeatureFromTempl(feature, unigramTempls_, cur, tagger)) {//根据unigram特征模板，生成该行对应的特征
                return false;
            }
            feature.add(-1);//以-1结尾
            featureCache.add(feature);//featureCache[i]用于存放第i行数据根据unigram模板生成的特征（可能不止一个）的起始位置，例如featureCache[0]='0,3,-1',featureCache[1]='6,9,-1'
            feature = new ArrayList<Integer>();
        }
        //从第二个词开始，利用bigram模板生成bigram特征，如果模板是B，那么只生成一个特征，如果是类似B00%x[0,0]，那么生成x_.size()-1个特征
        for (int cur = 1; cur < tagger.size(); cur++) {
            if (!buildFeatureFromTempl(feature, bigramTempls_, cur, tagger)) {
                return false;
            }
            feature.add(-1);
            featureCache.add(feature);
            feature = new ArrayList<Integer>();
        }
        return true;
    }

解释一下特征模板，特征，特征函数的区别：

特征模板形如U01:%x[0,0]或者B，它是直接在temlpFile里面人工定义的
特征是由训练数据遍历特征模板得到的，例如训练数据Confidence NN B经过特征模板U01:%x[0,0]就会得到特征U01:Confidence；如果经过的特征模板是U08:%x[0,1]就会得到特征U08:NN
特征函数实际上是由上面的特征展开得到的，如果是unigram特征，就展开成label个特征函数，如果是bigram特征，就展开成label*label个特征函数

上面buildFeatures里最主要的功能都在buildFeatureFromTempl里面，我们再进入到buildFeatureFromTempl函数，主要的功能函数applyRule和getID的作用都在下面注释了，不难看出，虽然理论上我们使用的都是特征函数，但由于特征函数是特征按照一定规律展开出来的，所以为了节省内存，代码里只存了所有的特征及其起始位置：

    private boolean buildFeatureFromTempl(List<Integer> feature, List<String> templs, int curPos, TaggerImpl tagger) {
        for (String tmpl : templs) {
            String featureID = applyRule(tmpl, curPos, tagger);//根据特征模板U00:%x[row,col]生成特征"U00:{tagger.x_[cur+row,col]}",例如第一行是"Confidence NN B"时,U00:%x[0,0]生成特征"U00:Confidence"
            if (featureID == null || featureID.length() == 0) {
                System.err.println("format error");
                return false;
            }
            int id = getID(featureID);//featureID这个特征的起始位置，每个特征都有y_.size()或者y_.size()^2个特征函数
            if (id != -1) {
                feature.add(id);
            }
        }
        return true;
   }

至此就完成了一个tagger.shrink()并回到"Encoder"里面。接下来给这条数据分配一个线程，并将这句话加到x里面：

    tagger.setThread_id_(lineNo % threadNum);//每条数据分配一个thread
    x.add(tagger);//x用于放所有的train data，按句分开

以上步骤重复直至所有训练数据都读取完，所有的特征也都解析完毕。下面会经过featureIndex.shrink(freq, x);，用于将出现频率低于freq的特征过滤掉。

学习过程

有了特征函数，我们下面可以按照理论篇的公式来计算loss func和gradient：

计算loss和gradient

接下来初始化特征函数的参数alpha:

double[] alpha = new double[featureIndex.size()];//alpha的维度为x.size()*y.size()*num，每一个特征函数都有一个权重参数
Arrays.fill(alpha, 0.0);

然后根据选择的模型进行训练：

        switch (algo) {
            case CRF_L1:
                if (!runCRF(x, featureIndex, alpha, maxitr, C1, C2, eta, shrinkingSize, threadNum, true)) {
                    System.err.println("CRF_L1 execute error");
                    return false;
                }
                break;
            case CRF_L2:
                if (!runCRF(x, featureIndex, alpha, maxitr, C1, C2, eta, shrinkingSize, threadNum, false)) {
                    System.err.println("CRF_L2 execute error");
                    return false;
                }
                break;
            case MIRA:
                if (!runMIRA(x, featureIndex, alpha, maxitr, C2, eta, shrinkingSize, threadNum)) {
                    System.err.println("MIRA execute error");
                    return false;
                }
                break;
            default:
                break;
        }

进入runCRF()，首先是将各个线程里面计算的loss和gradient累加：

    for (int i = 1; i < threadNum; i++) {
        threads.get(0).obj += threads.get(i).obj;//累加loss fun的值
        threads.get(0).err += threads.get(i).err;//预测错的词数
        threads.get(0).zeroone += threads.get(i).zeroone;//预测错的句子数
   }
    for (int i = 1; i < threadNum; i++) {
        for (int k = 0; k < featureIndex.size(); k++) {
            threads.get(0).expected[k] += threads.get(i).expected[k];//累加所有training data的梯度
        }
    }

然后是根据需要，在loss及gradient后面加上正则化的部分：

    if (orthant) {
       for (int k = 0; k < featureIndex.size(); k++) {//L1正则化
           threads.get(0).obj += Math.abs(alpha[k] / C1)
           //L1正则化的梯度会根据x所处的位置有不同，因此放到lbfgs里面计算
           if (alpha[k] != 0.0) {
               numNonZero++;
           }
       }
   } else {
           numNonZero = featureIndex.size();
           for (int k = 0; k < featureIndex.size(); k++) {//L2正则化
               threads.get(0).obj += (alpha[k] * alpha[k] / (2.0 * C2));
               threads.get(0).expected[k] += alpha[k] / C2;
           }
    }

多线程计算loss和gradient是通过调用CRFEncoderThread.java实现的：

    for (int i = start_i; i < size; i = i + threadNum) {
            obj += x.get(i).gradient(expected);//计算loss和gradient
            int errorNum = x.get(i).eval();
            x.get(i).clearNodes();
            err += errorNum;//预测错的词数
            if (errorNum != 0) {
                ++zeroone;//预测错的句子数
            }
        }

buildLattice

主要的功能在gradient()里实现：

    public double gradient(double[] expected) {
        if (x_.isEmpty()) {
            return 0.0;
        }
        buildLattice();//计算所有node和path上的loss，也就是unigram和bigram的loss，对应公式(3.1)里面的w_kf_k(X,Y)
        forwardbackward();//利用前向后向算法计算alpha和beta，并计算归一化因子Z_w
        double s = 0.0;

        for (int i = 0; i < x_.size(); i++) {
            for (int j = 0; j < ysize_; j++) {
                node_.get(i).get(j).calcExpectation(expected, Z_, ysize_);//计算公式(3.3)梯度项里面的E_p(f)
            }
        }
        for (int i = 0; i < x_.size(); i++) {
            List<Integer> fvector = node_.get(i).get(answer_.get(i)).fVector;//answer_[i]表示第i个词的真实label, 取(i,label)对应的unigram特征
            for (int j = 0; fvector.get(j) != -1; j++) {//遍历(i,label)对应的unigram特征
                int idx = fvector.get(j) + answer_.get(i);//找到unigram特征的index
                expected[idx]--;//每遍历一个unigram特征，就减1，遍历所有的特征之后，就相当于减掉了公式(3.2)中f(Y,X)的unigram部分
            }
            s += node_.get(i).get(answer_.get(i)).cost; //UNIGRAM COST
            List<Path> lpath = node_.get(i).get(answer_.get(i)).lpath;//answer_[i]表示第i个词的真实label，取(i,label)对应的bigram特征
            for (Path p : lpath) {//遍历(i,label)对应的bigram特征
                if (p.lnode.y == answer_.get(p.lnode.x)) {
                    for (int k = 0; p.fvector.get(k) != -1; k++) {
                        int idx = p.fvector.get(k) + p.lnode.y * ysize_ + p.rnode.y;//找到bigram特征的index
                        expected[idx]--;//同上，相当于剪掉了公式(3.2)中的f(X,Y)的bigram部分
                    }
                    s += p.cost;  // BIGRAM COST
                    break;
                }
            }
        }

        viterbi();//用上一个iter更新得到的参数alpha来对当前的句子进行预测，并记录预测结果到result_里面
        return Z_ - s;//s是公式(3.1)中的\sum w_k*f_k
    }

gradient()里首先调用buildLattice()来计算理论篇里公式(3.1)中的 $\sum w_kf_k(X,Y)$ ：

    public void buildLattice() {
        if (!x_.isEmpty()) {
            feature_index_.rebuildFeatures(this);//创建节点，以及节点之间的边，一共x_.size()*y_.size()个节点
            for (int i = 0; i < x_.size(); i++) {
                for (int j = 0; j < ysize_; j++) {
                    feature_index_.calcCost(node_.get(i).get(j));//计算节点(i,j)上的loss，也就是(i,j)对应的所有unigram loss
                    List<Path> lpath = node_.get(i).get(j).lpath;
                    for (Path p : lpath) {//从第二个节点开始，每个节点有y_.size()条lpath
                        feature_index_.calcCost(p);//计算边的loss，也就是点(i,j)上的所有bigram loss
                    }
                }
            }

首先rebuildFeatures里面构建了一个有x_.size()*y_.size()个node的lattice网络，其中x_.size()是这句话的长度，y_.size()是label的个数。因为每一个词的label都有label_num种可能，所以这样一个lattice可以囊括一句话所有可能的标注。因为lattice是全连接的，所有一共有y_.size() $*$ y_.size() $*$ (x_.size()-1)条path：

    public void rebuildFeatures(TaggerImpl tagger) {
        int fid = tagger.getFeature_id_();
        List<List<Integer>> featureCache = tagger.getFeatureCache_();
        //遍历每个词及所有可能的label，生成x_.size()*y_.size()个节点
        for (int cur = 0; cur < tagger.size(); cur++) {//遍历每个词
            List<Integer> f = featureCache.get(fid++);//取出第cur个词对应的特征的index，例如[0,3,-1]表示这个词对应了两个unigram特征，起始位置分别为0和3
            for (int i = 0; i < y_.size(); i++) {
                Node n = new Node();
                n.clear();
                n.x = cur;//当前词的位置
                n.y = i;//当前词的label，(x,y)表示第x个词的label为y的节点
                n.fVector = f;//cur词对应的特征的index，只用fVector就可以找到相应特征，再加上label值，就是一个特征函数
                tagger.set_node(n, cur, i);//对tagger.node_[cur][i]赋值Node n
            }
        }
        //从第二个词开始构造节点之间的边，两个词之间有y_.size()*y_.size()条边
        for (int cur = 1; cur < tagger.size(); cur++) {//从第二个词开始遍历
            List<Integer> f = featureCache.get(fid++);
            for (int j = 0; j < y_.size(); j++) {
                for (int i = 0; i < y_.size(); i++) {
                    Path p = new Path();
                    p.clear();
                    //下面的p.add实际会更新node_里面的各个节点的lpath和rpath，每个节点有y_.size()个lpath和y_.size()个rpath
                    p.add(tagger.node(cur - 1, j), tagger.node(cur, i));//将节点(cur-1,j)添加为p的左节点，将节点(cur, i)添加为p的右节点，并将p加为节点(cur-1,j)的右边，节点(cur, i)的左边
                    // 即p是节点(cur-1,j)和(cur, i)间的边
                    p.fvector = f;//bigram特征的index
                }
            }
        }
    }

从rebuildFeatures出来之后，接下来会调用calcCost来分别计算node和path上的loss值：

       public void calcCost(Node node) {//计算节点上的cost，也就是公式(3.1)里w_kf_k(X,Y)中对应unigram特征函数的部分
        node.cost = 0.0;
        if (alphaFloat_ != null) {
            float c = 0.0f;
            for (int i = 0; node.fVector.get(i) != -1; i++) {
                c += alphaFloat_[node.fVector.get(i) + node.y];
            }
            node.cost = costFactor_ * c;
        } else {
            double c = 0.0;
            for (int i = 0; node.fVector.get(i) != -1; i++) {//node_i的fVector储存的是第i个词对应的uni特征的index，因此这里是遍历第i行的词的uni特征，一般有几个uni模板，每个词就有几个uni特征
                c += alpha_[node.fVector.get(i) + node.y];//每一个特征函数的值都是1，而alpha_[node.fVector.get(i) + node.y]是对应特征函数的权值，这里省略了*1
                //因为node.fVector.get(i)只是特征的起始位置，还需要再加上n.y才能定位到形如f('U00:Confidence',y='label')的完整特征函数
                //c是这个节点上所有unigram loss的累加
            }
            node.cost = costFactor_ * c;//将c赋值给node.cost,即node[i][j].cost等于公式(1.1)中的u(y_i=j,X,i)
        }
    }

可以看出在node上调用calcCost其实就遍历一行输入生成的所有unigram模板（可以从node.fVector得到），然后根据这个词的label是什么（这里用y来指代这个词的label在label列表里的位置）从而得到一行输入生成的所有unigram特征函数的index，再用这个index到alpha列表(也就是理论篇里用的 $w_k$ )里面去做索引并且乘以 $f_k(X,Y)$ （因为 $f_k(X,Y)=1$ 所以代码里省略了）。将以上全部叠加，得到的就是这行输入生成的所有unigram特征函数对loss的贡献。

rebuildFeatures里面并没有更新参数alpha，参数alpha是每一个iter在lbfgs里面更新的，所以calcCost里用到的alpha是上一个iter里lbfgs更新出来的

calcCost在path上的计算过程跟node类似，主要区别是计算path对应的是bigram特征，所以找所有bigram特征函数的index的时候有点不同：

 for (int i = 0; path.fvector.get(i) != -1; i++) {
      c += alpha_[path.fvector.get(i) + path.lnode.y * y_.size() + path.rnode.y];//特征函数的值都为1，乘上权值alpha_[path.fvector.get(i) + path.lnode.y * y_.size() + path.rnode.y]
       //bigram特征的起始位置在path.fvector.get(i)，因为一个bigram特征可以生成y_.size()*y_.size()个特征函数，所以首先要加上path.lnode.y * y_.size()，再加上path.rnode.y
}
     path.cost = costFactor_ * c;//将c赋值给path.cost,path.cost等于公式(1.1)里的b(y_{path.lnode.x}=path.lnode.y, y_{path.rnode.x}=path.rnode.y, X)

forwardbackward

至此我们就解读完了buildLattice()这个函数的功能，下面回到gradient()函数，接下来要做的是forwardbackward()，这个函数就是在实现理论篇里前向算法和后向算法的部分，并且通过前向后向算法计算了归一化因子 $Z_w$ ：

    public void forwardbackward() {
        if (!x_.isEmpty()) {
            for (int i = 0; i < x_.size(); i++) {//前向算法，参考公式(3.4)
                for (int j = 0; j < ysize_; j++) {
                    node_.get(i).get(j).calcAlpha();
                }
            }
            for (int i = x_.size() - 1; i >= 0; i--) {//后向算法，参考公式(3.5)
                for (int j = 0; j < ysize_; j++) {
                    node_.get(i).get(j).calcBeta();
                }
            }
            Z_ = 0.0;//计算Z_w
            for (int j = 0; j < ysize_; j++) {
                Z_ = Node.logsumexp(Z_, node_.get(0).get(j).beta, j == 0);//根据公式(3.6), Z = \beta(1) or \alpha(n)
            }
        }
    }

calcAlpha和calcBeta实现逻辑相同，里面比较特别的地方是用了logsumexp来提高计算稳定性：

    public void calcAlpha() {
        alpha = 0.0;
        for (Path p: lpath) {
            alpha = logsumexp(alpha, p.cost + p.lnode.alpha, p == lpath.get(0));//函数里面先取了exp，因此p.cost + p.lnode.alpha 会变成相乘；此处的alpha实际等于log(公式里的alpha)
        }
        //算alpha的公式(3.4): alpha(i) = \sum phi(y_{i-1},y_i)*alpha(i-1)，在log空间里转化为 alpha(i) = \sum (\sum_k w_k*f_k + alpha(i-1))
        alpha += cost;//此处的cost就是log(公式中的w_k*f_k)
    }
}

logsumexp的推导可以参考如下：

到这里就解读完了forwardbackward()这个函数的功能，下面再回到gradient()函数，有了前向后向算法计算得到的结果，接下来就可以调用calcExpectation来计算梯度了，对应的是理论篇里的利用公式（3.7）和（3.8）来计算（3.3）：

    public void calcExpectation(double[] expected, double Z, int size) {
        double c = Math.exp(alpha + beta - cost - Z);//由公式(3.7)，P(Y_i=y_i|X) = alpha(i)*beta(i)/Z，映到log空间，P(Y_i=y_i|X) = alpha + beta -Z
        // -cost是因为beta里面多加了一个cost，所以要减掉一个
        for (int i = 0; fVector.get(i) != -1; i++) {
            int idx = fVector.get(i) + y;
            expected[idx] += c;//expect是公式(3.3)中的E_{P}(f_k),这个位置加的是当f_k为unigram特征时的项
        }
        for (Path p: lpath) {
            p.calcExpectation(expected, Z, size);//公式(3.8)
        }
    }

p.calcExpectation对应的是公式（3.8）：

    public void calcExpectation(double[] expected, double Z, int size) {
        double c = Math.exp(lnode.alpha + cost + rnode.beta - Z);//对应公式(3.8),log空间中乘法变加法
        for (int i = 0; fvector.get(i) != -1; i++) {
            int idx = fvector.get(i) + lnode.y * size + rnode.y;
            expected[idx] += c;//expect是(3.3)中的E_p(f)，这个位置加的是当f_k是bigram时的项
        }
    }

到这里为止我们已经计算了loss [公式(3.1)]中的 $log Z_w$ 以及gradient [公式(3.3)]中的 $\sum_{i=1}^n[\sum_{y_i,y_{i-1}}f_k(Y_{i-1}=y_{i-1},Y_i=y_i,X,i)P(Y',Y_{i-1}=y_{i-1},Y_i=y_i|X) + \sum_{y_i}f_k(Y_i=y_i,X,i)P(Y',Y_i=y_i|X)]$ ，所以为了计算得到完整的loss和gradient，我们还分别需要计算 $-\sum_{k=1}^Kw_k f_k(X,Y)$ 和 $f_k(Y,X)$ ：

        for (int i = 0; i < x_.size(); i++) {
            List<Integer> fvector = node_.get(i).get(answer_.get(i)).fVector;//answer_[i]表示第i个词的真实label, 取(i,label)对应的unigram特征
            for (int j = 0; fvector.get(j) != -1; j++) {//遍历(i,label)对应的unigram特征
                int idx = fvector.get(j) + answer_.get(i);//找到unigram特征的index
                expected[idx]--;//每遍历一个unigram特征，就减1，遍历所有的特征之后，就相当于减掉了公式(3.2)中f(Y,X)的unigram部分
            }
            s += node_.get(i).get(answer_.get(i)).cost; //UNIGRAM COST
            List<Path> lpath = node_.get(i).get(answer_.get(i)).lpath;//answer_[i]表示第i个词的真实label，取(i,label)对应的bigram特征
            for (Path p : lpath) {//遍历(i,label)对应的bigram特征
                if (p.lnode.y == answer_.get(p.lnode.x)) {
                    for (int k = 0; p.fvector.get(k) != -1; k++) {
                        int idx = p.fvector.get(k) + p.lnode.y * ysize_ + p.rnode.y;//找到bigram特征的index
                        expected[idx]--;//同上，相当于剪掉了公式(3.2)中的f(X,Y)的bigram部分
                    }
                    s += p.cost;  // BIGRAM COST
                    break;
                }
            }
        }
        viterbi();
        return Z_ - s;//s是公式(3.1)中的\sum w_k*f_k

上面的viterbi()是用上一个iter更新得到的参数alpha来对当前的句子进行预测，并记录预测结果到result_里面。

至此整个gradient()的功能都运行完了一遍，不过这只是针对一句话的，所有训练数据里的句子都做完这个流程（当然可以多线程进行）之后累加就得到了所有训练数据的loss和gradient。再加上前面说的正则化项，下面我们将所有的东西丢到lbfgs.optimize里去优化：

int ret = lbfgs.optimize(featureIndex.size(), alpha, threads.get(0).obj, threads.get(0).expected, orthant, C1, C2);

这个函数的主要功能就是利用优化算法lbfgs来更新参数alpha。

优化算法 lbgfs

lbfgs的理论推导请戳数值优化-lbfgs，代码解读如下：

package com.github.zhifac.crf4j;

import java.util.Arrays;
import java.util.List;

/**
 * Quasi-Newton optimizer
 *
 *   This section implement the quasi-Newton optimizer. We use the L-BFGS
 *   algorithm described by Liu and Nocedal in [1] and [2]. If an l1-norm must
 *   be applyed we fallback on the OWL-QN variant described in [3] by Galen and
 *   Jianfeng which allow to use L-BFGS for function not differentiable in 0.0.
 *
 *   [1] Updating quasi-Newton matrices with limited storage, Jorge Nocedal, in
 *       Mathematics of Computation, vol. 35(151) 773-782, July 1980.
 *   [2] On the limited memory BFGS method for large scale optimization, Dong C.
 *       Liu and Jorge Nocedal, in Mathematical Programming, vol. 45(1) 503-528,
 *       January 1989.
 *   [3] Scalable Training of L1-Regularized Log-Linear Models, Andrew Galen and
 *       Gao Jianfeng, in Proceedings of the 24th International Conference on
 *       Machine Learning (ICML), Corvallis, OR, 2007.
 **/

public class LbfgsOptimizer {
    int iflag_, iscn, nfev, iycn, point, npt, iter, info, ispt, isyt, iypt, maxfev;
    double stp, stp1;
    double[] diag_ = null;
    double[] w_ = null;
    double[] v_ = null;
    double[] xi_ = null;
    Mcsrch mcsrch_ = null;

    // Compute the pseudo-gradient of crf-l1 for owl-qn. It is
    // defined in [3, pp 335(4)]
    //              | ∂_i^- f(x)   if ∂_i^- f(x) > 0
    //   ◇_i f(x) = | ∂_i^+ f(x)   if ∂_i^+ f(x) < 0
    //              | 0            otherwise
    // with
    //   ∂_i^± f(x) = ∂/∂x_i l(x) + | Cσ(x_i) if x_i ≠ 0
    //                              | ±C      if x_i = 0
    public void pseudo_gradient(int size,
                                double[] v,//pseudo_gradient
                                double[] x,
                                double[] g,
                                double C) {
        for (int i = 0; i < size; ++i) {
            if (x[i] == 0) {
                if (g[i] + C < 0) {
                    v[i] = g[i] + C;
                } else if (g[i] - C > 0) {
                    v[i] = g[i] - C;
                } else {
                    v[i] = 0;
                }
            } else {
                v[i] = g[i] + C * Mcsrch.sigma(x[i]);
            }
        }
    }

    //参考[1,pp 779]中的迭代计算H*g的recursive formula:
    //Loop1: q = f'(x)
    //       alpah = rho * s^T * q
    //       q = q - alpha * y
    //Loop2: r_0 = H_0 q_0
    //       beta = rho * y^T * r
    //       r = r + s(alpha - beta)
    int lbfgs_optimize(int size,//权重向量的长度
                       int msize,//lbfgs超参，只保存msize个向量来计算H*g
                       double[] x,//feature的权重
                       double f, //obj的值
                       double[] g, //crf loss的梯度
                       double[] diag,//[2, pp 515]定义的H_0，也就是[1, pp 779]double loop循环中的H_0
                       double[] w,//存放最近m个rho,y,s; 以及计算搜索方向时的临时变量alpha,q,r等
                       boolean orthant, //true when crf-l1, false when crf-l2
                       double C1,
                       double C2,
                       double[] v,//crf-l2:v=g；crf-l1，v is pseudo_gradient
                       double[] xi,//crf-l1时存放x的符号
                       int iflag) {
        double yy = 0.0;
        double ys = 0.0;
        int bound = 0;
        int cp = 0;

        if (orthant) {
            pseudo_gradient(size, v, x, g, C1);//v is pseudo_gradient for crf-l1
        }

        if (mcsrch_ == null) {
            mcsrch_ = new Mcsrch();
        }

        boolean firstLoop = true;

        // initialization
        if (iflag == 0) {
            point = 0;
            // r_0 = H_0 q_0
            //     Scaling is described in [2, pp 515]
            //     for k = 0: H_0 = I
            for (int i = 0; i < size; ++i) {
                diag[i] = 1.0;
            }
            //w[1:size]存放lbfgs迭代时的临时变量q或r; 在计算出line search搜索方向后，w[1:size]也用来存放梯度f'(x)，
            //以便后面确定好步长后，来计算梯度变化（w[iypt + npt + i] = g[i] - w[i];）
            // 注意每次传进来的g可能不是f'(x_k)，也有可能是f'(x+stp*r)
            //
            //w[size + 1 : size + m] 存放rho
            //w[size + m + 1 : size + 2*m] 存放alpha(双loop循环中的临时变量)
            //w[size+2*m+1 : size+2*m+m*size]用于存放[1, pp 773]上定义的s，可以保存最近的m个s
            //w[size+2*m+m*size+1 : size+2*m+m*size+m*size]用于存放[1, pp 773]上定义的y，可以保存最近的m个y
            ispt = size + (msize << 1);//存放m个s的下标基址
            iypt = ispt + size * msize;//存放m个y的下标基址
            //r_0 = H_0 q_0，第一次迭代的搜索方向
            for (int i = 0; i < size; ++i) {
                w[ispt + i] = -v[i] * diag[i];
            }
            stp1 = 1.0 / Math.sqrt(Mcsrch.ddot_(size, v, 0, v, 0));
        }

        // Double Loop Algo described in [1, pp 779]
        while (true) {
            if (!firstLoop || (firstLoop && iflag != 1 && iflag != 2)) {
                ++iter;
                info = 0;
                if (orthant) {//crf-l1,用于后面line search时限制在一个象限内
                    for (int i = 0; i < size; ++i) {
                        xi[i] = (x[i] != 0 ? Mcsrch.sigma(x[i]) : Mcsrch.sigma(-v[i]));
                    }
                }
                if (iter != 1) {
                    if (iter > size) bound = size;

                    // r_0 = H_0 q_0
                    //     Scaling is described in [2, pp 515]
                    //     for k > 0: H_0 = I * y_k^T s_k / ||y_k||²
                    ys = Mcsrch.ddot_(size, w, iypt + npt, w, ispt + npt);//y_k^T s_k
                    yy = Mcsrch.ddot_(size, w, iypt + npt, w, iypt + npt);//||y_k||²
                    for (int i = 0; i < size; ++i) {
                        diag[i] = ys / yy;//H_0 = I * y_k^T s_k / ||y_k||²
                    }
                }
            }
            if (iter != 1 && (!firstLoop || (iflag != 1 && firstLoop))) {
                cp = point;
                if (point == 0) {
                    cp = msize;
                }
                //w[size+1:size+m]存放[1, pp 774]上定义的rho = 1/y^T s
                w[size + cp - 1] = 1.0 / ys;

                //初始化w[1:size]为-g
                for (int i = 0; i < size; ++i) {
                    w[i] = -v[i];
                }

                bound = Math.min(iter - 1, msize);//即[1, pp 779]上Recursive Formula里面定义的BOUND

                cp = point;
                for (int i = 0; i < bound; ++i) {
                    --cp;
                    if (cp == -1) {
                        cp = msize - 1;
                    }
                    //下面计算First Loop里的 alpha = rho * s^T * q
                    // sq = s^T * q
                    double sq = Mcsrch.ddot_(size, w, ispt + cp * size, w, 0);
                    int inmc = size + msize + cp;
                    iycn = iypt + cp * size;//定位y的起始位置
                    w[inmc] = w[size + cp] * sq;//w[inmc]用于存放alpha = rho * s^T * q
                    double d = -w[inmc];
                    //下面计算First Loop里的q = q - alpha * y
                    Mcsrch.daxpy_(size, d, w, iycn, w, 0);//w[1:size]里存放累加得到的q_0
                }

                //Second Loop中的初始化 r_0 = H_0*q_0
                for (int i = 0; i < size; ++i) {
                    w[i] = diag[i] * w[i];//此时w[1:size]里存放的是q_0
                }

                for (int i = 0; i < bound; ++i) {
                    //下面计算Second Loop里的 beta = rho * y^T * r
                    //yr = y^T * r
                    double yr = Mcsrch.ddot_(size, w, iypt + cp * size, w, 0);
                    double beta = w[size + cp] * yr;// beta = rho * y^T * r
                    int inmc = size + msize + cp;
                    beta = w[inmc] - beta;// w[inmc]此时放的是FirstLoop里计算得到的alpha，beta更新为 beta - alpha
                    iscn = ispt + cp * size;//定位s的起始位置
                    //下面计算Second Loop里的 r = r + s(alpha-beta)
                    Mcsrch.daxpy_(size, beta, w, iscn, w, 0);//w[1:size]里存放累加得到的r_last，也就是下降方向
                    ++cp;
                    if (cp == msize) {
                        cp = 0;
                    }
                }

                if (orthant) {//crf-l1, 校正搜索方向，以使搜索方向不与伪梯度相反
                    for (int i = 0; i < size; ++i) {
                        w[i] = (Mcsrch.sigma(w[i]) == Mcsrch.sigma(-v[i]) ? w[i] : 0);
                    }
                }
                // STORE THE NEW SEARCH DIRECTION
                //将w[1:size]此时存放的下降方向r存放到w[ispt + point * size : ispt + point * size + size]
                for (int i = 0; i < size; ++i) {
                    w[ispt + point * size + i] = w[i];
                }
            }
            // OBTAIN THE ONE-DIMENSIONAL MINIMIZER OF THE FUNCTION
            // BY USING THE LINE SEARCH ROUTINE MCSRCH
            if (!firstLoop || (firstLoop && iflag != 1)) {
                nfev = 0;//nfev表示mcsrch评估函数值和梯度的次数，每评估一次mcsrch里面就会加1，达到最大搜索次数后认为搜索失败,crf主程序也会退出
                stp = 1.0;
                if (iter == 1) {
                    stp = stp1;
                }
                for (int i = 0; i < size; ++i) {
                    w[i] = g[i];//储存梯度f'(x),后面用于计算梯度变换f'(x+stp*r) - f'(x)
                }
            }
            double[] stpArr = {stp};
            int[] infoArr = {info};
            int[] nfevArr = {nfev};
            //mcsrch中寻找满足Wolfe condition的步长，并输出到stp里面
            mcsrch_.mcsrch(size, x, f, v, w, ispt + point * size,
                stpArr, infoArr, nfevArr, diag);
            stp = stpArr[0];
            info = infoArr[0];
            nfev = nfevArr[0];

            if (info == -1) {
                if (orthant) {//crf-l1: 限制line search搜索的一系列点都在指定象限
                    for (int i = 0; i < size; ++i) {
                        x[i] = (Mcsrch.sigma(x[i]) == Mcsrch.sigma(xi[i]) ? x[i] : 0);
                    }
                }
                return 1; // next value
            }
            if (info != 1) {//line search失败，详见mcsrch里的注释
                System.err.println("The line search routine mcsrch failed: error code:" + info);
                return -1;
            }

            //找到了满足Wolfe condition的步长stp
            npt = point * size;
            for (int i = 0; i < size; ++i) {
                w[ispt + npt + i] = stp * w[ispt + npt + i];//w[ispt + npt + i]重新储存为下降方向r*stp
                w[iypt + npt + i] = g[i] - w[i];//g[i]在mcsrh中被重新计算为f'(x + stp*r)
                //因此w[iypt + npt + i]中存放的是f'(x + stp*r) - f'(x)
            }
            ++point;
            if (point == msize) point = 0;

            double gnorm = Math.sqrt(Mcsrch.ddot_(size, v, 0, v, 0));
            double xnorm = Math.max(1.0, Math.sqrt(Mcsrch.ddot_(size, x, 0, x, 0)));
            if (gnorm / xnorm <= Mcsrch.eps) {//梯度足够小就停止
                return 0; // OK terminated
            }

            firstLoop = false;
        }
    }


    public LbfgsOptimizer() {
        iflag_ = iscn = nfev = 0;
        iycn = point = npt = iter = info = ispt = isyt = iypt = maxfev = 0;
        mcsrch_ = null;
    }

    public void clear() {
        iflag_ = iscn = nfev = iycn = point = npt =
            iter = info = ispt = isyt = iypt = 0;
        stp = stp1 = 0.0;
        diag_ = null;
        w_ = null;
        v_ = null;
        mcsrch_ = null;
    }

    public int init(int n, int m) {
        //This is old interface for backword compatibility
        final int msize = 5;
        final int size = n;
        iflag_ = 0;
        w_ = new double[size * (2 * msize + 1) + 2 * msize];
        Arrays.fill(w_, 0.0);
        diag_ = new double[size];
        v_ = new double[size];
        return 0;
    }

    public int optimize(double[] x, double f, double[] g) {
        return optimize(diag_.length, x, f, g, false, 1.0, 1.0);
    }

    public int optimize(int size, double[] x, double f, double[] g, boolean orthant, double C1, double C2) {
        int msize = 5;
        if (w_ == null) {
            iflag_ = 0;
            w_ = new double[size * (2 * msize + 1) + 2 * msize];
            Arrays.fill(w_, 0.0);
            diag_ = new double[size];
            v_ = new double[size];
            if (orthant) {
                xi_ = new double[size];
            }
        } else if (diag_.length != size || v_.length != size) {
            System.err.println("size of array is different");
            return -1;
        } else if (orthant && v_.length != size) {
            System.err.println("size of array is different");
            return -1;
        }
        int iflag = 0;
        if (orthant) {

            iflag = lbfgs_optimize(size,
                msize, x, f, g, diag_, w_, orthant, C1, C2, v_, xi_, iflag_);
            iflag_ = iflag;
        } else {
            iflag = lbfgs_optimize(size,
                msize, x, f, g, diag_, w_, orthant, C1, C2, g, xi_, iflag_);
            iflag_ = iflag;
        }

        if (iflag < 0) {
            System.err.println("routine stops with unexpected error");
            return -1;
        }

        if (iflag == 0) {
            clear();
            return 0;   // terminate
        }

        return 1;   // evaluate next f and g
    }
}

停止条件

模型的停止条件代码里设置为：

            if (diff < eta) {
                converge++;
            } else {
                converge = 0;
            }

            if (itr > maxItr || converge == 3) {
                break;
            }

其中diff是两次迭代loss的相对误差，所有要求两次迭代loss的相对误差连续三次满足小于eta，或者达到最大训练次数。

以上就是全部的学习过程，下面我们解读预测过程的代码。

预测过程

模型预测的入口是CrfTest.java，首先读取model：

            FileInputStream stream = new FileInputStream(model);
            if (!tagger.open(stream, nbest, vlevel, costFactor)) {//读取model.m里面的值，包括权值参数的值，uni/bigram模板，label的值等
                System.err.println("open error");
                return false;
            }

然后读取testFile数据并用model预测每句话的结果：

                TaggerImpl.ReadStatus status = tagger.read(br);//将test data读取,主要是读入x_,创建node，但node里all elements are null;answer_和result_初始化为0
                    if (TaggerImpl.ReadStatus.ERROR == status) {
                        System.err.println("read error");
                        return false;
                    } else if (TaggerImpl.ReadStatus.EOF == status && tagger.empty()) {
                        break;
                    }
                    if (!tagger.parse()) {//对于输入的一句test data，预测其每个词的label，预测结果放在result_里面
                        System.err.println("parse error");
                        return false;
                    }

模型预测函数parse()的结构如下：

    public boolean parse() {//parse函数用于预测
        if (!feature_index_.buildFeatures(this)) {//根据一句test data，生成它每个词对应的uni/bigram特征以及特征的index
            System.err.println("fail to build featureIndex");
            return false;
        }
        if (x_.isEmpty()) {
            return true;
        }
        buildLattice();//构建node和path，其上的cost分别为公式(1.1)里的u(*)和b(*)
        if (nbest_ != 0 || vlevel_ >= 1) {
            forwardbackward();
        }
        viterbi();//用维特比算法做预测
        if (nbest_ != 0) {
            initNbest();
        }
        return true;
    }

首先是调用buildFeatures解析testFile生成的所有特征；然后是调用buildLattice构建测试数据的node和path；接下来是调用forwardbackward做前向后向算法计算；这些函数都跟学习过程里用到的一样，唯一的区别在于学习过程里用到的参数alpha是上一个iter里更新得到的，而这里用的参数alpha是从model里读取的。如果test data中有train data中不存在的特征，那么这种特征在计算中不会使用，也可以看作权重设为零。

尽管CrfTest里面使用的buildFeatures()跟CrfLearn里是一样的，但是buildFeatures()里用到的getID()函数是不一样的，CrfLearn里面的getID()函数是根据特征展开的长度来记录这个特征起始位置，而CrfTest里面的getID()函数是在从model里读取的参数里面做查找，并返回找到的index

有了上面的处理，现在就可以用viterbi方法进行预测了：

    public void viterbi() {
        for (int i = 0; i < x_.size(); i++) {
            for (int j = 0; j < ysize_; j++) {
                double bestc = -1e37;
                Node best = null;
                List<Path> lpath = node_.get(i).get(j).lpath;//(i,j)节点的lpath
                for (Path p : lpath) {
                    //path.lnode.bestCost记录的是到path.lnode的最佳路径的score + 路径p的cost(即b(*)) + 节点(i,j)的cost(即u(*))。相当于公式(4.2)花括号里面的内容
                    double cost = p.lnode.bestCost + p.cost + node_.get(i).get(j).cost;
                    if (cost > bestc) {
                        bestc = cost;//更新bestc为到node[i][j]的最佳路径的score,相当于公式(4.2)里面取max的部分
                        best = p.lnode;//用来记录到节点node[i][j]的最佳路径y_1,...y_{i-1}里的点y_{i-1}是哪个node
                    }
                }
                node_.get(i).get(j).prev = best;//prev用来记录到node[i][j]的最佳路径y_1,...y_{i-1}里的点y_{i-1}是哪个node
                node_.get(i).get(j).bestCost = best != null ? bestc : node_.get(i).get(j).cost;//将node(i,j)为终点的最佳路径的score保存在bestCost里面
            }
        }
        double bestc = -1e37;
        Node best = null;
        int s = x_.size() - 1;//到最后一个词
        for (int j = 0; j < ysize_; j++) {//遍历最后一个词的ysize_个可能的label
            if (bestc < node_.get(s).get(j).bestCost) {
                best = node_.get(s).get(j);//best用来记录终点为最后一个词的最佳路径的最后一个节点
                bestc = node_.get(s).get(j).bestCost;//bestc记录终点为最后一个词的最佳路径的score
            }
        }
        for (Node n = best; n != null; n = n.prev) {
            result_.set(n.x, n.y);//result_用来记录每个词的预测label
        }
        cost_ = -node_.get(x_.size() - 1).get(result_.get(x_.size() - 1)).bestCost;//记录最佳序列的score
    }

通过在lattice里面不断后移node并更新每个node的prev和bestCost参数，当走到最后一个node时，即可以找到最佳路线。其中某个node的bestCost是以该node为最后节点的路径的得分。

至此我们就完成了CrfTest。以上就是整个crf++代码（java版本）的解读。

Reference:
条件随机场之CRF++源码详解-特征

你可能感兴趣的:(机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name