HFUT_qianyang

LFDMM源码剖析(融入词向量的概率图模型)

本文作者：合肥工业大学管理学院钱洋 email：[email protected] 内容可能有不到之处，欢迎交流。
未经本人允许禁止转载。

论文来源

Nguyen D Q, Billingsley R, Du L, et al. Improving topic models with latent feature word representations[J]. Transactions of the Association for Computational Linguistics, 2015, 3: 299-313.

发表在15年的ACL会议对应的一个期刊上，应该说还是很不错的，后面有一些文章在这个基础上进行了改进。下面，对作者提供的源码进行解析。

源码解读

package models;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.TreeMap;

import utility.FuncUtils;
import utility.LBFGS;
import utility.Parallel;
import cc.mallet.optimize.InvalidOptimizableException;
import cc.mallet.optimize.Optimizer;
import cc.mallet.types.MatrixOps;
import cc.mallet.util.Randoms;

/**
 * Implementation of the LF-DMM latent feature topic model, using collapsed Gibbs sampling, as
 * described in:
 * 
 * Dat Quoc Nguyen, Richard Billingsley, Lan Du and Mark Johnson. 2015. Improving Topic Models with
 * Latent Feature Word Representations. Transactions of the Association for Computational
 * Linguistics, vol. 3, pp. 299-313.
 * 
 * @author Dat Quoc Nguyen
 */

public class LFDMM
{
    public double alpha; // Hyper-parameter alpha  超参数
    public double beta; // Hyper-parameter beta   超参数
    // public double alphaSum; // alpha * numTopics
    public double betaSum; // beta * vocabularySize  V*beta

    public int numTopics; // Number of topics  主题数目
    public int topWords; // Number of most probable words for each topic  每个主题取多少个靠前的单词

    public double lambda; // Mixture weight value  混合权重值
    public int numInitIterations;  //
    public int numIterations; // Number of EM-style sampling iterations  迭代次数

    public List> corpus; // Word ID-based corpus  语料单词的id
    public List> topicAssignments; // Topics assignments for words  单词的主题分配
                                                 // in the corpus
    public int numDocuments; // Number of documents in the corpus  文档的数量
    public int numWordsInCorpus; // Number of words in the corpus  整个语料单词的数量

    public HashMap word2IdVocabulary; // Vocabulary to get ID  单词的编号
                                                       // given a word
    public HashMap id2WordVocabulary; // Vocabulary to get word  将编号转化为单词  用于输出
                                                       // given an ID
    public int vocabularySize; // The number of word types in the corpus  整个语料中单词的总数

    // Number of documents assigned to a topic  分配到一个主题文档的数量
    public int[] docTopicCount;
    // numTopics * vocabularySize matrix
    // Given a topic: number of times a word type generated from the topic by
    // the Dirichlet multinomial component  主题对应的单词数量  该单词是由多项式分布产生
    public int[][] topicWordCountDMM;
    // Total number of words generated from each topic by the Dirichlet
    // multinomial component 主题对应的总的单词数量  这些单词是由多项式分布产生
    public int[] sumTopicWordCountDMM;
    // numTopics * vocabularySize matrix
    // Given a topic: number of times a word type generated from the topic by
    // the latent feature component  单词是由隐特征部分产生  统计一个主题对应的单词数量
    public int[][] topicWordCountLF;
    // Total number of words generated from each topic by the latent feature
    // component  单词由隐特征产生  统计一个主题对应的总单词数量
    public int[] sumTopicWordCountLF;

    // Double array used to sample a topic   概率 用于抽样
    public double[] multiPros;
    // Path to the directory containing the corpus  
    public String folderPath;
    // Path to the topic modeling corpus
    public String corpusPath;
    public String vectorFilePath;

    public double[][] wordVectors; // Vector representations for words  词向量表示
    public double[][] topicVectors;// Vector representations for topics 主题向量表示
    public int vectorSize; // Number of vector dimensions  向量的维度
    public double[][] dotProductValues;   //点乘法的值
    public double[][] expDotProductValues;  //指数变化后的值
    public double[] sumExpValues; // Partition function values 求和的值

    public final double l2Regularizer = 0.01; // L2 regularizer value for learning topic vectors L2正则化
    public final double tolerance = 0.05; // Tolerance value for LBFGS convergence  LBFGS收敛

    public String expName = "LFDMM";
    public String orgExpName = "LFDMM";
    public String tAssignsFilePath = "";
    public int savestep = 0;

    public LFDMM(String pathToCorpus, String pathToWordVectorsFile, int inNumTopics,
            double inAlpha, double inBeta, double inLambda, int inNumInitIterations,
            int inNumIterations, int inTopWords)
        throws Exception
    {
        this(pathToCorpus, pathToWordVectorsFile, inNumTopics, inAlpha, inBeta, inLambda,
                inNumInitIterations, inNumIterations, inTopWords, "LFDMM");
    }

    public LFDMM(String pathToCorpus, String pathToWordVectorsFile, int inNumTopics,
            double inAlpha, double inBeta, double inLambda, int inNumInitIterations,
            int inNumIterations, int inTopWords, String inExpName)
        throws Exception
    {
        this(pathToCorpus, pathToWordVectorsFile, inNumTopics, inAlpha, inBeta, inLambda,
                inNumInitIterations, inNumIterations, inTopWords, inExpName, "", 0);
    }

    public LFDMM(String pathToCorpus, String pathToWordVectorsFile, int inNumTopics,
            double inAlpha, double inBeta, double inLambda, int inNumInitIterations,
            int inNumIterations, int inTopWords, String inExpName, String pathToTAfile)
        throws Exception
    {
        this(pathToCorpus, pathToWordVectorsFile, inNumTopics, inAlpha, inBeta, inLambda,
                inNumInitIterations, inNumIterations, inTopWords, inExpName, pathToTAfile, 0);
    }

    public LFDMM(String pathToCorpus, String pathToWordVectorsFile, int inNumTopics,
            double inAlpha, double inBeta, double inLambda, int inNumInitIterations,
            int inNumIterations, int inTopWords, String inExpName, int inSaveStep)
        throws Exception
    {
        this(pathToCorpus, pathToWordVectorsFile, inNumTopics, inAlpha, inBeta, inLambda,
                inNumInitIterations, inNumIterations, inTopWords, inExpName, "", inSaveStep);
    }

    public LFDMM(String pathToCorpus, String pathToWordVectorsFile, int inNumTopics,
            double inAlpha, double inBeta, double inLambda, int inNumInitIterations,
            int inNumIterations, int inTopWords, String inExpName, String pathToTAfile,
            int inSaveStep)
        throws Exception
    {
        alpha = inAlpha;
        beta = inBeta;
        lambda = inLambda;
        numTopics = inNumTopics;
        numIterations = inNumIterations;
        numInitIterations = inNumInitIterations;
        topWords = inTopWords;
        savestep = inSaveStep;
        expName = inExpName;
        orgExpName = expName;
        //word2vec语料
        vectorFilePath = pathToWordVectorsFile;
        //语料的路径
        corpusPath = pathToCorpus;
        folderPath = pathToCorpus.substring(0,
                Math.max(pathToCorpus.lastIndexOf("/"), pathToCorpus.lastIndexOf("\\")) + 1);
        //输入语料的路径
        System.out.println("Reading topic modeling corpus: " + pathToCorpus);
        //词转化为编号
        word2IdVocabulary = new HashMap();
        //编号转化为词
        id2WordVocabulary = new HashMap();
        //语料
        corpus = new ArrayList>();
        //文档数目
        numDocuments = 0;
        //语料中单词的数目
        numWordsInCorpus = 0;
        //读取语料
        BufferedReader br = null;
        try {
            int indexWord = -1;
            br = new BufferedReader(new FileReader(pathToCorpus));
            //每一行表示一个文档
            for (String doc; (doc = br.readLine()) != null;) {
                if (doc.trim().length() == 0)
                    continue;
                //文档单词拆分
                String[] words = doc.trim().split("\\s+");
                //文档表示成集合
                List document = new ArrayList();
                //对文档的所有单词进行循环
                for (String word : words) {
                    //文档中单词编号-----编号是全局而言
                    if (word2IdVocabulary.containsKey(word)) {
                        //如果包含了该单词，将该单词直接添加到文档集合中
                        document.add(word2IdVocabulary.get(word));
                    }
                    else {
                        //加1表示从0开始对单词进行编号，并将编号对应的单词加入到id2WordVocabulary
                        indexWord += 1;
                        word2IdVocabulary.put(word, indexWord);
                        id2WordVocabulary.put(indexWord, word);
                        //文档添加该单词
                        document.add(indexWord);
                    }
                }
                //文档数目++
                numDocuments++;
                //语料中所有单词的数量
                numWordsInCorpus += document.size();
                //将所有文档添加到集合中
                corpus.add(document);
            }
        }
        catch (Exception e) {
            e.printStackTrace();
        }
        //语料不重复单词的总量
        vocabularySize = word2IdVocabulary.size();
        //主题对应的文档统计
        docTopicCount = new int[numTopics];
        //主题-单词统计  来自多项式分布
        topicWordCountDMM = new int[numTopics][vocabularySize];
        //主题对应的单词总数目统计 来自多项式分布
        sumTopicWordCountDMM = new int[numTopics];
        //主题-单词统计 来自于隐特征分布
        topicWordCountLF = new int[numTopics][vocabularySize];
        //主题对应的单词数目总计 来自于隐特征
        sumTopicWordCountLF = new int[numTopics];
        //多项式分布的先验
        multiPros = new double[numTopics];
        //先验为1/K,后面要轮盘赌的，在初始化的时候
        for (int i = 0; i < numTopics; i++) {
            multiPros[i] = 1.0 / numTopics;
        }

        // alphaSum = numTopics * alpha;  
        betaSum = vocabularySize * beta;  
        //读取词向量 word2vec文件
        readWordVectorsFile(vectorFilePath);
        topicVectors = new double[numTopics][vectorSize];
        dotProductValues = new double[numTopics][vocabularySize];
        expDotProductValues = new double[numTopics][vocabularySize];
        sumExpValues = new double[numTopics];

        System.out
                .println("Corpus size: " + numDocuments + " docs, " + numWordsInCorpus + " words");
        System.out.println("Vocabuary size: " + vocabularySize);
        System.out.println("Number of topics: " + numTopics);
        System.out.println("alpha: " + alpha);
        System.out.println("beta: " + beta);
        System.out.println("lambda: " + lambda);
        System.out.println("Number of initial sampling iterations: " + numInitIterations);
        System.out.println("Number of EM-style sampling iterations for the LF-DMM model: "
                + numIterations);
        System.out.println("Number of top topical words: " + topWords);

        tAssignsFilePath = pathToTAfile;
        if (tAssignsFilePath.length() > 0)
            initialize(tAssignsFilePath);
        else
            initialize();

    }
    //读取词向量文件
    public void readWordVectorsFile(String pathToWordVectorsFile)
        throws Exception
    {
        //输出需要读取词向量文件的相对地址
        System.out.println("Reading word vectors from word-vectors file " + pathToWordVectorsFile
                + "...");

        BufferedReader br = null;
        try {
            br = new BufferedReader(new FileReader(pathToWordVectorsFile));
            //以空格分开
            String[] elements = br.readLine().trim().split("\\s+");
            //词向量的长度，这里减1是因为第一维度是词
            vectorSize = elements.length - 1;
            //word2vec向量的维度，只去语料中有的词vocabularySize
            wordVectors = new double[vocabularySize][vectorSize];
            //单词为第一维度
            String word = elements[0];
            //如果这个词语在语料中的话，将该词的词向量存入数组wordVectors
            if (word2IdVocabulary.containsKey(word)) {
                for (int j = 0; j < vectorSize; j++) {
                    wordVectors[word2IdVocabulary.get(word)][j] = new Double(elements[j + 1]);
                }
            }
            //继续读文本，上面之所以要先读一行是为了初始化，获取词向量的维度
            for (String line; (line = br.readLine()) != null;) {
                elements = line.trim().split("\\s+");
                word = elements[0];
                //语料中出现的每个单词的词向量
                if (word2IdVocabulary.containsKey(word)) {
                    for (int j = 0; j < vectorSize; j++) {
                        wordVectors[word2IdVocabulary.get(word)][j] = new Double(elements[j + 1]);
                    }
                }
            }
        }
        catch (Exception e) {
            e.printStackTrace();
        }
        //防止语料中的词在word2vec文件中不存在
        for (int i = 0; i < vocabularySize; i++) {
            if (MatrixOps.absNorm(wordVectors[i]) == 0.0) {
                System.out.println("The word \"" + id2WordVocabulary.get(i)
                        + "\" doesn't have a corresponding vector!!!");
                throw new Exception();
            }
        }
    }
    //初始化方法
    public void initialize()
        throws IOException
    {
        //随机对文档进行主题分配
        System.out.println("Randomly initialzing topic assignments ...");
        topicAssignments = new ArrayList>();
        //循环每篇文档
        for (int docId = 0; docId < numDocuments; docId++) {
            List topics = new ArrayList();
            //基于轮盘赌获取主题编号（前面已经初始化了），这里multiPros必须有值，否则则会报错
            int topic = FuncUtils.nextDiscrete(multiPros);
            //分配到该主题的文档数量+1
            docTopicCount[topic] += 1;
            //文档的单词个数
            int docSize = corpus.get(docId).size();
            //循环每个单词
            for (int j = 0; j < docSize; j++) {
                //获取单词编号
                int wordId = corpus.get(docId).get(j);
                //随机产生false or true,用来初始化该文档是来自于隐特征还是多项式分布
                boolean component = new Randoms().nextBoolean();
                int subtopic = topic;   //这里是什么意思呢
                if (!component) { // Generated from the latent feature component
                    //主题-单词数量增加1  由隐特征主题生成
                    topicWordCountLF[topic][wordId] += 1;
                    // 该主题生成的单词总数增加1 由隐特征主题生成
                    sumTopicWordCountLF[topic] += 1;
                }
                else {// Generated from the Dirichlet multinomial component
                    //主题-单词数量增加1 由多项式分布生成
                    topicWordCountDMM[topic][wordId] += 1;
                    //主题生成的单词总数增加1
                    sumTopicWordCountDMM[topic] += 1;
                    subtopic = subtopic + numTopics;  
                }
                topics.add(subtopic);
            }
            topicAssignments.add(topics);
        }
    }
    //输入参数初始化
    public void initialize(String pathToTopicAssignmentFile)
        throws Exception
    {
        System.out.println("Reading topic-assignment file: " + pathToTopicAssignmentFile);

        topicAssignments = new ArrayList>();

        BufferedReader br = null;
        try {
            br = new BufferedReader(new FileReader(pathToTopicAssignmentFile));
            int docId = 0;
            int numWords = 0;
            for (String line; (line = br.readLine()) != null;) {
                String[] strTopics = line.trim().split("\\s+");
                List topics = new ArrayList();
                int topic = new Integer(strTopics[0]) % numTopics;
                docTopicCount[topic] += 1;
                for (int j = 0; j < strTopics.length; j++) {
                    int wordId = corpus.get(docId).get(j);
                    int subtopic = new Integer(strTopics[j]);
                    if (subtopic == topic) {
                        topicWordCountLF[topic][wordId] += 1;
                        sumTopicWordCountLF[topic] += 1;
                    }
                    else {
                        topicWordCountDMM[topic][wordId] += 1;
                        sumTopicWordCountDMM[topic] += 1;
                    }
                    topics.add(subtopic);
                    numWords++;
                }
                topicAssignments.add(topics);
                docId++;
            }

            if ((docId != numDocuments) || (numWords != numWordsInCorpus)) {
                System.out
                        .println("The topic modeling corpus and topic assignment file are not consistent!!!");
                throw new Exception();
            }
        }
        catch (Exception e) {
            e.printStackTrace();
        }
    }
    //模型推断
    public void inference()
        throws IOException
    {
        System.out.println("Running Gibbs sampling inference: ");
        //初始化迭代
        for (int iter = 1; iter <= numInitIterations; iter++) {

            System.out.println("\tInitial sampling iteration: " + (iter));
            //单词初始化迭代
            sampleSingleInitialIteration();
        }

        for (int iter = 1; iter <= numIterations; iter++) {

            System.out.println("\tLFDMM sampling iteration: " + (iter));
            //优化主题向量
            optimizeTopicVectors();
            //迭代
            sampleSingleIteration();

            if ((savestep > 0) && (iter % savestep == 0) && (iter < numIterations)) {
                System.out.println("\t\tSaving the output from the " + iter + "^{th} sample");
                expName = orgExpName + "-" + iter;
                write();
            }
        }
        expName = orgExpName;
        //保存模型相关参数
        writeParameters();
        System.out.println("Writing output from the last sample ...");
        //保存信息
        write();

        System.out.println("Sampling completed!");
    }
    //优化主题向量
    public void optimizeTopicVectors()
    {
        System.out.println("\t\tEstimating topic vectors ...");
        sumExpValues = new double[numTopics];
        dotProductValues = new double[numTopics][vocabularySize];
        expDotProductValues = new double[numTopics][vocabularySize];

        Parallel.loop(numTopics, new Parallel.LoopInt()
        {
            @Override
            public void compute(int topic)
            {
                int rate = 1;
                boolean check = true;
                while (check) {
                    double l2Value = l2Regularizer * rate;
                    try {
                        //主题向量表示  主题包含的单词个数  词向量 正则化值(这里是传入参数-----以便执行TopicVectorOptimizer)
                        TopicVectorOptimizer optimizer = new TopicVectorOptimizer(
                                topicVectors[topic], topicWordCountLF[topic], wordVectors, l2Value);
                        //通过LBFGS优化
                        Optimizer gd = new LBFGS(optimizer, tolerance);
                        gd.optimize(600);
                        //需要优化的参数
                        optimizer.getParameters(topicVectors[topic]);
                        //输入的是两个特征的乘积以及其加和-----针对每个主题计算一个向量值（为了更新主题使用）
                        sumExpValues[topic] = optimizer.computePartitionFunction(
                                dotProductValues[topic], expDotProductValues[topic]);
                        check = false;

                        if (sumExpValues[topic] == 0 || Double.isInfinite(sumExpValues[topic])) {
                            double max = -1000000000.0;
                            for (int index = 0; index < vocabularySize; index++) {
                                if (dotProductValues[topic][index] > max)
                                    max = dotProductValues[topic][index];
                            }
                            for (int index = 0; index < vocabularySize; index++) {
                                expDotProductValues[topic][index] = Math
                                        .exp(dotProductValues[topic][index] - max);
                                sumExpValues[topic] += expDotProductValues[topic][index];
                            }
                        }
                    }
                    catch (InvalidOptimizableException e) {
                        e.printStackTrace();
                        check = true;
                    }
                    rate = rate * 10;
                }
            }
        });
    }
    //每一代分配主题
    public void sampleSingleIteration()
    {
        //对每一篇文档进行循环
        for (int dIndex = 0; dIndex < numDocuments; dIndex++) {
            //获取文档的所有单词
            List document = corpus.get(dIndex);
            //文档的长度
            int docSize = document.size();
            //文档的初始主题分布，接下来是移除该单词
            int topic = topicAssignments.get(dIndex).get(0) % numTopics;
            //主题对应的文档数目减1
            docTopicCount[topic] = docTopicCount[topic] - 1;
            //接下来对对个单词进行循环，做相关单词的统计工作
            for (int wIndex = 0; wIndex < docSize; wIndex++) {
                //获取单词的id
                int word = document.get(wIndex);// wordId
                int subtopic = topicAssignments.get(dIndex).get(wIndex);
                if (subtopic == topic) {
                    topicWordCountLF[topic][word] -= 1;
                    sumTopicWordCountLF[topic] -= 1;
                }
                else {
                    topicWordCountDMM[topic][word] -= 1;
                    sumTopicWordCountDMM[topic] -= 1;
                }
            }

            // 对文档单词的主题进行抽样
            for (int tIndex = 0; tIndex < numTopics; tIndex++) {
                multiPros[tIndex] = (docTopicCount[tIndex] + alpha);
                for (int wIndex = 0; wIndex < docSize; wIndex++) {
                    int word = document.get(wIndex);
                    //依据公式进行计算，不过论文公式有问题  N_{d,w}+K_{d,w}的次方有问题，推理的公式应该是这样的
                    multiPros[tIndex] *= (lambda * expDotProductValues[tIndex][word]
                            / sumExpValues[tIndex] + (1 - lambda)
                            * (topicWordCountDMM[tIndex][word] + beta)
                            / (sumTopicWordCountDMM[tIndex] + betaSum));
                }
            }
            //基于轮盘赌抽样
            topic = FuncUtils.nextDiscrete(multiPros);
            //开始做相关统计
            docTopicCount[topic] += 1;
            for (int wIndex = 0; wIndex < docSize; wIndex++) {
                int word = document.get(wIndex);
                int subtopic = topic;
                //这里是对s_{di}的抽样，采用的是直接计算，并没有使用轮盘赌
                if (lambda * expDotProductValues[topic][word] / sumExpValues[topic] > (1 - lambda)
                        * (topicWordCountDMM[topic][word] + beta)
                        / (sumTopicWordCountDMM[topic] + betaSum)) {
                    //来自隐特征的相关统计
                    topicWordCountLF[topic][word] += 1;
                    sumTopicWordCountLF[topic] += 1;
                }
                else {
                    //来自多项式分布的相关统计
                    topicWordCountDMM[topic][word] += 1;
                    sumTopicWordCountDMM[topic] += 1;
                    subtopic += numTopics;
                }
                // 更新主题分配
                topicAssignments.get(dIndex).set(wIndex, subtopic);
            }
        }
    }
    //初始化迭代
    public void sampleSingleInitialIteration()
    {
        //对每篇文档循环
        for (int dIndex = 0; dIndex < numDocuments; dIndex++) {
            //获取文档
            List document = corpus.get(dIndex);
            //文档的长度，即文档包含的所有单词数
            int docSize = document.size();
            //文档主题分配，这里需要理解一下
            int topic = topicAssignments.get(dIndex).get(0) % numTopics;
            //主题生成的文档统计，移除该文档
            docTopicCount[topic] = docTopicCount[topic] - 1;
            //循环文档的每一个单词
            for (int wIndex = 0; wIndex < docSize; wIndex++) {
                //获取单词的编号
                int word = document.get(wIndex);
                //获取subtopic
                int subtopic = topicAssignments.get(dIndex).get(wIndex);
                //如果subtopic和topic相同，来自于隐变量，否则来自于多项式分布
                if (topic == subtopic) {
                    //主题-单词 数目减1
                    topicWordCountLF[topic][word] -= 1;
                    //主题对应的总的单词数-1
                    sumTopicWordCountLF[topic] -= 1;
                }
                else {
                    //主题-单词 数目减1
                    topicWordCountDMM[topic][word] -= 1;
                    //主题对应的总的单词数-1
                    sumTopicWordCountDMM[topic] -= 1;
                }
            }

            // 抽取文档所属的主题，计算该篇文档属于每个主题的概率，然后基于轮盘赌进行选择
            for (int tIndex = 0; tIndex < numTopics; tIndex++) {
                //这里这个公式是哪里来的呢,这里作者弄得词都是来自于多项式分布
                multiPros[tIndex] = (docTopicCount[tIndex] + alpha);
                for (int wIndex = 0; wIndex < docSize; wIndex++) {
                    int word = document.get(wIndex);
                    multiPros[tIndex] *= (lambda * (topicWordCountLF[tIndex][word] + beta)
                            / (sumTopicWordCountLF[tIndex] + betaSum) + (1 - lambda)
                            * (topicWordCountDMM[tIndex][word] + beta)
                            / (sumTopicWordCountDMM[tIndex] + betaSum));
                }
            }
            //基于轮盘赌进行选择
            topic = FuncUtils.nextDiscrete(multiPros);
            //新主题对应的文档数量加1
            docTopicCount[topic] += 1;
            //判断该主题是来自于隐特征还是多项式分布
            for (int wIndex = 0; wIndex < docSize; wIndex++) {
                int word = document.get(wIndex);// wordID
                int subtopic = topic;
              //这里是对s_{di}的抽样，采用的是直接计算，并没有使用轮盘赌
                if (lambda * (topicWordCountLF[topic][word] + beta)
                        / (sumTopicWordCountLF[topic] + betaSum) > (1 - lambda)
                        * (topicWordCountDMM[topic][word] + beta)
                        / (sumTopicWordCountDMM[topic] + betaSum)) {
                    topicWordCountLF[topic][word] += 1;
                    sumTopicWordCountLF[topic] += 1;
                }
                else {
                    topicWordCountDMM[topic][word] += 1;
                    sumTopicWordCountDMM[topic] += 1;
                    subtopic += numTopics;
                }
                // Update topic assignments
                topicAssignments.get(dIndex).set(wIndex, subtopic);
            }
        }
    }

    public void writeParameters()
        throws IOException
    {
        BufferedWriter writer = new BufferedWriter(new FileWriter(folderPath + expName + ".paras"));
        writer.write("-model" + "\t" + "LFDMM");
        writer.write("\n-corpus" + "\t" + corpusPath);
        writer.write("\n-vectors" + "\t" + vectorFilePath);
        writer.write("\n-ntopics" + "\t" + numTopics);
        writer.write("\n-alpha" + "\t" + alpha);
        writer.write("\n-beta" + "\t" + beta);
        writer.write("\n-lambda" + "\t" + lambda);
        writer.write("\n-initers" + "\t" + numInitIterations);
        writer.write("\n-niters" + "\t" + numIterations);
        writer.write("\n-twords" + "\t" + topWords);
        writer.write("\n-name" + "\t" + expName);
        if (tAssignsFilePath.length() > 0)
            writer.write("\n-initFile" + "\t" + tAssignsFilePath);
        if (savestep > 0)
            writer.write("\n-sstep" + "\t" + savestep);

        writer.close();
    }

    public void writeDictionary()
        throws IOException
    {
        BufferedWriter writer = new BufferedWriter(new FileWriter(folderPath + expName
                + ".vocabulary"));
        for (String word : word2IdVocabulary.keySet()) {
            writer.write(word + " " + word2IdVocabulary.get(word) + "\n");
        }
        writer.close();
    }

    public void writeIDbasedCorpus()
        throws IOException
    {
        BufferedWriter writer = new BufferedWriter(new FileWriter(folderPath + expName
                + ".IDcorpus"));
        for (int dIndex = 0; dIndex < numDocuments; dIndex++) {
            int docSize = corpus.get(dIndex).size();
            for (int wIndex = 0; wIndex < docSize; wIndex++) {
                writer.write(corpus.get(dIndex).get(wIndex) + " ");
            }
            writer.write("\n");
        }
        writer.close();
    }

    public void writeTopicAssignments()
        throws IOException
    {
        BufferedWriter writer = new BufferedWriter(new FileWriter(folderPath + expName
                + ".topicAssignments"));
        for (int dIndex = 0; dIndex < numDocuments; dIndex++) {
            int docSize = corpus.get(dIndex).size();
            for (int wIndex = 0; wIndex < docSize; wIndex++) {
                writer.write(topicAssignments.get(dIndex).get(wIndex) + " ");
            }
            writer.write("\n");
        }
        writer.close();
    }

    public void writeTopicVectors()
        throws IOException
    {
        BufferedWriter writer = new BufferedWriter(new FileWriter(folderPath + expName
                + ".topicVectors"));
        for (int i = 0; i < numTopics; i++) {
            for (int j = 0; j < vectorSize; j++)
                writer.write(topicVectors[i][j] + " ");
            writer.write("\n");
        }
        writer.close();
    }

    public void writeTopTopicalWords()
        throws IOException
    {
        BufferedWriter writer = new BufferedWriter(new FileWriter(folderPath + expName
                + ".topWords"));

        for (int tIndex = 0; tIndex < numTopics; tIndex++) {
            writer.write("Topic" + new Integer(tIndex) + ":");

            Map topicWordProbs = new TreeMap();
            for (int wIndex = 0; wIndex < vocabularySize; wIndex++) {
                //获取概率值，这里可以看出包含两部分的内容，将两部分信息进行融合了
                double pro = lambda * expDotProductValues[tIndex][wIndex] / sumExpValues[tIndex]
                        + (1 - lambda) * (topicWordCountDMM[tIndex][wIndex] + beta)
                        / (sumTopicWordCountDMM[tIndex] + betaSum);

                topicWordProbs.put(wIndex, pro);
            }
            //主题词分布降序排序
            topicWordProbs = FuncUtils.sortByValueDescending(topicWordProbs);

            Set mostLikelyWords = topicWordProbs.keySet();
            int count = 0;
            for (Integer index : mostLikelyWords) {
                if (count < topWords) {
                    writer.write(" " + id2WordVocabulary.get(index));
                    count += 1;
                }
                else {
                    writer.write("\n\n");
                    break;
                }
            }
        }
        writer.close();
    }

    public void writeTopicWordPros()
        throws IOException
    {
        BufferedWriter writer = new BufferedWriter(new FileWriter(folderPath + expName + ".phi"));
        for (int t = 0; t < numTopics; t++) {
            for (int w = 0; w < vocabularySize; w++) {
                double pro = lambda * expDotProductValues[t][w] / sumExpValues[t] + (1 - lambda)
                        * (topicWordCountDMM[t][w] + beta) / (sumTopicWordCountDMM[t] + betaSum);
                writer.write(pro + " ");
            }
            writer.write("\n");
        }
        writer.close();
    }

    public void writeDocTopicPros()
        throws IOException
    {
        BufferedWriter writer = new BufferedWriter(new FileWriter(folderPath + expName + ".theta"));

        for (int i = 0; i < numDocuments; i++) {
            int docSize = corpus.get(i).size();
            double sum = 0.0;
            for (int tIndex = 0; tIndex < numTopics; tIndex++) {
                multiPros[tIndex] = (docTopicCount[tIndex] + alpha);
                for (int wIndex = 0; wIndex < docSize; wIndex++) {
                    int word = corpus.get(i).get(wIndex);
                    multiPros[tIndex] *= (lambda * expDotProductValues[tIndex][word]
                            / sumExpValues[tIndex] + (1 - lambda)
                            * (topicWordCountDMM[tIndex][word] + beta)
                            / (sumTopicWordCountDMM[tIndex] + betaSum));
                }
                sum += multiPros[tIndex];
            }
            for (int tIndex = 0; tIndex < numTopics; tIndex++) {
                writer.write((multiPros[tIndex] / sum) + " ");
            }
            writer.write("\n");

        }
        writer.close();
    }

    public void write()
        throws IOException
    {
        //主题词分布
        writeTopTopicalWords();
        writeDocTopicPros();
        writeTopicAssignments();
        writeTopicWordPros();
    }

    public static void main(String args[])
        throws Exception
    {
        //初始化迭代次数----模型迭代次数
        LFDMM lfdmm = new LFDMM("", "", 40, 0.1, 0.01, 0.6, 20,
                20, 20, "LFDMM");
        lfdmm.writeParameters();
        lfdmm.inference();
    }
}

说明与改写

说明

按道理DMM模型每篇文档的每个单词对应的簇应该是相同的，这里的存储方法如下：

public List<List<Integer>> topicAssignments; // Topics assignments for words  单词的簇分配

这样写成List集合嵌套的形式，可以实现对文档的每个单词的簇存储(这里有两种情况，其一是来自于多项式分布，其二是来自于隐特征分布)。

subtopic = subtopic + numTopics;

通过加和编号是来自于多项式分布还是隐特征分布。

 int topic = topicAssignments.get(dIndex).get(0) % numTopics;

可以看出这里通过取余数获取文档对应的簇编号。

int subtopic = topicAssignments.get(dIndex).get(wIndex);

这里是获得每篇文档的每个单词是来自于多项式分布还是隐特征分布。

改写方法

改写的方式很简单，设置每篇文档对应的簇编号，设置一个文档每个单词是来自于多项式分布还是隐特征分布的二元变量。

public int[] z; //文档对应的主题
public boolean[][] z_words; //文档中每个单词对应的子主题，第二维采用0-1表示，0表示来自于多项式分布，1表示来自于隐特征

这种改写很简单，也很容易理解，自己以完成code的编写，这里就不过多说明了，有兴趣自己编写一下。

你可能感兴趣的:(贝叶斯相关模型及程序,计算机顶会及顶刊,数据挖掘算法,自然语言处理方法及应用,概率主题模型)

python输出星号等腰三角形_python打印直角三角形与等腰三角形实例代码 weixin_39644139 python输出星号等腰三角形
python打印直角三角形与等腰三角形实例代码前言本文通过示例给大家详细介绍了关于python打印三角形的相关，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧1、直角三角形#i控制行数j控制*的个数foriinrange(5):i+=1forjinrange(i):print('*',end='')#end=‘'输出空格print()/2、等腰三角形row=int(input('p
北斗导航｜接收机自主完好性监测算法研究现状及发展趋势单北斗SLAMer 卫星导航毕业论文设计算法
接收机自主完好性监测（RAIM）算法是保障卫星导航系统可靠性的核心技术，其研究现状与发展趋势可从算法设计、多系统融合、智能化技术等方面进行分析。以下基于现有研究成果及行业动态进行总结：一、研究现状传统故障检测算法RAIM的核心目标是通过冗余观测值检测并隔离故障卫星。早期研究聚焦单星故障场景，主要方法包括：残差分析法：通过比较观测残差与阈值判断故障，如最小二乘残差和法、奇偶矢量法等。距离比较法：基于
js原型链与自动装箱机制 CC Cian javascript 开发语言 ecmascript 前端
目录前言基于原型生成对象修改原型对象构造函数的机制原型对象与原型链原型链相关方法补充1.自动装箱机制2.__proto__的存在原因3.关键区别4.示例验证5.总结前言在如今的主流语言中，大部分语言都是通过类来产生对象但js是基于原型生成对象javapublicclassPerson{privateStringname;privateintage;publicPerson(Stringname,i
Python写倒三角森之林 python
4.(程序题)编程显示如下所示的三角形图案。要求程序运行时，输入一个正整数，显示该整数行高度的三角形图案。#############h=int(input("请输入高度："))foriinrange(h):forjinrange(i,h):print("#",end="")forrinrange(0,i):print("",end="")print("")
MySQL性能优化实战笔记 - 通俗易懂版泥潭硬拔 mysql 性能优化笔记
1.存储引擎选择-到底选哪个？InnoDBvsMyISAM通俗对比想象你开了一家银行：InnoDB就像是有保险柜的银行支持事务：比如转账，要么都成功，要么都失败行级锁：小明在存钱时，小红还能同时取钱缺点：需要更多内存和CPUMyISAM就像是简易储物柜不支持事务：操作简单直接表级锁：一个人在用时，其他人要等待优点：读取速度快，占用资源少2.实战案例：常见性能问题及解决方案案例1：查询特别慢--糟糕
python+flask计算机毕业设计基于Android平台的景区移动端旅游软件系统（程序+开题+论文） Node.js彤彤程序 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着移动互联网技术的飞速发展，智能手机已成为人们日常生活中不可或缺的一部分，特别是在旅游领域，移动端应用以其便捷性、实时性和个性化服务的特点，极大地改变了人们的旅游体验方式。当前，旅游市场日益繁荣，游客对于旅游信息获取、行程规划、景点导航、票务预订及个性化服务的需
二叉树的三种遍历【树的遍历】（C++实现）Binary Tree Traversal Vitalia 理论基础 c++树的遍历二叉树
图论入门【数据结构基础】：什么是树？如何表示树？之前我们有分别讲解二叉树的三种遍历的相关代码实现：⭐算法OJ⭐二叉树的前序遍历【树的遍历】（C++实现）BinaryTreePreorderTraversal⭐算法OJ⭐二叉树的中序遍历【树的遍历】（C++实现）BinaryTreeInorderTraversal⭐算法OJ⭐二叉树的后序遍历【树的遍历】（C++实现）BinaryTreePostord
传统金融和分布式金融倒霉男孩 DeFi 金融分布式
文章目录传统金融和分布式金融一、传统金融机构的核心问题深度剖析1.支付与清算系统的结构性缺陷2.金融排斥（FinancialExclusion）的根源3.中心化风险的爆发与传导二、DeFi的技术突破与创新机制1.支付与清算：区块链的底层重构2.普惠金融的技术民主化3.去中心化治理与透明化运作三、DeFivs传统金融的范式革命1.价值传递范式的颠覆2.风险分散机制的升级3.经济模型的创新实验四、De
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
故事讲解设计模式：观察者模式 yuanpan 设计模式观察者模式
1.故事背景：在一个小镇上，有一家非常受欢迎的报纸店，老板叫老张。这家报纸店每天都会发布最新的新闻，镇上有很多居民都订阅了这家报纸，他们希望能够第一时间收到最新的消息。2.故事发展：老张的报纸店：老张是报纸店的核心，他负责收集新闻、编辑报纸，并在每天早晨发布。问题：老张需要通知所有订阅者，但订阅者数量可能很多，而且可能会随时增加或减少。订阅者们：镇上有几位居民对新闻非常感兴趣，他们是：小李：喜欢体
谷歌：对比学习将LLM转为嵌入模型大模型任我行大模型-成熟基座人工智能自然语言处理语言模型论文笔记
标题：GeminiEmbedding:GeneralizableEmbeddingsfromGemini来源：arXiv,2503.07891摘要在本报告中，我们介绍了Gemini嵌入，这是一种最先进的嵌入模型，它利用了Gemini、Google最有能力的大型语言模型的力量。利用Gemini固有的多语言和代码理解能力，GeminiEmbedding为跨越多种语言和文本模式的文本生成高度可概括的嵌入
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
优化Apache Spark性能之JVM参数配置指南 weixin_30777913 jvm spark 大数据开发语言性能优化
ApacheSpark运行在JVM之上，JVM的垃圾回收（GC）、内存管理以及堆外内存使用情况，会直接对Spark任务的执行效率产生影响。因此，合理配置JVM参数是优化Spark性能的关键步骤，以下将详细介绍优化策略和配置建议。通过以下优化方法，可以显著减少GC停顿时间、提升内存利用率，进而提高Spark作业吞吐量和数据处理效率。同时，要根据具体的工作负载和集群配置进行调整，并定期监控Spark应
leetcode刷题日记——轮转数组许_安刷题日记 leetcode 算法排序算法
[题目描述]：[思路]：题目要求将一个整数数组向右轮转k个位置，右边超出的数，从左边插入因为是向右轮转k个位置，所以可以直接遍历数组，将其存放位置index加上k，但index+k可能会超出数组长度，即需要轮转到数组前面。由于数组元素个数为numsSize，也就是数组长度，我们可以通过(index+k)%numsSize取余来确定超出元素的位置运行如下voidrotate(int*nums,int
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
const关键字的作用和用法 C++ 老炮儿的技术栈开发语言 c++笔记学习
在C++中，const关键字有以下作用和用法：修饰变量-表示该变量的值不能被修改，在定义时必须初始化。例如：constintnum=10;，之后任何试图修改num值的操作都会导致编译错误。-可以提高程序的可读性和可维护性，让代码的读者清楚哪些变量是不应该被修改的。修饰指针-可以修饰指针本身或指针所指向的内容。例如，constint*ptr;表示指针所指向的int值是常量，不能通过ptr来修改该值，
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
一、大语言模型微调 vs. 大语言模型应用 AI Echoes 深度学习人工智能 deepseek 机器学习算法
一、大语言模型微调vs.大语言模型应用1.微调（Fine-Tuning）的含义与特点定义与作用微调指在预训练好（通用）的基础模型上，通过在特定领域或任务的数据集上进一步训练来调整模型参数，使其在该领域任务中获得更优表现。这种方法可以使通用模型“定制化”，更好地理解专业术语和领域知识，从而提升准确性和响应质量。例如，为医疗、法律、金融等垂直领域构建专属模型，往往需要在预训练模型基础上进行微调。特点参
3.1css选择器优先级和常用文本属性 chxii go语言 #前端 css 前端
在CSS（层叠样式表）中，选择器的优先级决定了当多个选择器应用于同一个元素时，哪个样式的规则会被应用。选择器的优先级是通过特定的规则来计算的，这些规则决定了样式声明的权重。以下是CSS选择器优先级的基本规则：重要性（!important）如果某个样式声明使用了!important，那么它将覆盖没有使用!important的任何规则。例如：p{color:red!important;}在这种情况下，
AI界劳斯莱斯o1 -Pro来了！百万token收费600刀，OpenAI在AI普惠反方向狂奔？算家计算话题文章人工智能算家云 OpenAI o1-pro API OpenAI发布最贵模型 DeepSeek
刚刚，OpenAI宣布推出其最新的高性能推理模型o1-pro。当大家还在为GPT-4.5的订阅费感到肉痛时，OpenAI用一记价格暴击刷新了认知——全新推理模型o1-pro的API定价，输入每百万token收费150美元，输出每百万token收费600美元，比前代模型贵了10倍，更是将DeepSeek-R1甩出270倍价差。与OpenAI其他模型相比，o1-pro的价格高出了不止一点：目前o1-p
[解决] PDF转图片,中文乱码或显示方框的解决方案 DazedMen 开发遇到的问题 pdf java pdf转图片
在Java开发中，将PDF文件转换为图片是一项常见的需求，但过程中可能会遇到中文乱码或显示方框的问题。本文将深入探讨这一问题，并提供详细的解决方案，帮助开发者顺利地完成PDF到图片的转换。一、问题现象在使用Java库（如ApachePDFBox）将PDF转换为图片时，如果PDF文件中包含中文字符，转换后的图片中可能会出现中文乱码或显示为方框的情况。控制台日志可能会显示类似以下信息：noglyphf
模型上下文协议 (MCP)是什么？Model Context Protocol 需要你了解一下同学小张学习 AIGC AI-native agi gpt 开源协议
大家好，我是同学小张，+v:jasper_8017一起交流，持续学习AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，订阅我的大模型专栏，共同学习和进步。在人工智能领域，ModelContextProtocol（MCP）正逐渐成为连接AI模型与各类数据源及工具的重要标准。MCP究竟为何物？它又将如何改变AI应用的开发与使用？文章目录0.概念1.MCP的总体架构2.为何使用MCP？3.我的理解4
MCP服务器：AI智能体的新时代连接标准真挺乐人工智能
在AI技术的不断发展中，MCP（ModelContextProtocol，模型上下文协议）正成为AI智能体与外部系统交互的新标准。MCP的目标是提供一个统一的方法，让AI智能体能够安全、高效地访问各种数据源、API接口和系统工具，从而扩展其能力，提升智能化水平。本文将深入探讨MCP服务器的架构、优势及其在现实世界中的应用。什么是MCP服务器？MCP服务器是MCP架构中的关键组件，它们充当AI智能体
知识图谱在人工智能语义理解与推理中的关键作用及发展研究 @王威& 人工智能
摘要本文聚焦知识图谱，深入剖析其在人工智能语义理解与推理中的核心作用。阐述知识图谱的构建原理、表示方法，分析其在自然语言处理、智能问答系统、推荐系统等多领域助力语义理解与推理的应用，探讨面临的挑战并展望未来发展方向，全面呈现知识图谱对人工智能发展的重要价值与深远影响。一、引言在人工智能追求更精准理解和处理人类语言与知识的进程中，知识图谱成为关键技术。它以结构化形式组织海量知识，揭示实体间复杂关系，
第二十九篇数据仓库与商务智能：技术演进与前沿趋势深度解析随缘而动，随遇而安数据库数据仓库大数据数据库架构数据库开发
声明：文章内容仅供参考，需仔细甄别。文中技术名称属相关方商标，仅作技术描述；代码示例为交流学习用途，部分参考开源文档（Apache2.0/GPLv3）；案例数据已脱敏，技术推荐保持中立；法规解读仅供参考，请以《网络安全法》《数据安全法》官方解释为准。目录一、核心差异：技术定位与实现路径1.1核心能力矩阵二、协同关系：现代数据供应链的双引擎2.1数据价值链协同2.2典型技术栈集成三、前沿技术动态（2
AI实干家：HK深度体验-【第3篇-香港、新加坡、深圳、上海、首尔五座城市在金融数据维度的对比分析】 SZ0771 人工智能大数据
以下是香港、新加坡、深圳、上海、首尔五座城市在金融数据维度的对比分析，涵盖货币流通量、存货款规模、资本市场活跃度、国际贸易、外资及外汇储备等关键指标，结合最新公开数据及全球金融中心排名动态：一、货币流通量（M0-M1-M2）由于城市层面货币供应量（M0、M1、M2）数据通常由国家统一统计，以下以金融机构本外币存款余额（反映广义货币M2的存量规模）为主要参考：城市本外币存款余额（2024年末）增速（
为什么在Linux系统中，available会比free+buff/cache的总和少很多 fzip Linux linux 运维服务器
在Linux系统中，available内存值小于free+buff/cache总和的现象源于内存管理的复杂机制。以下是核心原因及技术细节：一、背景1.现象#1.free-htotalusedfreesharedbuff/cacheavailableMem:503Gi475Gi8.9Gi605Mi18Gi13GiSwap:63Gi12Gi51Gi#2.grep-E'^(MemTotal|MemFre
浮点数Float概述 CoderIsArt C++11 浮点数
浮点数：概述浮点数是计算机中表示分数和极大/极小数字的一种基本方式。它们在科学计算、图形学以及其他需要高精度和大范围的领域中广泛应用。以下是浮点数相关关键概念和挑战的总结：1.什么是浮点数？浮点数是一种在计算机中表示实数（包括极大和极小的数字）的方式。它们由三部分组成：符号位：表示数字的正负。尾数（或有效数字）：表示数字的有效位数。指数：决定数字的规模（或大小）。浮点数的值通过以下公式计算：值=尾
CPO光电共封装关键技术与Top玩家代表作 CoderIsArt 光学 CPO
CPO（Co-PackagedOptics，光电共封装）关键技术介绍CPO（Co-PackagedOptics）是一种将光学器件与电子芯片（如ASIC、CPU、GPU等）封装在同一基板上的技术。它旨在解决传统可插拔光模块在高密度、高带宽场景下的功耗、散热和信号完整性问题。CPO通过缩短电信号的传输距离，减少信号衰减和功耗，同时提高系统的整体性能和能效。CPO技术主要应用于数据中心、高性能计算（HP
ollama 基本使用教程海上彼尚 AI ai 前端
目录1.安装OllamamacOS或LinuxWindows(WSL2)2.基础命令启动与停止更新Ollama3.模型管理下载预训练模型运行模型查看已安装模型删除模型从Modelfile创建自定义模型4.高级功能服务器模式与API多会话管理环境变量配置5.常见问题与技巧加速模型下载查看日志模型参数调整模型导出与分享Ollama是一个开源的大型语言模型服务工具，能够帮助用户在本地运行大模型。通过简单
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc