howsoever

NLP自然语言处理相关技术说明及样例（附源码）

https://segmentfault.com/a/1190000010320214

1、简单概述

1.1 NLP概念

NLP(Natural Language Processing)，自然语言处理，又称NLU(Natural Language Understanding)自然语言理解，是语言信息处理的分支，也是人工智能的核心课题，简单来说就是让计算机理解自然语言。

1.2 NLP涉及的内容及技术

自然语言处理研究包含的内容十分广泛，这里只列举出其中的其中的一部分(主要是在移动易系统中涉及到的)，包括分词处理(Word-Segment),词性标注(Part-of-Speech tagging),句法分析(Parsing),信息检索(Infomation-Retrieval),文字校对(Text-Rroofing),词向量模型(WordVector-Model),语言模型(Language-Model),问答系统(Question-Answer-System)。如下逐一介绍。

2、前期准备

Lucene使用经验
python使用经验
相关工具包如下：

工具	版本	下载地址
哈工大LTP	ltp4j	download
berkeleylm	berkeleylm 1.1.5	download
ElasticSearch	elasticsearch-2.4.5	download

3、具体实现

3.1 分词(Word-Segment)

3.1.1 这里主要介绍中文分词的实现，实现中文分词的方法有许多种，例如StandfordCore NLP(具体实现参见【NLP】使用 Stanford NLP 进行中文分词 )，jieba分词，这里使用哈工大的语言技术平台LTP(包括后面的词性标注，句法分析)。具体步骤如下:

首先下载LTP4J的jar包(download),
下载完解压缩后的文件包为ltp4j-master,相应的jar包就在output文件夹下的jar文件夹中。
下载编译好的C++动态链接库download，解压后如下所示：　　
将文件夹中的所有内容复制到jdk的bin目录下，如下所示：
构建Java项目，将jar包导入到项目中，右键项目buildpath,为添加的jar包添加本来地库依赖，路劲即下载解压后的dll动态库文件路径，如下所示：
接着便是中文分词的测试了，实现代码如下:


    package ccw.ltpdemo;
    import java.util.ArrayList;
    import java.util.List;
    
    import edu.hit.ir.ltp4j.Segmentor;
    public class ltpSegmentDemo {
        public static void main(String[] args) {
            Segmentor segmentor = new Segmentor();
            if(segmentor.create("D:/NLP/ltp/ltp_data_v3.4.0/ltp_data_v3.4.0/cws.model")<0)
            {
                System.out.println("model load failed");
            }
            else
            {
                String sent = "这是中文分词测试";
                List<String> words = new ArrayList<String>();
                int size = segmentor.segment(sent, words);
                for(String word :words)
                {
                    System.out.print(word+"\t");
                }
                segmentor.release();
            }
        }
    }

3.1.2 效果如下:

3.2 词性标注(Part-of-Speech tagging)

3.2.1 这里介绍如何通过ltp实现中文的词性标注，具体实现代码如下:


    package ccw.ltpdemo;
    import java.util.ArrayList;
    import java.util.List;
    
    import edu.hit.ir.ltp4j.Postagger;
    public class ltpPostaggerDemo {
        public static void main(String[] args) {
            Postagger postagger = new Postagger();
            if(postagger.create("D:/NLP/ltp/ltp_data_v3.4.0/ltp_data_v3.4.0/pos.model")<0)
            {
                System.out.println("model load failed");
            }
            else
            {
                List<String> words = new ArrayList<String>();
                words.add("我");
                words.add("是");
                words.add("中国");
                words.add("人");
                List<String> values = new ArrayList<String>();
                
                int size = postagger.postag(words, values);
                for(int i = 0;isize();i++)
                {
                    System.out.print(words.get(i)+" "+values.get(i)+"\t");
                }
                postagger.release();
            }
        }
    }

3.2.2 实现效果如下：

3.3 句法分析(Parsing)

3.3.1 这里介绍如何通过ltp实现对中文句子的句法分析，核心方法int size = Parser.parse(words,tags,heads,deprels),其中，words[]表示待分析的词序列，tags[]表示待分析的词的词性序列，heads[]表示结果依存弧，heads[i]代表第i个节点的父节点编号(其中第0个表示根节点root)，deprels[]表示依存弧的关系类型，size表示返回结果中词的个数。实现代码如下:

    
    package ccw.ltpdemo;
    
    import java.util.ArrayList;
    import java.util.List;
    
    import edu.hit.ir.ltp4j.Parser;
    
    public class ltpParserDemo {
        
        /**
         * @param args
         */
        public static void main(String[] args) {
            
            Parser parser = new Parser();
            if(parser.create("D:/NLP/ltp/ltp_data_v3.4.0/ltp_data_v3.4.0/parser.model")<0)
            {
                System.out.println("model load failed");
            }
            else
            {
                 List<String> words = new ArrayList<String>();
                    List<String> tags = new ArrayList<String>();
                    words.add("我");tags.add("r");
                    words.add("非常");tags.add("d");
                    words.add("喜欢");tags.add("v");
                    words.add("音乐");tags.add("n");
                    List heads = new ArrayList();
                    List<String> deprels = new ArrayList<String>();
                    int size = Parser.parse(words,tags,heads,deprels);
                    for(int i = 0;i<size;i++) {
                      System.out.print(heads.get(i)+":"+deprels.get(i));
                      if(i==size-1) {
                        System.out.println();
                      }
                      else{
                        System.out.print("        ");
                      }
                    }
    
                    parser.release();
            }
        }
    
    }

3.3.2 实现效果如下:

3.4 信息检索(Information-Retrieval)

信息检索（Information Retrieval）是用户进行信息查询和获取的主要方式，是查找信息的方法和手段。狭义的信息检索仅指信息查询（Information Search）。即用户根据需要，采用一定的方法，借助检索工具，从信息集合中找出所需要信息的查找过程。实现参见移动易实现全文搜索。

3.5 文字校对(Text-Rroofing)，语言模型(Language-Model)

3.5.1 N元模型(N-gram)

首先介绍N-gram模型，N-gram模型是自然语言处理中一个非常重要的概念，通常，在NLP中，基于一定的语料库，可以通过N-gram来预计或者评估一个句子是否合理。对于一个句子T,假设T由词序列w1,w2,w3...wn组成，那么T出现的概率

P(T)=P(w1,w2,w3...wn)=P(w1)P(w2|w1)P(w3|w2,w1)...p(wn|wn-1,...w2,w1),
此概率在参数巨大的情况下显然不容易计算，因此引入了马尔可夫链(即每个词出现的概率仅仅与它的前后几个词相关)，这样可以大幅度缩小计算的长度，即
P(wi|w1,⋯,wi−1)=P(wi|wi−n+1,⋯,wi−1)
特别的，当n取值较小时：

当n=1时，即每一个词出现的概率只由该词的词频决定，称为一元模型(unigram-model):

P(w1,w2,⋯,wm)=∏i=1mP(wi)
设M表示语料库中的总字数，c(wi)表示wi在语料库中出现的次数，那么
P(wi)=C(wi)/M
当n=2时，即每一个词出现的概率只由该词的前一个词以及后一个词决定，称为二元模型(bigram-model):
P(w1,w2,⋯,wm)=∏i=1mP(wi|wi−1)
设M表示语料库中的总字数，c(wi-1WI)表示wi-1wi在语料库中出现的次数，那么
P(wi|wi−1)=C(wi−1wi)/C(wi−1)
当n=3时，称为三元模型(trigram-model):
P(w1,w2,⋯,wm)=∏i=1mP(wi|wi−2wi−1)
那么
P(wi|wi−1wi-2)=C(wi-2wi−1wi)/C(wi−2wi-1)

3.5.2 中文拼写纠错

接着介绍如何通过Lucene提供的spellChecker(拼写校正)模块实现中文字词的纠错，首先创建语料词库，如下所示：

然后在代码中创建索引并测试，具体实现代码如下：

    
      package ccw.spring.ccw.lucencedemo;
      import java.io.BufferedReader;
      import java.io.File;
      import java.io.FileInputStream;
      import java.io.FileReader;
      import java.io.IOException;
      import java.io.InputStreamReader;
      import java.util.Iterator;
      import org.apache.lucene.index.IndexReader;
      import org.apache.lucene.index.IndexWriterConfig;
      import org.apache.lucene.search.spell.LuceneDictionary;
      import org.apache.lucene.search.spell.PlainTextDictionary;
      import org.apache.lucene.search.spell.SpellChecker;
      import org.apache.lucene.search.suggest.InputIterator;
      import org.apache.lucene.store.Directory;
      import org.apache.lucene.store.FSDirectory;
      import org.apache.lucene.util.Version;
      public class Spellcheck {
        public static String directorypath;
        public static String origindirectorypath;
        public SpellChecker spellcheck;
        public LuceneDictionary dict;
        
    /**
     * 创建索引
     * a
     * @return
     * @throws IOException
     * boolean
     */
    public static void createIndex(String directorypath,String origindirectorypath) throws IOException
    {
        Directory directory = FSDirectory.open(new File(directorypath));
        
        SpellChecker spellchecker = new SpellChecker(directory);
        IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_4_9, null);
        PlainTextDictionary pdic = new PlainTextDictionary(new InputStreamReader(new FileInputStream(new File(origindirectorypath)),"utf-8"));
        spellchecker.indexDictionary(new PlainTextDictionary(new File(origindirectorypath)), config, false);
        directory.close();
        spellchecker.close();
    }
    public Spellcheck(String opath ,String path)
    {
        origindirectorypath = opath;
        directorypath = path;
        Directory directory;
        try {
               directory = FSDirectory.open(new File(directorypath));
               spellcheck = new SpellChecker(directory);
               IndexReader oriIndex = IndexReader.open(directory);
               dict = new LuceneDictionary(oriIndex,"name");
            }
         catch (IOException e) {
                     e.printStackTrace();
                 }
             
    }
    public void setAccuracy(float v)
    {
        spellcheck.setAccuracy(v);
    }
    
    
    public String[]search(String queryString, int suggestionsNumber)
    {
        String[]suggestions = null;
        try {
              if (exist(queryString))
              return null;
              suggestions = spellcheck.suggestSimilar(queryString,suggestionsNumber);
            }
             catch (IOException e) 
            {
              e.printStackTrace();
            }
            return suggestions;
    }
              
    private boolean exist(String queryString) throws IOException {
        InputIterator ite =  dict.getEntryIterator();
            while (ite.hasContexts())
              {
                  if (ite.next().equals(queryString))
                      return true;
              }
                     return false;
        }
    
    
    public static void main(String[] args) throws IOException {
        String opath = "D:\\Lucene\\NLPLucene\\words.txt";
        String ipath = "D:\\Lucene\\NLPLucene\\index";
        Spellcheck.createIndex(ipath, opath);
        Spellcheck spellcheck = new Spellcheck(opath,ipath);
        //spellcheck.createSpellIndex();
        
        spellcheck.setAccuracy((float) 0.5);
        String [] result = spellcheck.search("麻辣糖", 15);
        if(result.length==0||null==result)
        {
            System.out.println("未发现错误");
        }
        else
        {
            System.out.println("你是不是要找:");
            for(String hit:result)
            {
                System.out.println(hit);
            }
        }
    }
    
                 
    }

实现效果如下:

3.5.3 中文语言模型训练

这里主要介绍中文语言模型的训练，中文语言模型的训练主要基于N-gram算法，目前开源的语言模型训练的工具主要有SRILM、KenLM、 berkeleylm 等几种，KenLm较SRILM性能上要好一些，用C++编写，支持单机大数据的训练。berkeleylm是用java写。本文主要介绍如何通过berkelylm实现中文语言模型的训练。

首先需要下载berkeleylm的jar包(download),完成后将jar包导入到java项目中。
然后准备训练的语料库，首先通过ltp将每一句文本分词，然后将分完词的语句写入txt文件，如下所示：
接着就是对语料库的训练，首先要读取分完词的文本，然后就是对每个词计算在给定上下文中出现的概率，这里的概率是对10取对数后计算得到的，最后将结果按照给定的格式存储，可以按照.arpa或者二进制.bin文件存储。文件格式如下：

实现代码如下:


    package ccw.berkeleylm;
    
    import java.io.File;
    import java.util.ArrayList;
    import java.util.List;
    
    import edu.berkeley.nlp.lm.ConfigOptions;
    import edu.berkeley.nlp.lm.StringWordIndexer;
    import edu.berkeley.nlp.lm.io.ArpaLmReader;
    import edu.berkeley.nlp.lm.io.LmReaders;
    import edu.berkeley.nlp.lm.util.Logger;
    
    public class demo {
        
        
        private static void usage() {
            System.err.println("Usage:   *");
            System.exit(1);
        }
        
        public void makelml(String [] argv)
        {
            if (argv.length < 2) {
                usage();
            }
            final int lmOrder = Integer.parseInt(argv[0]);
            final String outputFile = argv[1];
            final List<String> inputFiles = new ArrayList<String>();
            for (int i = 2; i < argv.length; ++i) {
                inputFiles.add(argv[i]);
            }
            if (inputFiles.isEmpty()) inputFiles.add("-");
            Logger.setGlobalLogger(new Logger.SystemLogger(System.out, System.err));
            Logger.startTrack("Reading text files " + inputFiles + " and writing to file " + outputFile);
            final StringWordIndexer wordIndexer = new StringWordIndexer();
            wordIndexer.setStartSymbol(ArpaLmReader.START_SYMBOL);
            wordIndexer.setEndSymbol(ArpaLmReader.END_SYMBOL);
            wordIndexer.setUnkSymbol(ArpaLmReader.UNK_SYMBOL);
            LmReaders.createKneserNeyLmFromTextFiles(inputFiles, wordIndexer, lmOrder, new File(outputFile), new ConfigOptions());
            Logger.endTrack();
        }
        
        public static void main(String[] args) {
            
            demo d = new demo();
            String inputfile = "D:\\NLP\\languagematerial\\quest.txt";
            String outputfile = "D:\\NLP\\languagematerial\\q.arpa";
            String s[]={"8",outputfile,inputfile};
            d.makelml(s);
            
        }
    
    }

最后就是读取模型，然后判断句子的相似性，实现代码如下:


    package ccw.berkeleylm;
    
    import java.io.File;
    import java.util.ArrayList;
    import java.util.List;
    
    import edu.berkeley.nlp.lm.ArrayEncodedProbBackoffLm;
    import edu.berkeley.nlp.lm.ConfigOptions;
    import edu.berkeley.nlp.lm.StringWordIndexer;
    import edu.berkeley.nlp.lm.io.LmReaders;
    
    public class readdemo {
        
        public static ArrayEncodedProbBackoffLm<String> getLm(boolean compress,String file) {
            final File lmFile = new File(file);
            final ConfigOptions configOptions = new ConfigOptions();
            configOptions.unknownWordLogProb = 0.0f;
            final ArrayEncodedProbBackoffLm<String> lm = LmReaders.readArrayEncodedLmFromArpa(lmFile.getPath(), compress, new StringWordIndexer(), configOptions,
                Integer.MAX_VALUE);
            return lm;
        }
        
        
        public static void main(String[] args) {
            readdemo read = new readdemo();
            LmReaders readers = new LmReaders();
            ArrayEncodedProbBackoffLm<String> model = (ArrayEncodedProbBackoffLm) readdemo.getLm(false, "D:\\NLP\\languagematerial\\q.arpa");
            String sentence = "是";
            String [] words = sentence.split(" ");
            List<String> list = new ArrayList<String>();
            for(String word : words)
            {
                System.out.println(word);
                list.add(word);
            }
            float score = model.getLogProb(list);
            System.out.println(score);
        }
    
    }

实现效果如下：

3.5.4 同义词词林

这里使用哈工大提供的同义词词林,词林提供三层编码，第一级大类用大写英文字母表示，第二级中类用小写字母表示，第三级小类用二位十进制整数表示，第四级词群用大写英文字母表示，第五级原子词群用二位十进制整数表示。编码表如下所示：

第八位的标记有三种，分别是“=“、”#“、”@“，=代表相等、同义，#代表不等、同类，@代表自我封闭、独立，它在词典中既没有同义词，也没有相关词。通过同义词词林可以比较两词的相似程度，代码实现如下：


    package cilin;
    import java.io.BufferedReader;
    import java.io.FileInputStream;
    import java.io.InputStreamReader;
    import java.util.HashMap;
    import java.util.List;
    import java.util.Vector;
    public class CiLin {
    public static HashMap<String, List<String>> keyWord_Identifier_HashMap;//<关键词，编号List集合>哈希
    
    public int zero_KeyWord_Depth = 12;
    public static HashMap<String, Integer> first_KeyWord_Depth_HashMap;//<第一层编号，深度>哈希
    public static HashMap<String, Integer> second_KeyWord_Depth_HashMap;//<前二层编号，深度>哈希
    public static HashMap<String, Integer> third_KeyWord_Depth_HashMap;//<前三层编号，深度>哈希
    public static HashMap<String, Integer> fourth_KeyWord_Depth_HashMap;//<前四层编号，深度>哈希
    //public HashMap> ciLin_Sort_keyWord_HashMap = new HashMap>();//<(同义词)编号，关键词Set集合>哈希
    
    static{
        keyWord_Identifier_HashMap = new HashMap<String, List<String>>();
        first_KeyWord_Depth_HashMap = new HashMap<String, Integer>();
        second_KeyWord_Depth_HashMap = new HashMap<String, Integer>();
        third_KeyWord_Depth_HashMap = new HashMap<String, Integer>();
        fourth_KeyWord_Depth_HashMap = new HashMap<String, Integer>();
        initCiLin();
    }
    
    //3.初始化词林相关
    public static void initCiLin(){
        int i;
        String str = null;
        String[] strs = null;
        List<String> list = null;
        BufferedReader inFile = null;
        try {
            //初始化<关键词， 编号set>哈希
            inFile = new BufferedReader(new InputStreamReader(new FileInputStream("cilin/keyWord_Identifier_HashMap.txt"), "utf-8"));// 读取文本
            while((str = inFile.readLine()) != null){
                strs = str.split(" ");
                list = new Vector<String>();
                for (i = 1; i < strs.length; i++) 
                    list.add(strs[i]);
                keyWord_Identifier_HashMap.put(strs[0], list);
            }
            
            //初始化<第一层编号，高度>哈希
            inFile.close();
            inFile = new BufferedReader(new InputStreamReader(new FileInputStream("cilin/first_KeyWord_Depth_HashMap.txt"), "utf-8"));// 读取文本
            while ((str = inFile.readLine()) != null){
                strs = str.split(" ");
                first_KeyWord_Depth_HashMap.put(strs[0], Integer.valueOf(strs[1]));
            }
            
            //初始化<前二层编号，高度>哈希
            inFile.close();
            inFile = new BufferedReader(new InputStreamReader(new FileInputStream("cilin/second_KeyWord_Depth_HashMap.txt"), "utf-8"));// 读取文本
            while ((str = inFile.readLine()) != null){
                strs = str.split(" ");
                second_KeyWord_Depth_HashMap.put(strs[0], Integer.valueOf(strs[1]));
            }
            
            //初始化<前三层编号，高度>哈希
            inFile.close();
            inFile = new BufferedReader(new InputStreamReader(new FileInputStream("cilin/third_KeyWord_Depth_HashMap.txt"), "utf-8"));// 读取文本
            while ((str = inFile.readLine()) != null){
                strs = str.split(" ");
                third_KeyWord_Depth_HashMap.put(strs[0], Integer.valueOf(strs[1]));
            }
        
            //初始化<前四层编号，高度>哈希
            inFile.close();
            inFile = new BufferedReader(new InputStreamReader(new FileInputStream("cilin/fourth_KeyWord_Depth_HashMap.txt"), "utf-8"));// 读取文本
            while ((str = inFile.readLine()) != null){
                strs = str.split(" ");
                fourth_KeyWord_Depth_HashMap.put(strs[0], Integer.valueOf(strs[1]));
            }
            inFile.close();
            
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
        
    //根据两个关键词计算相似度
    public static double calcWordsSimilarity(String key1, String key2){
        List<String> identifierList1 = null, identifierList2 = null;//词林编号list
        if(key1.equals(key2))
            return 1.0;
        
        if (!keyWord_Identifier_HashMap.containsKey(key1) || !keyWord_Identifier_HashMap.containsKey(key2)) {//其中有一个不在词林中，则返回相似度为0.1
            //System.out.println(key1 + "  " + key2 + "有一个不在同义词词林中！");
            return 0.1;
        }
        identifierList1 = keyWord_Identifier_HashMap.get(key1);//取得第一个词的编号集合
        identifierList2 = keyWord_Identifier_HashMap.get(key2);//取得第二个词的编号集合
        
        return getMaxIdentifierSimilarity(identifierList1, identifierList2);
    }
        
    public static double getMaxIdentifierSimilarity(List<String> identifierList1, List<String> identifierList2){
        int i, j;
        double maxSimilarity = 0, similarity = 0;
        for(i = 0; i < identifierList1.size(); i++){
            j = 0;
            while(j < identifierList2.size()){
                similarity = getIdentifierSimilarity(identifierList1.get(i), identifierList2.get(j));
                System.out.println(identifierList1.get(i) + "  " + identifierList2.get(j) + "  " + similarity);
                if(similarity > maxSimilarity)
                    maxSimilarity = similarity;
                if(maxSimilarity == 1.0)    
                    return maxSimilarity;
                j++;
            }
        }
        return maxSimilarity;
    }
        
    public static double getIdentifierSimilarity(String identifier1, String identifier2){
        int n = 0, k = 0;//n是分支层的节点总数, k是两个分支间的距离.
        //double a = 0.5, b = 0.6, c = 0.7, d = 0.96;
        double a = 0.65, b = 0.8, c = 0.9, d = 0.96;
        if(identifier1.equals(identifier2)){//在第五层相等
            if(identifier1.substring(7).equals("="))
                return 1.0;
            else 
                return 0.5;
        }
        else if(identifier1.substring(0, 5).equals(identifier2.substring(0, 5))){//在第四层相等 Da13A01=
            n = fourth_KeyWord_Depth_HashMap.get(identifier1.substring(0, 5));
            k = Integer.valueOf(identifier1.substring(5, 7)) - Integer.valueOf(identifier2.substring(5, 7));
            if(k < 0) k = -k;
            return Math.cos(n * Math.PI / 180) * ((double)(n - k + 1) / n) * d;
        }
        else if(identifier1.substring(0, 4).equals(identifier2.substring(0, 4))){//在第三层相等 Da13A01=
            n = third_KeyWord_Depth_HashMap.get(identifier1.substring(0, 4));
            k = identifier1.substring(4, 5).charAt(0) - identifier2.substring(4, 5).charAt(0);
            if(k < 0) k = -k;
            return Math.cos(n * Math.PI / 180) * ((double)(n - k + 1) / n) * c;
        }
        else if(identifier1.substring(0, 2).equals(identifier2.substring(0, 2))){//在第二层相等
            n = second_KeyWord_Depth_HashMap.get(identifier1.substring(0, 2));
            k = Integer.valueOf(identifier1.substring(2, 4)) - Integer.valueOf(identifier2.substring(2, 4));
            if(k < 0) k = -k;
            return Math.cos(n * Math.PI / 180) * ((double)(n - k + 1) / n) * b;
        }
        else if(identifier1.substring(0, 1).equals(identifier2.substring(0, 1))){//在第一层相等
            n = first_KeyWord_Depth_HashMap.get(identifier1.substring(0, 1));
            k = identifier1.substring(1, 2).charAt(0) - identifier2.substring(1, 2).charAt(0);
            if(k < 0) k = -k;
            return Math.cos(n * Math.PI / 180) * ((double)(n - k + 1) / n) * a;
        }
        
        return 0.1;
    }
    }
    
    //测试
    public class Test {
        public static void main(String args[]) {
            String word1 = "相似", word2 = "相像";
            double sim = 0;
            sim = CiLin.calcWordsSimilarity(word1, word2);//计算两个词的相似度
            System.out.println(word1 + "  " + word2 + "的相似度为：" + sim);
        }
    }

测试效果如下：

3.6 词向量模型(WordVector-Model)

3.6.1 词向量

词向量顾名思义，就是用一个向量的形式表示一个词。为什么这么做？自然语言理解问题转化为机器学习问题的第一步都是通过一种方法把这些符号数学化。词向量具有良好的语义特性，是表示词语特征的常用方式。词向量的每一维的值代表一个具有一定的语义和语法上解释的特征。

3.6.2 Word2vec

Word2vec是Google公司在2013年开放的一款用于训练词向量的软件工具。它根据给定的语料库，通过优化后的训练模型快速有效的将一个词语表达成向量形式，其核心架构包括CBOW和Skip-gram。Word2vec包含两种训练模型，分别是CBOW和Skip_gram(输入层、发射层、输出层)，如下图所示：

3.6.3 word2vec 训练词向量

    
    # coding:utf-8
    import sys
    reload(sys)
    sys.setdefaultencoding( "utf-8" )
    from gensim.models import Word2Vec
    import logging,gensim,os
     
    class TextLoader(object):
        def __init__(self):
            pass
     
        def __iter__(self):
            input = open('corpus-seg.txt','r')
            line = str(input.readline())
            counter = 0
            while line!=None and len(line) > 4:
                #print line
                segments = line.split(' ')
                yield  segments
                line = str(input.readline())
     
    sentences = TextLoader()
    model = gensim.models.Word2Vec(sentences, workers=8)
    model.save('word2vector2.model')
    print 'ok'

    
    # coding:utf-8
    import sys
    reload(sys)
    sys.setdefaultencoding( "utf-8" )
    from gensim.models import Word2Vec
    import logging,gensim,os
     
    #模型的加载
    model = Word2Vec.load('word2vector.model')
    #比较两个词语的相似度,越高越好
    print('"唐山" 和 "中国" 的相似度:'+ str(model.similarity('唐山','中国')))
    print('"中国" 和 "祖国" 的相似度:'+ str(model.similarity('祖国','中国')))
    print('"中国" 和 "中国" 的相似度:'+ str(model.similarity('中国','中国')))
    #使用一些词语来限定,分为正向和负向的
    result = model.most_similar(positive=['中国', '城市'], negative=['学生'])
    print('同"中国"与"城市"二词接近,但是与"学生"不接近的词有:')
    for item in result:
        print('   "'+item[0]+'"  相似度:'+str(item[1]))
     
    result = model.most_similar(positive=['男人','权利'], negative=['女人'])
    print('同"男人"和"权利"接近,但是与"女人"不接近的词有:')
    for item in result:
        print('   "'+item[0]+'"  相似度:'+str(item[1]))
     
    result = model.most_similar(positive=['女人','法律'], negative=['男人'])
    print('同"女人"和"法律"接近,但是与"男人"不接近的词有:')
    for item in result:
        print('   "'+item[0]+'"  相似度:'+str(item[1]))
    #从一堆词里面找到不匹配的
    print("老师 学生 上课 校长 , 有哪个是不匹配的? word2vec结果说是:"+model.doesnt_match("老师 学生 上课 校长".split()))
    print("汽车 火车 单车 相机 , 有哪个是不匹配的? word2vec结果说是:"+model.doesnt_match("汽车 火车 单车 相机".split()))
    print("大米 白色 蓝色 绿色 红色 , 有哪个是不匹配的? word2vec结果说是:"+model.doesnt_match("大米 白色 蓝色 绿色 红色 ".split()))
    #直接查看某个词的向量
    print('中国的特征向量是:')
    print(model['中国'])

效果如下:

免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
甘超波：NLP婚姻中如何与老人相处甘超波
哈喽，大家好我是甘超波，是一名NLP爱好者，每天一篇原创文章或视频，分享我的实战经验和案例，希望给你些启发和帮助看一下，在家庭中子女与老人观念不一致时案例1：在教育孩子方面，老人习惯用老一套教育方式教育孙子，子女受不了老人这种习惯，从而发生口舌之争？2：在生活习惯方面，老人喜欢吃剩菜剩饭，子女受不了老人这种习惯，从而发生口舌之争？.....这样的事情，我相信你或多或少都听过和看过，甚至了深有感悟。
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
《昇思 25 天学习打卡营第 25 天 | 基于 MindSpore 实现 BERT 对话情绪识别》 Sam9029 Mindscope模型学习深度学习
《昇思25天学习打卡营第25天|基于MindSpore实现BERT对话情绪识别》活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp签名：Sam9029环境配置确保安装了正确版本的MindSpore和MindNLP库。!pipuninstallmindspore-y!pipinstall-ihttps://pypi.mirror
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Linux如何查看端口 lanhuazui10 linux操作系统 linux
方法一：lsof-i:端口号用于查看某一端口的占用情况，比如查看9092端口使用情况，lsof-i:9095可以看到9095端口已经被nginx占用方法二：netstat-tunlp|grep端口号，用于查看指定的端口号的进程情况，如查看5050端口的情况，netstat-tunlp|grep5050-t(tcp)仅显示tcp相关选项-u(udp)仅显示udp相关选项-n拒绝显示别名，能显示数字的
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
【笔记与idea】——ACL2017论文报告会胖胖的飞象深度学习人工智能笔记 idea
这篇是2017年我有幸参加了中文信息学会组织的ACL2017论文报告会记的笔记，当时还是研一新生，对NLP感兴趣，偶然通过老师知晓了这次报告会，所以想去现场听听大牛们的idea、和大牛们交流（然而由于当时没有入门，啥也不懂，交流失败。。。）但是总的来说，非常感谢组织这次报告会的老师们，尽管没能和大牛们有效的交流，但是这次报告会相当于在最短的时间内读懂了数十篇精彩论文的核心内容，对我后面的学习起到了
如何利用AI技术来提升用户的个性化体验和社区参与度？ Itfuture03 AI前沿技术人工智能
要利用AI技术提升用户的个性化体验和社区参与度，可以采取以下几种策略：个性化推荐系统：通过AI算法分析用户的行为和偏好，提供定制化的服务和内容推荐，如智能推荐活动、健康管理等，让居民感受到社区的温暖和关怀。智能助手与聊天机器人：引入AI驱动的虚拟助手，提供实时帮助、个性化建议和交互式对话，改善客户体验。自然语言处理（NLP）：实现具有AI能力的NLP，创建对用户友好的应用程序，简化用户体验，如客服
【Python】成功解决IndexError: list index out of range 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决IndexError:listindexoutofrange下滑查看解决方法欢迎莅临我的个人主页这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地！博主简介：985高校的普通本硕，曾有幸发表过人工智能领域的中科院顶刊一作论文，熟练掌握PyTorch框架。技术专长：在CV、NLP及多模态等领域有丰富的项目实战经验。已累计一对一为数百位用户提供近千次专业服务，助力他们少走
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南快撑死的鱼 Python算法精解 python 人工智能开发语言
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南情感分析（SentimentAnalysis）是自然语言处理（NLP）领域中的一个重要分支，旨在从文本中识别出情绪、态度或意见等主观信息。在中文文本处理中，由于语言特性不同于英语，如何高效、准确地分词和提取关键词成为情感分析的关键步骤之一。在这篇文章中，我们将深入探讨如何使用Python和Jieba库进行中文情感分析，
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
第3篇：LangChain的架构总览与设计理念 Gemini技术窝 langchain 架构大数据人工智能 AIGC nlp
LangChain库是一个专为自然语言处理（NLP）设计的强大工具包，致力于简化复杂语言模型链的构建和执行。在本文中，我们将深入解析LangChain库的架构，详细列出其核心组件、设计理念及其在不同场景中的应用，并讨论其优缺点。文章目录1.LangChain库简介2.核心组件2.1数据输入模块作用2.2数据预处理模块作用2.3数据增强模块作用2.4数据加载与批处理模块作用2.5模型训练模块作用2.
读李中莹先生论“阿Q精神" 猫咪06
这阵子重读《重塑心灵》，对“阿Q精神"一段很有感慨，在我们从小的信念里，阿Q的精神胜利法是被贬低的，是对无能力改变自己的境遇时，似手只能采用自我安慰的人的讽刺。李中莹先生在他的书中结合对话者的认可，定义阿Q精神“只求精神胜利，罔顾真实情况"，他就针对这两句话，解析阿Q精神，并进行了肯定‘，。首先“精神胜利"指的是自己内心有成功的感觉，这很符合NLP!如果所有人都认为你成功，而你自己没有成功的喜悦，
书单用户5521
提高思维（13本）：影响力逻辑思维（理查德·尼斯贝特）离经叛道:不按常理出牌的人如何改变世界（只看最后一章总结即可）改变:问题形成和解决的原则语言的魔力:谈笑间转变信念之NLP技巧（意识到语言顺序的重要性）改变心理学的40项研究对伪心理学说不你的误区:如何摆脱负面思维掌控你的生活战胜拖拉你的灯亮着吗?别做正常的傻瓜学会提问:批判性思维指南不确定世界的理性选择小说（5本）：霍乱时期的爱情那些回不去的
【Python】解决AttributeError: ‘NoneType‘ object has no attribute ‘xxxx‘ 云天徽上 Pandas python 开发语言 pandas 机器学习 numpy
【Python】解决AttributeError:'NoneType'objecthasnoattribute'xxxx'报错欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是云天徽上，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其
【自然语言处理】自然语言处理NLP概述及应用 @我们的天空人工智能技术 nlp 人工智能深度学习 python 机器学习自然语言处理 scikit-learn
自然语言处理（NaturalLanguageProcessing，简称NLP）是一门集计算机科学、人工智能以及语言学于一体的交叉学科，致力于让计算机能够理解、解析、生成和处理人类的自然语言。它是人工智能领域的一个关键分支，旨在缩小人与机器之间的交流障碍，使得机器能够更有效地识别并响应人类的自然语言指令或内容。自然语言处理NLP概述基本任务：文本分类：将文本划分为预定义的类别，如情感分析、主题分类等
OPENAI中RAG实现原理以及示例代码用PYTHON来实现 dzend aigc python 开发语言 ai
OPENAI中RAG实现原理以及示例代码用PYTHON来实现1.引言在当今人工智能领域，自然语言处理（NLP）是一个非常重要的研究方向。近年来，OPENAI发布了许多创新的NLP模型，其中之一就是RAG（Retrieval-AugmentedGeneration）模型。RAG模型结合了检索和生成两种方法，可以用于生成与给定问题相关的高质量文本。本文将介绍RAG模型的实现原理，并提供使用Python
开源AI图像识别：支持扫描文件批量识别快速对接数据库存储思通数科x 人工智能计算机视觉图像处理 OCR 文本识别
随着数字化转型的不断深入，图像识别技术在各行各业中的应用越来越广泛。文件封识别作为图像识别技术的一个分支，能够有效地提高文件处理的自动化程度和准确性。本文将探讨文件封识别技术的原理、应用场景以及如何将识别后的内容批量对应数据库字段进行存储。开源项目介绍(可本地部署，支持国产化)思通数科研发了一款多模态AI能力引擎，专注于提供自然语言处理（NLP）、情感分析、实体识别、图像识别与分类、OCR识别和语
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo