qq_26562641

倒排索引构建算法BSBI和SPIMI

参考文献：

http://www.cnblogs.com/fly1988happy/archive/2012/04/01/2429000.html

http://blog.csdn.net/v_july_v/article/details/7109500

我的数据挖掘算法：https://github.com/linyiqun/DataMiningAlgorithm
我的算法库：https://github.com/linyiqun/lyq-algorithms-lib

算法介绍

在信息搜索领域，构建索引一直是是一种非常有效的方式，但是当搜索引擎面对的是海量数据的时候，你如果要从茫茫人海的数据中去找出数据，显然这不是一个很好的办法。于是倒排索引这个概念就被提了出来。再说倒排索引概念之前，先要理解一下，一般的索引检索信息的方式。比如原始的数据源假设都是以文档的形式被分开，文档1拥有一段内容，文档2也富含一段内容，文档3同样如此。然后给定一个关键词，要搜索出与此关键词相关的文档，自然而然我们联想到的办法就是一个个文档的内容去比较，判断是否含有此关键词，如果含有则返回这个文档的索引地址，如果不是接着用后面的文档去比，这就有点类似于字符串的匹配类似。很显然，当数据量非常巨大的时候，这种方式并不适用。原来的这种方式可以理解为是索引-->关键词，而倒排索引的形式则是关键词--->索引位置，也就是说，给出一个关键词信息，我能立马根据倒排索引的信息得出他的位置。当然，这里说的是倒排索引最后要达到的效果，至于是用什么方式实现，就不止一种了，本文所述的就是其中比较出名的BSBI和SPIMI算法。

算法的原理

这里首先给出一个具体的实例来了解一般的构造过程，先避开具体的实现方式，给定下面一组词句。

Doc1：Mike spoken English Frequently at home.And he can write English every day.

Doc2:：Mike plays football very well.

首先我们必须知道，我们需要的是一些关键的信息，诸如一些修饰词等等都需要省略，动词的时态变化等都需要还原，如果代词指的是同个人也能够省略，于是上面的句子可以简化成

Doc1：Mike spoken English home.write English.

Doc2：Mike play football.

下面进行索引的倒排构建，因为Mike出现在文档1和文档2 中，所以Mike:{1, 2}后面的词的构造同样的道理。最后的关系就会构成词对应于索引位置的映射关系。理解了这个过程之后呢，可以介绍一下本文主要要说的BSBI(基于磁盘的外部排序构建索引)和SPIMI(内存单遍扫描构建索引)算法了，一般来说，后者比前者常用。

BSBI

此算法的主要步骤如下：

1、将文档中的词进行id的映射，这里可以用hash的方法去构造

2、将文档分割成大小相等的部分。

3、将每部分按照词ID对上文档ID的方式进行排序

4、将每部分排序好后的结果进行合并，最后写出到磁盘中。

5、然后递归的执行，直到文档内容全部完成这一系列操作。

这里有一张示意图:

在算法的过程中会用到读缓冲区和写缓冲区，至于期间的大小多少如何配置都是看个人的，我在后面的代码实现中也有进行设置。至于其中的排序算法的选择，一般建议使用效果比较好的快速排序算法，但是我在后面为了方便，直接用了自己更熟悉的冒泡排序算法，这个也看个人。

SPIMI

接下来说说SPIMI算法，就是内存单遍扫描算法，这个算法与上面的算法一上来就有直接不同的特点就是他无须做id的转换，还是采用了词对索引的直接关联。还有1个比较大的特点是他不经过排序，直接按照先后顺序构建索引，算法的主要步骤如下：

1、对每个块构造一个独立的倒排索引。

2、最后将所有独立的倒排索引进行合并就OK了。

本人为了方便就把这个算法的实现简洁化了，直接在内存中完成所有的构建工作。望读者稍加注意。SPIMI相对比较的简单，这里就不给出截图了。

算法的代码实现

首先是文档的输入数据，采用了2个一样的文档，我也是实在想不出有更好的测试数据了

doc1.txt:

[java]  view plain copy print ? 
     
    
 Mike studyed English hardly yesterday  
 He got the 100 at the last exam  
 He thinks English is very interesting  

doc2.txt:

[java]  view plain copy print ? 
     
    
 Mike studyed English hardly yesterday  
 He got the 100 at the last exam  
 He thinks English is very interesting  

下面是文档信息预处理类PreTreatTool.java:

[java]  view plain copy print ? 
     
    
 package InvertedIndex;  
   
 import java.io.BufferedReader;  
 import java.io.File;  
 import java.io.FileNotFoundException;  
 import java.io.FileOutputStream;  
 import java.io.FileReader;  
 import java.io.IOException;  
 import java.io.PrintStream;  
 import java.util.ArrayList;  
 import java.util.regex.Matcher;  
 import java.util.regex.Pattern;  
   
 /** 
  * 文档预处理工具类 
  *  
  * @author lyq 
  *  
  */  
 public class PreTreatTool {  
     // 一些无具体意义的过滤词  
     public static String[] FILTER_WORDS = new String[] { "at", "At", "The",  
             "the", "is", "very" };  
   
     // 批量文档的文件地址  
     private ArrayList<String> docFilePaths;  
     // 输出的有效词的存放路径  
     private ArrayList<String> effectWordPaths;  
   
     public PreTreatTool(ArrayList<String> docFilePaths) {  
         this.docFilePaths = docFilePaths;  
     }  
   
     /** 
      * 获取文档有效词文件路径 
      *  
      * @return 
      */  
     public ArrayList<String> getEFWPaths() {  
         return this.effectWordPaths;  
     }  
   
     /** 
      * 从文件中读取数据 
      *  
      * @param filePath 
      *            单个文件 
      */  
     private ArrayList<String> readDataFile(String filePath) {  
         File file = new File(filePath);  
         ArrayList<String[]> dataArray = new ArrayList<String[]>();  
         ArrayList<String> words = new ArrayList<>();  
   
         try {  
             BufferedReader in = new BufferedReader(new FileReader(file));  
             String str;  
             String[] tempArray;  
             while ((str = in.readLine()) != null) {  
                 tempArray = str.split(" ");  
                 dataArray.add(tempArray);  
             }  
             in.close();  
         } catch (IOException e) {  
             e.getStackTrace();  
         }  
   
         // 将每行词做拆分加入到总列表容器中  
         for (String[] array : dataArray) {  
             for (String word : array) {  
                 words.add(word);  
             }  
         }  
   
         return words;  
     }  
   
     /** 
      * 对文档内容词汇进行预处理 
      */  
     public void preTreatWords() {  
         String baseOutputPath = "";  
         int endPos = 0;  
         ArrayList<String> tempWords = null;  
         effectWordPaths = new ArrayList<>();  
   
         for (String filePath : docFilePaths) {  
             tempWords = readDataFile(filePath);  
             filterWords(tempWords, true);  
   
             // 重新组装出新的输出路径  
             endPos = filePath.lastIndexOf(".");  
             baseOutputPath = filePath.substring(0, endPos);  
   
             writeOutOperation(tempWords, baseOutputPath + "-efword.txt");  
             effectWordPaths.add(baseOutputPath + "-efword.txt");  
         }  
     }  
   
     /** 
      *  
      * 对文档中的词语进行过滤操作 
      *  
      * @param words 
      *            待处理文档词语 
      * @param canRepeated 
      *            有效词是否可以重复 
      */  
     private void filterWords(ArrayList<String> words, boolean canRepeated) {  
         boolean isFilterWord;  
         // 做形容词匹配  
         Pattern adjPattern;  
         // 做动词时态的匹配  
         Pattern formerPattern;  
         // 数字匹配  
         Pattern numberPattern;  
         Matcher adjMatcher;  
         Matcher formerMatcher;  
         Matcher numberMatcher;  
         ArrayList<String> deleteWords = new ArrayList<>();  
   
         adjPattern = Pattern.compile(".*(ly$|ful$|ing$)");  
         formerPattern = Pattern.compile(".*ed$");  
         numberPattern = Pattern.compile("[0-9]+(.[0-9]+)?");  
   
         String w;  
         for (int i = 0; i < words.size(); i++) {  
             w = words.get(i);  
             isFilterWord = false;  
   
             for (String fw : FILTER_WORDS) {  
                 if (fw.equals(w)) {  
                     deleteWords.add(w);  
                     isFilterWord = true;  
                     break;  
                 }  
             }  
   
             if (isFilterWord) {  
                 continue;  
             }  
   
             adjMatcher = adjPattern.matcher(w);  
             formerMatcher = formerPattern.matcher(w);  
             numberMatcher = numberPattern.matcher(w);  
   
             // 将词语统一小写字母化  
             w = w.toLowerCase();  
   
             // 如果是形容词,副词形式的或是纯数字的词，则进行过滤  
             if (adjMatcher.matches() || numberMatcher.matches()) {  
                 deleteWords.add(w);  
             } else if (formerMatcher.matches()) {  
                 // 如果是ed结尾表明是动词的在时态方面的变化，进行变化，转为原有动词的形式，截去最末尾2个额外添加的后缀词  
                 w = w.substring(0, w.length() - 2);  
             }  
               
             words.set(i, w);  
         }  
   
         // 进行无效词的过滤  
         words.removeAll(deleteWords);  
         deleteWords.clear();  
   
         String s1;  
         String s2;  
   
         // 进行词语的去重  
         for (int i = 0; i < words.size() - 1; i++) {  
             s1 = words.get(i);  
   
             for (int j = i + 1; j < words.size(); j++) {  
                 s2 = words.get(j);  
   
                 // 找到存在相同的词了，就挑出循环  
                 if (s1.equals(s2)) {  
                     deleteWords.add(s1);  
                     break;  
                 }  
             }  
         }  
   
         // 删除多余重复的词语  
         words.removeAll(deleteWords);  
         words.addAll(deleteWords);  
     }  
   
     /** 
      * 将数据写出到磁盘文件操作，如果文件已经存在，则在文件尾部进行内容追加 
      *  
      * @param buffer 
      *            当前写缓冲中的数据 
      * @param filePath 
      *            输出地址 
      */  
     private void writeOutOperation(ArrayList<String> buffer, String filePath) {  
         StringBuilder strBuilder = new StringBuilder();  
   
         // 将缓冲中的数据组成字符写入到文件中  
         for (String word : buffer) {  
             strBuilder.append(word);  
             strBuilder.append("\n");  
         }  
   
         try {  
             File file = new File(filePath);  
             PrintStream ps = new PrintStream(new FileOutputStream(file));  
             ps.print(strBuilder.toString());// 往文件里写入字符串  
         } catch (FileNotFoundException e) {  
             // TODO Auto-generated catch block  
             e.printStackTrace();  
         }  
     }  
   
 }  

文档类Document.java:

[java]  view plain copy print ? 
     
    
 package InvertedIndex;  
   
 import java.util.ArrayList;  
   
 /** 
  * 文档类 
  * @author lyq 
  * 
  */  
 public class Document {  
     //文档的唯一标识  
     int docId;  
     //文档的文件地址  
     String filePath;  
     //文档中的有效词  
     ArrayList<String> effectWords;  
       
     public Document(ArrayList<String> effectWords, String filePath){  
         this.effectWords = effectWords;  
         this.filePath = filePath;  
     }  
       
     public Document(ArrayList<String> effectWords, String filePath, int docId){  
         this(effectWords, filePath);  
         this.docId = docId;  
     }  
 }  

BSBI算法工具类BSBITool.java:

[java]  view plain copy print ? 
     
    
 package InvertedIndex;  
   
 import java.io.BufferedReader;  
 import java.io.File;  
 import java.io.FileNotFoundException;  
 import java.io.FileOutputStream;  
 import java.io.FileReader;  
 import java.io.IOException;  
 import java.io.PrintStream;  
 import java.util.ArrayList;  
 import java.util.HashMap;  
 import java.util.Map;  
   
 /** 
  * BSBI基于磁盘的外部排序算法 
  *  
  * @author lyq 
  *  
  */  
 public class BSBITool {  
     // 文档唯一标识ID  
     public static int DOC_ID = 0;  
   
     // 读缓冲区的大小  
     private int readBufferSize;  
     // 写缓冲区的大小  
     private int writeBufferSize;  
     // 读入的文档的有效词文件地址  
     private ArrayList<String> effectiveWordFiles;  
     // 倒排索引输出文件地址  
     private String outputFilePath;  
     // 读缓冲 1  
     private String[][] readBuffer1;  
     // 读缓冲2  
     private String[][] readBuffer2;  
     // 写缓冲区  
     private String[][] writeBuffer;  
     // 有效词与hashcode的映射  
     private Map<String, String> code2word;  
   
     public BSBITool(ArrayList<String> effectiveWordFiles, int readBufferSize,  
             int writeBufferSize) {  
         this.effectiveWordFiles = effectiveWordFiles;  
         this.readBufferSize = readBufferSize;  
         this.writeBufferSize = writeBufferSize;  
   
         initBuffers();  
     }  
   
     /** 
      * 初始化缓冲区的设置 
      */  
     private void initBuffers() {  
         readBuffer1 = new String[readBufferSize][2];  
         readBuffer2 = new String[readBufferSize][2];  
         writeBuffer = new String[writeBufferSize][2];  
     }  
   
     /** 
      * 从文件中读取有效词并进行编码替换 
      *  
      * @param filePath 
      *            返回文档 
      */  
     private Document readEffectWords(String filePath) {  
         long hashcode = 0;  
   
         String w;  
         Document document;  
         code2word = new HashMap<String, String>();  
         ArrayList<String> words;  
   
         words = readDataFile(filePath);  
   
         for (int i = 0; i < words.size(); i++) {  
             w = words.get(i);  
   
             hashcode = BKDRHash(w);  
             hashcode = hashcode % 10000;  
   
             // 将有效词的hashcode取模值作为对应的代表  
             code2word.put(hashcode + "", w);  
             w = hashcode + "";  
   
             words.set(i, w);  
         }  
   
         document = new Document(words, filePath, DOC_ID);  
         DOC_ID++;  
   
         return document;  
     }  
   
     /** 
      * 将字符做哈希值的转换 
      *  
      * @param str 
      *            待转换字符 
      * @return 
      */  
     private long BKDRHash(String str) {  
         int seed = 31; /* 31 131 1313 13131 131313 etc.. */  
         long hash = 0;  
         int i = 0;  
   
         for (i = 0; i < str.length(); i++) {  
             hash = (hash * seed) + (str.charAt(i));  
         }  
   
         return hash;  
   
     }  
   
     /** 
      * 根据输入的有效词输出倒排索引文件 
      */  
     public void outputInvertedFiles() {  
         int index = 0;  
         String baseFilePath = "";  
         outputFilePath = "";  
         Document doc;  
         ArrayList<String> tempPaths;  
         ArrayList<String[]> invertedData1;  
         ArrayList<String[]> invertedData2;  
   
         tempPaths = new ArrayList<>();  
         for (String filePath : effectiveWordFiles) {  
             doc = readEffectWords(filePath);  
             writeOutFile(doc);  
   
             index = doc.filePath.lastIndexOf(".");  
             baseFilePath = doc.filePath.substring(0, index);  
             writeOutOperation(writeBuffer, baseFilePath + "-temp.txt");  
   
             tempPaths.add(baseFilePath + "-temp.txt");  
         }  
   
         outputFilePath = baseFilePath + "-bsbi-inverted.txt";  
   
         // 将中间产生的倒排索引数据进行总的合并并输出到一个文件中  
         for (int i = 1; i < tempPaths.size(); i++) {  
             if (i == 1) {  
                 invertedData1 = readInvertedFile(tempPaths.get(0));  
             } else {  
                 invertedData1 = readInvertedFile(outputFilePath);  
             }  
   
             invertedData2 = readInvertedFile(tempPaths.get(i));  
   
             mergeInvertedData(invertedData1, invertedData2, false,  
                     outputFilePath);  
   
             writeOutOperation(writeBuffer, outputFilePath, false);  
         }  
     }  
   
     /** 
      * 将文档的最终的倒排索引结果写出到文件 
      *  
      * @param doc 
      *            待处理文档 
      */  
     private void writeOutFile(Document doc) {  
         // 在读缓冲区中是否需要再排序  
         boolean ifSort = true;  
         int index = 0;  
         String baseFilePath;  
         String[] temp;  
         ArrayList<String> tempWords = (ArrayList<String>) doc.effectWords  
                 .clone();  
         ArrayList<String[]> invertedData1;  
         ArrayList<String[]> invertedData2;  
   
         invertedData1 = new ArrayList<>();  
         invertedData2 = new ArrayList<>();  
   
         // 将文档的数据平均拆分成2份，用于读入后面的2个缓冲区中  
         for (int i = 0; i < tempWords.size() / 2; i++) {  
             temp = new String[2];  
             temp[0] = tempWords.get(i);  
             temp[1] = doc.docId + "";  
             invertedData1.add(temp);  
   
             temp = new String[2];  
             temp[0] = tempWords.get(i + tempWords.size() / 2);  
             temp[1] = doc.docId + "";  
             invertedData2.add(temp);  
         }  
   
         // 如果是奇数个，则将最后一个补入  
         if (tempWords.size() % 2 == 1) {  
             temp = new String[2];  
             temp[0] = tempWords.get(tempWords.size() - 1);  
             temp[1] = doc.docId + "";  
             invertedData2.add(temp);  
         }  
   
         index = doc.filePath.lastIndexOf(".");  
         baseFilePath = doc.filePath.substring(0, index);  
         mergeInvertedData(invertedData1, invertedData2, ifSort, baseFilePath  
                 + "-temp.txt");  
     }  
   
     /** 
      * 合并读缓冲区数据写到写缓冲区中，用到了归并排序算法 
      *  
      * @param outputPath 
      *            写缓冲区的写出的路径 
      */  
     private void mergeWordBuffers(String outputPath) {  
         int i = 0;  
         int j = 0;  
         int num1 = 0;  
         int num2 = 0;  
         // 写缓冲区下标  
         int writeIndex = 0;  
   
         while (readBuffer1[i][0] != null && readBuffer2[j][0] != null) {  
             num1 = Integer.parseInt(readBuffer1[i][0]);  
             num2 = Integer.parseInt(readBuffer2[j][0]);  
   
             // 如果缓冲1小，则优先存缓冲1到写缓冲区中  
             if (num1 < num2) {  
                 writeBuffer[writeIndex][0] = num1 + "";  
                 writeBuffer[writeIndex][1] = readBuffer1[i][1];  
   
                 i++;  
             } else if (num2 < num1) {  
                 writeBuffer[writeIndex][0] = num2 + "";  
                 writeBuffer[writeIndex][1] = readBuffer1[j][1];  
   
                 j++;  
             } else if (num1 == num2) {  
                 // 如果两个缓冲区中的数字一样，说明是同个有效词，先进行合并再写入  
                 writeBuffer[writeIndex][0] = num1 + "";  
                 writeBuffer[writeIndex][1] = readBuffer1[i][1] + ":"  
                         + readBuffer2[j][1];  
   
                 i++;  
                 j++;  
             }  
   
             // 写的指针往后挪一位  
             writeIndex++;  
   
             // 如果写满写缓冲区时，进行写出到文件操作  
             if (writeIndex >= writeBufferSize) {  
                 writeOutOperation(writeBuffer, outputPath);  
                 writeIndex = 0;  
             }  
         }  
   
         if (readBuffer1[i][0] == null) {  
             writeRemainReadBuffer(readBuffer2, j, outputPath);  
         }  
   
         if (readBuffer2[j][0] == null) {  
             writeRemainReadBuffer(readBuffer1, j, outputPath);  
         }  
     }  
   
     /** 
      * 将数据写出到磁盘文件操作，如果文件已经存在，则在文件尾部进行内容追加 
      *  
      * @param buffer 
      *            当前写缓冲中的数据 
      * @param filePath 
      *            输出地址 
      */  
     private void writeOutOperation(String[][] buffer, String filePath) {  
         String word;  
         StringBuilder strBuilder = new StringBuilder();  
   
         // 将缓冲中的数据组成字符写入到文件中  
         for (String[] array : buffer) {  
             if (array[0] == null) {  
                 continue;  
             }  
   
             word = array[0];  
   
             strBuilder.append(word);  
             strBuilder.append(" ");  
             strBuilder.append(array[1]);  
             strBuilder.append("\n");  
         }  
   
         try {  
             File file = new File(filePath);  
             PrintStream ps = new PrintStream(new FileOutputStream(file));  
             ps.print(strBuilder.toString());// 往文件里写入字符串  
         } catch (FileNotFoundException e) {  
             // TODO Auto-generated catch block  
             e.printStackTrace();  
         }  
     }  
       
     /** 
      * 将数据写出到磁盘文件操作，如果文件已经存在，则在文件尾部进行内容追加 
      *  
      * @param buffer 
      *            当前写缓冲中的数据 
      * @param filePath 
      *            输出地址 
      * @param isCoded 
      *            是否以编码的方式输出 
      */  
     private void writeOutOperation(String[][] buffer, String filePath, boolean isCoded) {  
         String word;  
         StringBuilder strBuilder = new StringBuilder();  
   
         // 将缓冲中的数据组成字符写入到文件中  
         for (String[] array : buffer) {  
             if (array[0] == null) {  
                 continue;  
             }  
   
             if(!isCoded){  
                 word = code2word.get(array[0]);  
             }else{  
                 word = array[0];  
             }  
   
             strBuilder.append(word);  
             strBuilder.append(" ");  
             strBuilder.append(array[1]);  
             strBuilder.append("\n");  
         }  
   
         try {  
             File file = new File(filePath);  
             PrintStream ps = new PrintStream(new FileOutputStream(file));  
             ps.print(strBuilder.toString());// 往文件里写入字符串  
         } catch (FileNotFoundException e) {  
             // TODO Auto-generated catch block  
             e.printStackTrace();  
         }  
     }  
   
     /** 
      * 将剩余的读缓冲区中的数据读入写缓冲区中 
      *  
      * @param remainBuffer 
      *            读缓冲区的剩余缓冲 
      * @param currentReadPos 
      *            当前的读取位置 
      * @param outputPath 
      *            写缓冲区的写出文件路径 
      */  
     private void writeRemainReadBuffer(String[][] remainBuffer,  
             int currentReadPos, String outputPath) {  
         while (remainBuffer[currentReadPos][0] != null  
                 && currentReadPos < readBufferSize) {  
             removeRBToWB(remainBuffer[currentReadPos]);  
   
             currentReadPos++;  
   
             // 如果写满写缓冲区时，进行写出到文件操作  
             if (writeBuffer[writeBufferSize - 1][0] != null) {  
                 writeOutOperation(writeBuffer, outputPath);  
             }  
         }  
   
     }  
   
     /** 
      * 将剩余读缓冲区中的数据通过插入排序的方式插入写缓冲区 
      *  
      * @param record 
      */  
     private void removeRBToWB(String[] record) {  
         int insertIndex = 0;  
         int endIndex = 0;  
         long num1;  
         long num2;  
         long code = Long.parseLong(record[0]);  
   
         // 如果写缓冲区目前为空，则直接加入  
         if (writeBuffer[0][0] == null) {  
             writeBuffer[0] = record;  
             return;  
         }  
   
         // 寻找待插入的位置  
         for (int i = 0; i < writeBufferSize - 1; i++) {  
             if (writeBuffer[i][0] == null) {  
                 endIndex = i;  
                 break;  
             }  
   
             num1 = Long.parseLong(writeBuffer[i][0]);  
   
             if (writeBuffer[i + 1][0] == null) {  
                 if (code > num1) {  
                     endIndex = i + 1;  
                     insertIndex = i + 1;  
                 }  
             } else {  
                 num2 = Long.parseLong(writeBuffer[i + 1][0]);  
   
                 if (code > num1 && code < num2) {  
                     insertIndex = i + 1;  
                 }  
             }  
         }  
   
         // 进行插入操作，相关数据进行位置迁移  
         for (int i = endIndex; i > insertIndex; i--) {  
             writeBuffer[i] = writeBuffer[i - 1];  
         }  
         writeBuffer[insertIndex] = record;  
     }  
   
     /** 
      * 将磁盘中的2个倒排索引数据进行合并 
      *  
      * @param invertedData1 
      *            倒排索引为文件数据1 
      * @param invertedData2 
      *            倒排索引文件数据2 
      * @param isSort 
      *            是否需要对缓冲区中的数据进行排序 
      * @param outputPath 
      *            倒排索引输出文件地址 
      */  
     private void mergeInvertedData(ArrayList<String[]> invertedData1,  
             ArrayList<String[]> invertedData2, boolean ifSort, String outputPath) {  
         int rIndex1 = 0;  
         int rIndex2 = 0;  
   
         // 重新初始化缓冲区  
         initBuffers();  
   
         while (invertedData1.size() > 0 && invertedData2.size() > 0) {  
             readBuffer1[rIndex1][0] = invertedData1.get(0)[0];  
             readBuffer1[rIndex1][1] = invertedData1.get(0)[1];  
   
             readBuffer2[rIndex2][0] = invertedData2.get(0)[0];  
             readBuffer2[rIndex2][1] = invertedData2.get(0)[1];  
   
             invertedData1.remove(0);  
             invertedData2.remove(0);  
             rIndex1++;  
             rIndex2++;  
   
             if (rIndex1 == readBufferSize) {  
                 if (ifSort) {  
                     wordBufferSort(readBuffer1);  
                     wordBufferSort(readBuffer2);  
                 }  
   
                 mergeWordBuffers(outputPath);  
                 initBuffers();  
             }  
         }  
   
         if (ifSort) {  
             wordBufferSort(readBuffer1);  
             wordBufferSort(readBuffer2);  
         }  
   
         mergeWordBuffers(outputPath);  
         readBuffer1 = new String[readBufferSize][2];  
         readBuffer2 = new String[readBufferSize][2];  
   
         if (invertedData1.size() == 0 && invertedData2.size() > 0) {  
             readRemainDataToRB(invertedData2, outputPath);  
         } else if (invertedData1.size() > 0 && invertedData2.size() == 0) {  
             readRemainDataToRB(invertedData1, outputPath);  
         }  
     }  
   
     /** 
      * 剩余的有效词数据读入读缓冲区 
      *  
      * @param remainData 
      *            剩余数据 
      * @param outputPath 
      *            输出文件路径 
      */  
     private void readRemainDataToRB(ArrayList<String[]> remainData,  
             String outputPath) {  
         int rIndex = 0;  
         while (remainData.size() > 0) {  
             readBuffer1[rIndex][0] = remainData.get(0)[0];  
             readBuffer1[rIndex][1] = remainData.get(0)[1];  
             remainData.remove(0);  
   
             rIndex++;  
   
             // 读缓冲 区写满，进行写入到写缓冲区中  
             if (readBuffer1[readBufferSize - 1][0] != null) {  
                 wordBufferSort(readBuffer1);  
   
                 writeRemainReadBuffer(readBuffer1, 0, outputPath);  
                 initBuffers();  
             }  
         }  
   
         wordBufferSort(readBuffer1);  
   
         writeRemainReadBuffer(readBuffer1, 0, outputPath);  
   
     }  
   
     /** 
      * 缓冲区数据进行排序 
      *  
      * @param buffer 
      *            缓冲空间 
      */  
     private void wordBufferSort(String[][] buffer) {  
         String[] temp;  
         int k = 0;  
   
         long num1 = 0;  
         long num2 = 0;  
         for (int i = 0; i < buffer.length - 1; i++) {  
             // 缓冲区可能没填满  
             if (buffer[i][0] == null) {  
                 continue;  
             }  
   
             k = i;  
             for (int j = i + 1; j < buffer.length; j++) {  
                 // 缓冲区可能没填满  
                 if (buffer[j][0] == null) {  
                     continue;  
                 }  
                 // 获取2个缓冲区小块的起始编号值  
                 num1 = Long.parseLong(buffer[k][0]);  
                 num2 = Long.parseLong(buffer[j][0]);  
   
                 if (num2 < num1) {  
                     k = j;  
                 }  
             }  
   
             if (k != i) {  
                 temp = buffer[k];  
                 buffer[k] = buffer[i];  
                 buffer[i] = temp;  
             }  
         }  
     }  
   
     /** 
      * 从文件中读取倒排索引数据 
      *  
      * @param filePath 
      *            单个文件 
      */  
     private ArrayList<String[]> readInvertedFile(String filePath) {  
         File file = new File(filePath);  
         ArrayList<String[]> dataArray = new ArrayList<String[]>();  
   
         try {  
             BufferedReader in = new BufferedReader(new FileReader(file));  
             String str;  
             String[] tempArray;  
             while ((str = in.readLine()) != null) {  
                 tempArray = str.split(" ");  
                 dataArray.add(tempArray);  
             }  
             in.close();  
         } catch (IOException e) {  
             e.getStackTrace();  
         }  
   
         return dataArray;  
     }  
   
     /** 
      * 从文件中读取数据 
      *  
      * @param filePath 
      *            单个文件 
      */  
     private ArrayList<String> readDataFile(String filePath) {  
         File file = new File(filePath);  
         ArrayList<String[]> dataArray = new ArrayList<String[]>();  
         ArrayList<String> words = new ArrayList<>();  
   
         try {  
             BufferedReader in = new BufferedReader(new FileReader(file));  
             String str;  
             String[] tempArray;  
             while ((str = in.readLine()) != null) {  
                 tempArray = str.split(" ");  
                 dataArray.add(tempArray);  
             }  
             in.close();  
         } catch (IOException e) {  
             e.getStackTrace();  
         }  
   
         // 将每行词做拆分加入到总列表容器中  
         for (String[] array : dataArray) {  
             for (String word : array) {  
                 if (!word.equals("")) {  
                     words.add(word);  
                 }  
             }  
         }  
   
         return words;  
     }  
 }  

SPIMI算法工具类SPIMITool.java:

[java]  view plain copy print ? 
     
    
 package InvertedIndex;  
   
 import java.io.BufferedReader;  
 import java.io.File;  
 import java.io.FileNotFoundException;  
 import java.io.FileOutputStream;  
 import java.io.FileReader;  
 import java.io.IOException;  
 import java.io.PrintStream;  
 import java.util.ArrayList;  
   
 /** 
  * SPIMI内存式单边扫描构建算法 
  * @author lyq 
  * 
  */  
 public class SPIMITool {  
     //倒排索引输出文件地址  
     private String outputFilePath;  
     // 读入的文档的有效词文件地址  
     private ArrayList<String> effectiveWordFiles;  
     // 内存缓冲区，不够还能够在增加空间  
     private ArrayList<String[]> buffers;  
       
     public SPIMITool(ArrayList<String> effectiveWordFiles){  
         this.effectiveWordFiles = effectiveWordFiles;  
     }  
       
     /** 
      * 从文件中读取数据 
      *  
      * @param filePath 
      *            单个文件 
      */  
     private ArrayList<String> readDataFile(String filePath) {  
         File file = new File(filePath);  
         ArrayList<String[]> dataArray = new ArrayList<String[]>();  
         ArrayList<String> words = new ArrayList<>();  
   
         try {  
             BufferedReader in = new BufferedReader(new FileReader(file));  
             String str;  
             String[] tempArray;  
             while ((str = in.readLine()) != null) {  
                 tempArray = str.split(" ");  
                 dataArray.add(tempArray);  
             }  
             in.close();  
         } catch (IOException e) {  
             e.getStackTrace();  
         }  
   
         // 将每行词做拆分加入到总列表容器中  
         for (String[] array : dataArray) {  
             for (String word : array) {  
                 words.add(word);  
             }  
         }  
   
         return words;  
     }  
    
       
     /** 
      * 根据已有的文档数据进行倒排索引文件的构建 
      * @param docs 
      * 文档集合 
      */  
     private void writeInvertedIndex(ArrayList<Document> docs){  
         ArrayList<String> datas;  
         String[] recordData;  
           
         buffers = new ArrayList<>();  
         for(Document tempDoc: docs){  
             datas = tempDoc.effectWords;  
               
             for(String word: datas){  
                 recordData = new String[2];  
                 recordData[0] = word;  
                 recordData[1] = tempDoc.docId + "";  
                   
                 addRecordToBuffer(recordData);  
             }  
         }  
           
         //最后将数据写出到磁盘中  
         writeOutOperation(buffers, outputFilePath);  
     }  
       
     /** 
      * 将新读入的数据记录读入到内存缓冲中，如果存在则加入到倒排记录表中 
      * @param insertedData 
      * 待插入的数据 
      */  
     private void addRecordToBuffer(String[] insertedData){  
         boolean isContained = false;  
         String wordName;  
           
         wordName = insertedData[0];  
         for(String[] array: buffers){  
             if(array[0].equals(wordName)){  
                 isContained = true;  
                 //添加倒排索引记录，以：隔开  
                 array[1] += ":" + insertedData[1];  
                   
                 break;  
             }  
         }  
           
         //如果没有包含，则说明是新的数据,直接添加  
         if(!isContained){  
             buffers.add(insertedData);  
         }  
     }  
       
     /** 
      * 将数据写出到磁盘文件操作，如果文件已经存在，则在文件尾部进行内容追加 
      * @param buffer 
      * 当前写缓冲中的数据 
      * @param filePath 
      * 输出地址 
      */  
     private void writeOutOperation(ArrayList<String[]> buffer, String filePath) {  
         StringBuilder strBuilder = new StringBuilder();  
           
         //将缓冲中的数据组成字符写入到文件中  
         for(String[] array: buffer){  
             strBuilder.append(array[0]);  
             strBuilder.append(" ");  
             strBuilder.append(array[1]);  
             strBuilder.append("\n");  
         }  
           
         try {  
             File file = new File(filePath);  
             PrintStream ps = new PrintStream(new FileOutputStream(file));  
             ps.println(strBuilder.toString());// 往文件里写入字符串  
         } catch (FileNotFoundException e) {  
             // TODO Auto-generated catch block  
             e.printStackTrace();  
         }  
     }  
       
     /** 
      * 构造倒排索引文件 
      */  
     public void createInvertedIndexFile(){  
         int docId = 1;  
         String baseFilePath;  
         String fileName;  
         String p;  
         int index1 = 0;  
         int index2 = 0;  
         Document tempDoc;  
         ArrayList<String> words;  
         ArrayList<Document> docs;  
           
         outputFilePath = "spimi";  
         docs = new ArrayList<>();  
         p = effectiveWordFiles.get(0);  
         //提取文件名称  
         index1 = p.lastIndexOf("\\");  
         baseFilePath = p.substring(0, index1+1);  
         outputFilePath = baseFilePath + "spimi";  
           
         for(String path: effectiveWordFiles){  
             //获取文档有效词  
             words = readDataFile(path);  
             tempDoc = new Document(words, path, docId);  
               
             docId++;  
             docs.add(tempDoc);  
               
             //提取文件名称  
             index1 = path.lastIndexOf("\\");  
             index2 = path.lastIndexOf(".");  
             fileName = path.substring(index1+1, index2);  
               
             outputFilePath += "-" + fileName;  
         }  
         outputFilePath += ".txt";  
           
         //根据文档数据进行倒排索引文件的创建  
         writeInvertedIndex(docs);  
     }  
   
 }  

算法测试类Client.java:

[java]  view plain copy print ? 
     
    
 package InvertedIndex;  
   
 import java.util.ArrayList;  
   
 /** 
  * 倒排索引测试类 
  * @author lyq 
  * 
  */  
 public class Client {  
     public static void main(String[] args){  
         //读写缓冲区的大小  
         int readBufferSize;  
         int writeBufferSize;  
         String baseFilePath;  
         PreTreatTool preTool;  
         //BSBI基于磁盘的外部排序算法  
         BSBITool bTool;  
         //SPIMI内存式单边扫描构建算法  
         SPIMITool sTool;  
         //有效词文件路径  
         ArrayList<String> efwFilePaths;  
         ArrayList<String> docFilePaths;  
           
         readBufferSize = 10;  
         writeBufferSize = 20;  
         baseFilePath = "C:\\Users\\lyq\\Desktop\\icon\\";  
         docFilePaths = new ArrayList<>();  
         docFilePaths.add(baseFilePath + "doc1.txt");  
         docFilePaths.add(baseFilePath + "doc2.txt");  
           
         //文档预处理工具类  
         preTool = new PreTreatTool(docFilePaths);  
         preTool.preTreatWords();  
           
         //预处理完获取有效词文件路径  
         efwFilePaths = preTool.getEFWPaths();  
         bTool = new BSBITool(efwFilePaths, readBufferSize, writeBufferSize);  
         bTool.outputInvertedFiles();  
           
         sTool = new SPIMITool(efwFilePaths);  
         sTool.createInvertedIndexFile();  
     }  
 }  

算法的输出：

为了模拟出真实性，算法的输出都是以文件的形式。

首先是预处理类处理之后的有效词文件doc1-efword.txt和doc2-efword.txt:

[java]  view plain copy print ? 
     
    
 mike  
 study  
 yesterday  
 got  
 last  
 exam  
 thinks  
 english  
 he  

可以看见，一些修饰词什么的已经被我过滤掉了。

下面是BSBI算法生成的中间文件，就是映射成编码的文件，也许你看了这些数值真实表示的是什么词语：

[java]  view plain copy print ? 
     
    
 1426 0  
 1542 0  
 2540 0  
 3056 0  
 3325 0  
 4326 0  
 4897 0  
 6329 0  
 7327 0  

还有文档2的临时文件：

[java]  view plain copy print ? 
     
    
 1426 1  
 1542 1  
 2540 1  
 3056 1  
 3325 1  
 4326 1  
 4897 1  
 6329 1  
 7327 1  

将这2个文档的信息进行合并最终输出的倒排索引文件为：

[java]  view plain copy print ? 
     
    
 yesterday 0:1  
 mike 0:1  
 got 0:1  
 english 0:1  
 he 0:1  
 last 0:1  
 thinks 0:1  
 study 0:1  
 exam 0:1  

同样的SPIMI算法输出的结果：

[java]  view plain copy print ? 
     
    
 mike 1:2  
 study 1:2  
 yesterday 1:2  
 got 1:2  
 last 1:2  
 exam 1:2  
 thinks 1:2  
 english 1:2  
 he 1:2  

算法小结

我在实现算法的过程中无疑低估了此算法的难度，尤其是BSBI的实现，因为中间读写缓冲区在做数据操作的时候，各种情况需要判断，诸如写缓冲区满了的时候要刷出到磁盘上，读缓冲区满的时候要通过归并排序移入读缓冲区中，这里面的判断实在过多，加上之前早期没有想到这个问题，导致算法可读性不是很好，就索性把缓冲区设大，先走通这个流程，所以这个算法大家还是以理解为主，就不要拿来实际运用了，同样对于SPIMI算法一样的道理，算法实现在这里帮助大家更好的理解吧，还有很多不足的地方。还有1点是文档内容预处理的时候，我只是象征性的进行过滤，真实的信息过滤实现复杂程度远远超过我所写的，这里包括了修饰词，时态词的变化，副词等等，这些有时还需要语义挖掘的一些知识来解决，大家意会即可。

你可能感兴趣的:(倒排索引构建算法BSBI和SPIMI)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l