qq_26562641

PrefixSpan序列模式挖掘算法

更多数据挖掘代码：https://github.com/linyiqun/DataMiningAlgorithm

介绍

与GSP一样，PrefixSpan算法也是序列模式分析算法的一种，不过与前者不同的是PrefixSpan算法不产生任何的侯选集，在这点上可以说已经比GSP好很多了。PrefixSpan算法可以挖掘出满足阈值的所有序列模式，可以说是非常经典的算法。序列的格式就是上文中提到过的类似于<a, b, （de)>这种的。

算法原理

PrefixSpan算法的原理是采用后缀序列转前缀序列的方式来构造频繁序列的。举个例子，

比如原始序列如上图所示，4条序列，1个序列中好几个项集，项集内有1个或多个元素，首先找出前缀为a的子序列，此时序列前缀为<a>,后缀就变为了：

"_"下标符代表前缀为a，说明是在项集中间匹配的。这就相当于从后缀序列中提取出1项加入到前缀序列中，变化的规则就是从左往右扫描，找到第1个此元素对应的项，然后做改变。然后根据此规则继续递归直到后续序列不满足最小支持度阈值的情况。所以此算法的难点就转变为了从后缀序列变为前缀序列的过程。在这个过程要分为2种情况，第1种是单个元素项的后缀提前，比如这里的a，对单个项的提前有分为几种情况，比如：

<b a c ad>，就会变为<c ad>，如果a是嵌套在项集中的情况<b c dad r>，就会变为< _d r>，_代表的就是a.如果a在一项的最末尾，此项也会被移除<b c dda r>变为<r>。但是如果是这种情况<_da d d>a包含在下标符中，将会做处理，应该此时的a是在前缀序列所属的项集内的。

还有1个大类的分类就是对于组合项的后缀提取，可以分为2个情况，1个是从_X中寻找，一个从后面找出连续的项集，比如在这里<a>的条件下，找出前缀<(ab)>的后缀序列

第一种在_X中寻找还有没有X=a的情况，因为_已经代表1个a了，还有一个是判断_X ！= _a的情况，从后面的项集中找到包含有连续的aa的那个项集，然后做变换处理，与单个项集的变换规则一致。

算法的递归顺序

想要实现整个的序列挖掘，算法的递归顺序就显得非常重要了。在探索递归顺序的路上还是犯了一些错误的，刚刚开始的递归顺序是<a>---><a a>----><a a a>，假设<a a a>找不到对应的后缀模式时，然后回溯到<a (aa)>进行递归，后来发现这样会漏掉情况，为什么呢，因为如果 <a a >没法进行到<a a a>，那么就不可能会有前缀<a (aa)>,顶多会判断到<(aa)>，从<a a>处回调的。于是我发现了这个问题，就变为了下面这个样子，经测试是对的。：

加入所有的单个元素的类似为a-f,顺序为

<a>，---><a a>.同时<(aa)>，然后<ab>同时<(ab)>，就是在a添加a-f的元素的时候，检验a所属项集添加a-f元素的情况。这样就不会漏掉情况了，用了2个递归搞定了这个问题。这个算法的整体实现可以对照代码来看会理解很多。最后提醒一点，在每次做出改变之后都会判断一下是否满足最小支持度阈值的。

PrefixSpan实例

这里举1个真实一点的例子，下面是输入的初始序列：

挖掘出的所有的序列模式为，下面是一个表格的形式

在<b>的序列模式中少了1个序列模式。可以与后面程序算法测试的结果做对比。

算法的代码实现

代码实现同样以这个为例子，这样会显得更有说服性。

测试数据：

[java]  view plain copy print ? 
     
    
 bd c b ac  
 bf ce b fg  
 ah bf a b f  
 be ce d  
 a bd b c b ade  

Sequence.java:

[java]  view plain copy print ? 
     
    
 package DataMining_PrefixSpan;  
   
 import java.util.ArrayList;  
   
 /** 
  * 序列类 
  *  
  * @author lyq 
  *  
  */  
 public class Sequence {  
     // 序列内的项集  
     private ArrayList<ItemSet> itemSetList;  
   
     public Sequence() {  
         this.itemSetList = new ArrayList<>();  
     }  
   
     public ArrayList<ItemSet> getItemSetList() {  
         return itemSetList;  
     }  
   
     public void setItemSetList(ArrayList<ItemSet> itemSetList) {  
         this.itemSetList = itemSetList;  
     }  
   
     /** 
      * 判断单一项是否包含于此序列 
      *  
      * @param c 
      *            待判断项 
      * @return 
      */  
     public boolean strIsContained(String c) {  
         boolean isContained = false;  
   
         for (ItemSet itemSet : itemSetList) {  
             isContained = false;  
   
             for (String s : itemSet.getItems()) {  
                 if (itemSet.getItems().contains("_")) {  
                     continue;  
                 }  
   
                 if (s.equals(c)) {  
                     isContained = true;  
                     break;  
                 }  
             }  
   
             if (isContained) {  
                 // 如果已经检测出包含了，直接挑出循环  
                 break;  
             }  
         }  
   
         return isContained;  
     }  
   
     /** 
      * 判断组合项集是否包含于序列中 
      *  
      * @param itemSet 
      *            组合的项集，元素超过1个 
      * @return 
      */  
     public boolean compoentItemIsContain(ItemSet itemSet) {  
         boolean isContained = false;  
         ArrayList<String> tempItems;  
         String lastItem = itemSet.getLastValue();  
   
         for (int i = 0; i < this.itemSetList.size(); i++) {  
             tempItems = this.itemSetList.get(i).getItems();  
             // 分2种情况查找，第一种从_X中找出x等于项集最后的元素，因为_前缀已经为原本的元素  
             if (tempItems.size() > 1 && tempItems.get(0).equals("_")  
                     && tempItems.get(1).equals(lastItem)) {  
                 isContained = true;  
                 break;  
             } else if (!tempItems.get(0).equals("_")) {  
                 // 从没有_前缀的项集开始寻找，第二种为从后面的后缀中找出直接找出连续字符为ab为同一项集的项集  
                 if (strArrayContains(tempItems, itemSet.getItems())) {  
                     isContained = true;  
                     break;  
                 }  
             }  
   
             if (isContained) {  
                 break;  
             }  
         }  
   
         return isContained;  
     }  
   
     /** 
      * 删除单个项 
      *  
      * @param s 
      *            待删除项 
      */  
     public void deleteSingleItem(String s) {  
         ArrayList<String> tempItems;  
         ArrayList<String> deleteItems = new ArrayList<>();  
   
         for (ItemSet itemSet : this.itemSetList) {  
             tempItems = itemSet.getItems();  
             deleteItems = new ArrayList<>();  
   
             for (int i = 0; i < tempItems.size(); i++) {  
                 if (tempItems.get(i).equals(s)) {  
                     deleteItems.add(tempItems.get(i));  
                 }  
             }  
   
             tempItems.removeAll(deleteItems);  
         }  
     }  
   
     /** 
      * 提取项s之后所得的序列 
      *  
      * @param s 
      *            目标提取项s 
      */  
     public Sequence extractItem(String s) {  
         Sequence extractSeq = this.copySeqence();  
         ItemSet itemSet;  
         ArrayList<String> items;  
         ArrayList<ItemSet> deleteItemSets = new ArrayList<>();  
         ArrayList<String> tempItems = new ArrayList<>();  
   
         for (int k = 0; k < extractSeq.itemSetList.size(); k++) {  
             itemSet = extractSeq.itemSetList.get(k);  
             items = itemSet.getItems();  
             if (items.size() == 1 && items.get(0).equals(s)) {  
                 //如果找到的是单项，则完全移除，跳出循环  
                 extractSeq.itemSetList.remove(k);  
                 break;  
             } else if (items.size() > 1 && !items.get(0).equals("_")) {  
                 //在后续的多元素项中判断是否包含此元素  
                 if (items.contains(s)) {  
                     //如果包含把s后面的元素加入到临时字符数组中  
                     int index = items.indexOf(s);  
                     for (int j = index; j < items.size(); j++) {  
                         tempItems.add(items.get(j));  
                     }  
                     //将第一位的s变成下标符"_"  
                     tempItems.set(0, "_");  
                     if (tempItems.size() == 1) {  
                         // 如果此匹配为在最末端，同样移除  
                         deleteItemSets.add(itemSet);  
                     } else {  
                         //将变化后的项集替换原来的  
                         extractSeq.itemSetList.set(k, new ItemSet(tempItems));  
                     }  
                     break;  
                 } else {  
                     deleteItemSets.add(itemSet);  
                 }  
             } else {  
                 // 不符合以上2项条件的统统移除  
                 deleteItemSets.add(itemSet);  
             }  
         }  
         extractSeq.itemSetList.removeAll(deleteItemSets);  
   
         return extractSeq;  
     }  
   
     /** 
      * 提取组合项之后的序列 
      *  
      * @param array 
      *            组合数组 
      * @return 
      */  
     public Sequence extractCompoentItem(ArrayList<String> array) {  
         // 找到目标项，是否立刻停止  
         boolean stopExtract = false;  
         Sequence seq = this.copySeqence();  
         String lastItem = array.get(array.size() - 1);  
         ArrayList<String> tempItems;  
         ArrayList<ItemSet> deleteItems = new ArrayList<>();  
   
         for (int i = 0; i < seq.itemSetList.size(); i++) {  
             if (stopExtract) {  
                 break;  
             }  
   
             tempItems = seq.itemSetList.get(i).getItems();  
             // 分2种情况查找，第一种从_X中找出x等于项集最后的元素，因为_前缀已经为原本的元素  
             if (tempItems.size() > 1 && tempItems.get(0).equals("_")  
                     && tempItems.get(1).equals(lastItem)) {  
                 if (tempItems.size() == 2) {  
                     seq.itemSetList.remove(i);  
                 } else {  
                     // 把1号位置变为下标符"_"，往后移1个字符的位置  
                     tempItems.set(1, "_");  
                     // 移除第一个的"_"下划符  
                     tempItems.remove(0);  
                 }  
                 stopExtract = true;  
                 break;  
             } else if (!tempItems.get(0).equals("_")) {  
                 // 从没有_前缀的项集开始寻找，第二种为从后面的后缀中找出直接找出连续字符为ab为同一项集的项集  
                 if (strArrayContains(tempItems, array)) {  
                     // 从左往右找出第一个给定字符的位置，把后面的部分截取出来  
                     int index = tempItems.indexOf(lastItem);  
                     ArrayList<String> array2 = new ArrayList<String>();  
   
                     for (int j = index; j < tempItems.size(); j++) {  
                         array2.add(tempItems.get(j));  
                     }  
                     array2.set(0, "_");  
   
                     if (array2.size() == 1) {  
                         //如果此项在末尾的位置，则移除该项，否则进行替换  
                         deleteItems.add(seq.itemSetList.get(i));  
                     } else {  
                         seq.itemSetList.set(i, new ItemSet(array2));  
                     }  
                     stopExtract = true;  
                     break;  
                 } else {  
                     deleteItems.add(seq.itemSetList.get(i));  
                 }  
             } else {  
                 // 这种情况是处理_X中X不等于最后一个元素的情况  
                 deleteItems.add(seq.itemSetList.get(i));  
             }  
         }  
           
         seq.itemSetList.removeAll(deleteItems);  
   
         return seq;  
     }  
   
     /** 
      * 深拷贝一个序列 
      *  
      * @return 
      */  
     public Sequence copySeqence() {  
         Sequence copySeq = new Sequence();  
         ItemSet tempItemSet;  
         ArrayList<String> items;  
   
         for (ItemSet itemSet : this.itemSetList) {  
             items = (ArrayList<String>) itemSet.getItems().clone();  
             tempItemSet = new ItemSet(items);  
             copySeq.getItemSetList().add(tempItemSet);  
         }  
   
         return copySeq;  
     }  
   
     /** 
      * 获取序列中最后一个项集的最后1个元素 
      *  
      * @return 
      */  
     public String getLastItemSetValue() {  
         int size = this.getItemSetList().size();  
         ItemSet itemSet = this.getItemSetList().get(size - 1);  
         size = itemSet.getItems().size();  
   
         return itemSet.getItems().get(size - 1);  
     }  
   
     /** 
      * 判断strList2是否是strList1的子序列 
      *  
      * @param strList1 
      * @param strList2 
      * @return 
      */  
     public boolean strArrayContains(ArrayList<String> strList1,  
             ArrayList<String> strList2) {  
         boolean isContained = false;  
   
         for (int i = 0; i < strList1.size() - strList2.size() + 1; i++) {  
             isContained = true;  
   
             for (int j = 0, k = i; j < strList2.size(); j++, k++) {  
                 if (!strList1.get(k).equals(strList2.get(j))) {  
                     isContained = false;  
                     break;  
                 }  
             }  
   
             if (isContained) {  
                 break;  
             }  
         }  
   
         return isContained;  
     }  
 }  

ItemSet.java：

[java]  view plain copy print ? 
     
    
 package DataMining_PrefixSpan;  
   
 import java.util.ArrayList;  
   
 /** 
  * 字符项集类 
  *  
  * @author lyq 
  *  
  */  
 public class ItemSet {  
     // 项集内的字符  
     private ArrayList<String> items;  
   
     public ItemSet(String[] str) {  
         items = new ArrayList<>();  
         for (String s : str) {  
             items.add(s);  
         }  
     }  
   
     public ItemSet(ArrayList<String> itemsList) {  
         this.items = itemsList;  
     }  
   
     public ItemSet(String s) {  
         items = new ArrayList<>();  
         for (int i = 0; i < s.length(); i++) {  
             items.add(s.charAt(i) + "");  
         }  
     }  
   
     public ArrayList<String> getItems() {  
         return items;  
     }  
   
     public void setItems(ArrayList<String> items) {  
         this.items = items;  
     }  
   
     /** 
      * 获取项集最后1个元素 
      *  
      * @return 
      */  
     public String getLastValue() {  
         int size = this.items.size();  
   
         return this.items.get(size - 1);  
     }  
 }  

PrefixSpanTool.java：

[java]  view plain copy print ? 
     
    
 package DataMining_PrefixSpan;  
   
 import java.io.BufferedReader;  
 import java.io.File;  
 import java.io.FileReader;  
 import java.io.IOException;  
 import java.util.ArrayList;  
 import java.util.Collections;  
 import java.util.HashMap;  
 import java.util.Map;  
   
 /** 
  * PrefixSpanTool序列模式分析算法工具类 
  *  
  * @author lyq 
  *  
  */  
 public class PrefixSpanTool {  
     // 测试数据文件地址  
     private String filePath;  
     // 最小支持度阈值比例  
     private double minSupportRate;  
     // 最小支持度，通过序列总数乘以阈值比例计算  
     private int minSupport;  
     // 原始序列组  
     private ArrayList<Sequence> totalSeqs;  
     // 挖掘出的所有序列频繁模式  
     private ArrayList<Sequence> totalFrequentSeqs;  
     // 所有的单一项，用于递归枚举  
     private ArrayList<String> singleItems;  
   
     public PrefixSpanTool(String filePath, double minSupportRate) {  
         this.filePath = filePath;  
         this.minSupportRate = minSupportRate;  
         readDataFile();  
     }  
   
     /** 
      * 从文件中读取数据 
      */  
     private void readDataFile() {  
         File file = new File(filePath);  
         ArrayList<String[]> dataArray = new ArrayList<String[]>();  
   
         try {  
             BufferedReader in = new BufferedReader(new FileReader(file));  
             String str;  
             String[] tempArray;  
             while ((str = in.readLine()) != null) {  
                 tempArray = str.split(" ");  
                 dataArray.add(tempArray);  
             }  
             in.close();  
         } catch (IOException e) {  
             e.getStackTrace();  
         }  
   
         minSupport = (int) (dataArray.size() * minSupportRate);  
         totalSeqs = new ArrayList<>();  
         totalFrequentSeqs = new ArrayList<>();  
         Sequence tempSeq;  
         ItemSet tempItemSet;  
         for (String[] str : dataArray) {  
             tempSeq = new Sequence();  
             for (String s : str) {  
                 tempItemSet = new ItemSet(s);  
                 tempSeq.getItemSetList().add(tempItemSet);  
             }  
             totalSeqs.add(tempSeq);  
         }  
   
         System.out.println("原始序列数据：");  
         outputSeqence(totalSeqs);  
     }  
   
     /** 
      * 输出序列列表内容 
      *  
      * @param seqList 
      *            待输出序列列表 
      */  
     private void outputSeqence(ArrayList<Sequence> seqList) {  
         for (Sequence seq : seqList) {  
             System.out.print("<");  
             for (ItemSet itemSet : seq.getItemSetList()) {  
                 if (itemSet.getItems().size() > 1) {  
                     System.out.print("(");  
                 }  
   
                 for (String s : itemSet.getItems()) {  
                     System.out.print(s + " ");  
                 }  
   
                 if (itemSet.getItems().size() > 1) {  
                     System.out.print(")");  
                 }  
             }  
             System.out.println(">");  
         }  
     }  
   
     /** 
      * 移除初始序列中不满足最小支持度阈值的单项 
      */  
     private void removeInitSeqsItem() {  
         int count = 0;  
         HashMap<String, Integer> itemMap = new HashMap<>();  
         singleItems = new ArrayList<>();  
   
         for (Sequence seq : totalSeqs) {  
             for (ItemSet itemSet : seq.getItemSetList()) {  
                 for (String s : itemSet.getItems()) {  
                     if (!itemMap.containsKey(s)) {  
                         itemMap.put(s, 1);  
                     }  
                 }  
             }  
         }  
   
         String key;  
         for (Map.Entry entry : itemMap.entrySet()) {  
             count = 0;  
             key = (String) entry.getKey();  
             for (Sequence seq : totalSeqs) {  
                 if (seq.strIsContained(key)) {  
                     count++;  
                 }  
             }  
   
             itemMap.put(key, count);  
   
         }  
   
         for (Map.Entry entry : itemMap.entrySet()) {  
             key = (String) entry.getKey();  
             count = (int) entry.getValue();  
   
             if (count < minSupport) {  
                 // 如果支持度阈值小于所得的最小支持度阈值，则删除该项  
                 for (Sequence seq : totalSeqs) {  
                     seq.deleteSingleItem(key);  
                 }  
             } else {  
                 singleItems.add(key);  
             }  
         }  
   
         Collections.sort(singleItems);  
     }  
   
     /** 
      * 递归搜索满足条件的序列模式 
      *  
      * @param beforeSeq 
      *            前缀序列 
      * @param afterSeqList 
      *            后缀序列列表 
      */  
     private void recursiveSearchSeqs(Sequence beforeSeq,  
             ArrayList<Sequence> afterSeqList) {  
         ItemSet tempItemSet;  
         Sequence tempSeq2;  
         Sequence tempSeq;  
         ArrayList<Sequence> tempSeqList = new ArrayList<>();  
   
         for (String s : singleItems) {  
             // 分成2种形式递归，以<a>为起始项，第一种直接加入独立项集遍历<a,a>,<a,b> <a,c>..  
             if (isLargerThanMinSupport(s, afterSeqList)) {  
                 tempSeq = beforeSeq.copySeqence();  
                 tempItemSet = new ItemSet(s);  
                 tempSeq.getItemSetList().add(tempItemSet);  
   
                 totalFrequentSeqs.add(tempSeq);  
   
                 tempSeqList = new ArrayList<>();  
                 for (Sequence seq : afterSeqList) {  
                     if (seq.strIsContained(s)) {  
                         tempSeq2 = seq.extractItem(s);  
                         tempSeqList.add(tempSeq2);  
                     }  
                 }  
   
                 recursiveSearchSeqs(tempSeq, tempSeqList);  
             }  
   
             // 第二种递归为以元素的身份加入最后的项集内以a为例<(aa)>,<(ab)>,<(ac)>...  
             // a在这里可以理解为一个前缀序列，里面可能是单个元素或者已经是多元素的项集  
             tempSeq = beforeSeq.copySeqence();  
             int size = tempSeq.getItemSetList().size();  
             tempItemSet = tempSeq.getItemSetList().get(size - 1);  
             tempItemSet.getItems().add(s);  
   
             if (isLargerThanMinSupport(tempItemSet, afterSeqList)) {  
                 tempSeqList = new ArrayList<>();  
                 for (Sequence seq : afterSeqList) {  
                     if (seq.compoentItemIsContain(tempItemSet)) {  
                         tempSeq2 = seq.extractCompoentItem(tempItemSet  
                                 .getItems());  
                         tempSeqList.add(tempSeq2);  
                     }  
                 }  
                 totalFrequentSeqs.add(tempSeq);  
   
                 recursiveSearchSeqs(tempSeq, tempSeqList);  
             }  
         }  
     }  
   
     /** 
      * 所传入的项组合在所给定序列中的支持度是否超过阈值 
      *  
      * @param s 
      *            所需匹配的项 
      * @param seqList 
      *            比较序列数据 
      * @return 
      */  
     private boolean isLargerThanMinSupport(String s, ArrayList<Sequence> seqList) {  
         boolean isLarge = false;  
         int count = 0;  
   
         for (Sequence seq : seqList) {  
             if (seq.strIsContained(s)) {  
                 count++;  
             }  
         }  
   
         if (count >= minSupport) {  
             isLarge = true;  
         }  
   
         return isLarge;  
     }  
   
     /** 
      * 所传入的组合项集在序列中的支持度是否大于阈值 
      *  
      * @param itemSet 
      *            组合元素项集 
      * @param seqList 
      *            比较的序列列表 
      * @return 
      */  
     private boolean isLargerThanMinSupport(ItemSet itemSet,  
             ArrayList<Sequence> seqList) {  
         boolean isLarge = false;  
         int count = 0;  
   
         if (seqList == null) {  
             return false;  
         }  
   
         for (Sequence seq : seqList) {  
             if (seq.compoentItemIsContain(itemSet)) {  
                 count++;  
             }  
         }  
   
         if (count >= minSupport) {  
             isLarge = true;  
         }  
   
         return isLarge;  
     }  
   
     /** 
      * 序列模式分析计算 
      */  
     public void prefixSpanCalculate() {  
         Sequence seq;  
         Sequence tempSeq;  
         ArrayList<Sequence> tempSeqList = new ArrayList<>();  
         ItemSet itemSet;  
         removeInitSeqsItem();  
   
         for (String s : singleItems) {  
             // 从最开始的a,b,d开始递归往下寻找频繁序列模式  
             seq = new Sequence();  
             itemSet = new ItemSet(s);  
             seq.getItemSetList().add(itemSet);  
   
             if (isLargerThanMinSupport(s, totalSeqs)) {  
                 tempSeqList = new ArrayList<>();  
                 for (Sequence s2 : totalSeqs) {  
                     // 判断单一项是否包含于在序列中，包含才进行提取操作  
                     if (s2.strIsContained(s)) {  
                         tempSeq = s2.extractItem(s);  
                         tempSeqList.add(tempSeq);  
                     }  
                 }  
   
                 totalFrequentSeqs.add(seq);  
                 recursiveSearchSeqs(seq, tempSeqList);  
             }  
         }  
   
         printTotalFreSeqs();  
     }  
   
     /** 
      * 按模式类别输出频繁序列模式 
      */  
     private void printTotalFreSeqs() {  
         System.out.println("序列模式挖掘结果：");  
           
         ArrayList<Sequence> seqList;  
         HashMap<String, ArrayList<Sequence>> seqMap = new HashMap<>();  
         for (String s : singleItems) {  
             seqList = new ArrayList<>();  
             for (Sequence seq : totalFrequentSeqs) {  
                 if (seq.getItemSetList().get(0).getItems().get(0).equals(s)) {  
                     seqList.add(seq);  
                 }  
             }  
             seqMap.put(s, seqList);  
         }  
   
         int count = 0;  
         for (String s : singleItems) {  
             count = 0;  
             System.out.println();  
             System.out.println();  
   
             seqList = (ArrayList<Sequence>) seqMap.get(s);  
             for (Sequence tempSeq : seqList) {  
                 count++;  
                 System.out.print("<");  
                 for (ItemSet itemSet : tempSeq.getItemSetList()) {  
                     if (itemSet.getItems().size() > 1) {  
                         System.out.print("(");  
                     }  
   
                     for (String str : itemSet.getItems()) {  
                         System.out.print(str + " ");  
                     }  
   
                     if (itemSet.getItems().size() > 1) {  
                         System.out.print(")");  
                     }  
                 }  
                 System.out.print(">, ");  
   
                 // 每5个序列换一行  
                 if (count == 5) {  
                     count = 0;  
                     System.out.println();  
                 }  
             }  
   
         }  
     }  
   
 }  

调用类Client.java:

[java]  view plain copy print ? 
     
    
 package DataMining_PrefixSpan;  
   
 /** 
  * PrefixSpan序列模式挖掘算法 
  * @author lyq 
  * 
  */  
 public class Client {  
     public static void main(String[] agrs){  
         String filePath = "C:\\Users\\lyq\\Desktop\\icon\\input.txt";  
         //最小支持度阈值率  
         double minSupportRate = 0.4;  
           
         PrefixSpanTool tool = new PrefixSpanTool(filePath, minSupportRate);  
         tool.prefixSpanCalculate();  
     }  
 }  

输出的结果：

[java]  view plain copy print ? 
     
    
 原始序列数据：  
 <(b d )c b (a c )>  
 <(b f )(c e )b (f g )>  
 <(a h )(b f )a b f >  
 <(b e )(c e )d >  
 <a (b d )b c b (a d e )>  
 序列模式挖掘结果：  
   
   
 <a >, <a a >, <a b >, <a b a >, <a b b >,   
   
   
 <b >, <b a >, <b b >, <b b a >, <b b c >,   
 <b b f >, <b c >, <b c a >, <b c b >, <b c b a >,   
 <b c d >, <b (c e )>, <b d >, <(b d )>, <(b d )a >,   
 <(b d )b >, <(b d )b a >, <(b d )b c >, <(b d )c >, <(b d )c a >,   
 <(b d )c b >, <(b d )c b a >, <b e >, <b f >, <(b f )>,   
 <(b f )b >, <(b f )b f >, <(b f )f >,   
   
 <c >, <c a >, <c b >, <c b a >, <c d >,   
 <(c e )>,   
   
 <d >, <d a >, <d b >, <d b a >, <d b c >,   
 <d c >, <d c a >, <d c b >, <d c b a >,   
   
 <e >,   
   
 <f >, <f b >, <f b f >, <f f >,   

经过比对，与上述表格中的结果完全一致，从结果中可以看出他的递归顺序正是刚刚我所想要的那种。

算法实现时的难点

我在实现这个算法时确实碰到了不少的问题，下面一一列举。

1、Sequence序列在判断或者提取单项和组合项的时候，情况少考虑了，还有考虑到了处理的方式又可能错了。

2、递归的顺序在最早的时候考虑错了，后来对递归的顺序进行了调整。

3、在算法的调试时遇到了，当发现某一项出现问题时，不能够立即调试，因为里面陷入的递归层次实在太深，只能自己先手算此情况下的前缀，后缀序列，然后自己模拟出1个Seq调试，在纠正extract方法时用的比较多。

我对PrefixSpan算法的理解

实现了这个算法之后，再回味这个算法，还是很奇妙的，一个序列，通过从左往右的扫描，通过各个项集的子集，能够组合出许许多多的的序列模式，然后进行挖掘，PrefixSpan通过递归的形式全部找出，而且效率非常高，的确是个很强大的算法。

PrefixSpan算法整体的特点

首先一点，他不会产生候选序列，在产生投影数据库的时候(也就是产生后缀子序列),他的规模是不断减小的。PrefixSpan采用分治法进行序列的挖掘，十分的高效。唯一比较会有影响的开销就是在构造后缀子序列的过程，专业上的名称叫做构造投影数据库的时候。

你可能感兴趣的:(PrefixSpan序列模式挖掘算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
直返APP是什么?直返APP是干嘛的氧惠帮朋友一起省
直返是一种电商购物模式，其核心特点是用户购买商品后可以获得直接返利。具体来说，用户在直返电商平台购买商品时，不仅可以获得商品本身的优惠，还可以获得一定的现金返利或者积分奖励。返利的金额可以提现到用户的账户余额，或者用于下次购物时抵扣。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万
直返的东西正品吗?直返APP安全吗?直返是正规平台吗? 氧惠购物达人
亲们，你们是不是经常在直返APP上买东西呀？但是，你们有没有想过，里面的东西到底是不是正品呢？这个APP安全吗？它是不是一个正规的平台呀？别着急，今天我就来给大家揭秘一下！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C