逆向最长匹配算法的实现

   中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

       逆向最长匹配法是基于字符串匹配的一种分词算法,即按从右至左的顺序对句子循环扫描字符串,并与所提供的关键词表进行比较,如存在则提取出该串作为关键词。相比较正向最大匹配法,逆向匹配的分词精度略高于正向匹配。

     算法的程序实现核心代码如下:


  while (startIndex >= 0) { //循环取字符串
      str = title.substring(startIndex, endIndex); 
      for (int i = 0; i < str.length(); i++) {
          ss = title.substring(startIndex + i, endIndex);
          if (matchlist.contains(ss)
               && this.ifexit(words, ss, type)) { //去重
               if (type == TERM_TYPE) {
                    wdto = new WordModel();//dto封装了关键词及其权重
                    wdto.setWord(ss);
                    wdto.setValue(this.computeWithTfx(ss, title2));//计算权重
                    words.add(wdto);
                } else {
                 words.add(ss);//不需要计算权重则add字符串
                }
           title = title.substring(0, startIndex + i);
           if (title.length() > maxlength) {
               startIndex = title.length() - maxlength;
               endIndex = title.length();
           } else {
               startIndex = 0;
               endIndex = title.length();
           }
             break;
           }
           if (i == str.length() - 1) {//若匹配不成功则移位截取新串
               startIndex = startIndex - 1;
               endIndex = endIndex - 1;
           }
       }
  }
 

你可能感兴趣的:(自然语言处理,中文分词)