xinklabi

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

转自：http://yangshangchuan.iteye.com/blog/2056537（有代码可下载）

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

博客分类：

人工智能

word分词 word分词器 word分词组件 word分词库中文分词开源中文分词 Java中文分词

word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。

word分词器分词效果评估主要评估下面7种分词算法：

正向最大匹配算法：MaximumMatching
逆向最大匹配算法：ReverseMaximumMatching
正向最小匹配算法：MinimumMatching
逆向最小匹配算法：ReverseMinimumMatching
双向最大匹配算法：BidirectionalMaximumMatching
双向最小匹配算法：BidirectionalMinimumMatching
双向最大最小匹配算法：BidirectionalMaximumMinimumMatching

所有的双向算法都使用ngram来消歧，分词效果评估分别评估bigram和trigram。

评估采用的测试文本有253 3709行，共2837 4490个字符，标准文本和测试文本一行行对应，标准文本中的词以空格分隔，评估标准为严格一致，评估核心代码如下：

       Java代码   
       
     
/** 
 * 分词效果评估 
 * @param resultText 实际分词结果文件路径 
 * @param standardText 标准分词结果文件路径 
 * @return 评估结果 
 */  
public static EvaluationResult evaluation(String resultText, String standardText) {  
    int perfectLineCount=0;  
    int wrongLineCount=0;  
    int perfectCharCount=0;  
    int wrongCharCount=0;  
    try(BufferedReader resultReader = new BufferedReader(new InputStreamReader(new FileInputStream(resultText),"utf-8"));  
        BufferedReader standardReader = new BufferedReader(new InputStreamReader(new FileInputStream(standardText),"utf-8"))){  
        String result;  
        while( (result = resultReader.readLine()) != null ){  
            result = result.trim();  
            String standard = standardReader.readLine().trim();  
            if(result.equals("")){  
                continue;  
            }  
            if(result.equals(standard)){  
                //分词结果和标准一模一样  
                perfectLineCount++;  
                perfectCharCount+=standard.replaceAll("\\s+", "").length();  
            }else{  
                //分词结果和标准不一样  
                wrongLineCount++;  
                wrongCharCount+=standard.replaceAll("\\s+", "").length();  
            }  
        }  
    } catch (IOException ex) {  
        LOGGER.error("分词效果评估失败：", ex);  
    }  
    int totalLineCount = perfectLineCount+wrongLineCount;  
    int totalCharCount = perfectCharCount+wrongCharCount;  
    EvaluationResult er = new EvaluationResult();  
    er.setPerfectCharCount(perfectCharCount);  
    er.setPerfectLineCount(perfectLineCount);  
    er.setTotalCharCount(totalCharCount);  
    er.setTotalLineCount(totalLineCount);  
    er.setWrongCharCount(wrongCharCount);  
    er.setWrongLineCount(wrongLineCount);       
    return er;  
}  

       Java代码   
       
     
/** 
 * 中文分词效果评估结果 
 * @author 杨尚川 
 */  
public class EvaluationResult implements Comparable{  
    private int totalLineCount;  
    private int perfectLineCount;  
    private int wrongLineCount;  
    private int totalCharCount;  
    private int perfectCharCount;  
    private int wrongCharCount;  
  
      
    public float getLinePerfectRate(){  
        return perfectLineCount/(float)totalLineCount*100;  
    }  
    public float getLineWrongRate(){  
        return wrongLineCount/(float)totalLineCount*100;  
    }  
    public float getCharPerfectRate(){  
        return perfectCharCount/(float)totalCharCount*100;  
    }  
    public float getCharWrongRate(){  
        return wrongCharCount/(float)totalCharCount*100;  
    }  
    public int getTotalLineCount() {  
        return totalLineCount;  
    }  
    public void setTotalLineCount(int totalLineCount) {  
        this.totalLineCount = totalLineCount;  
    }  
    public int getPerfectLineCount() {  
        return perfectLineCount;  
    }  
    public void setPerfectLineCount(int perfectLineCount) {  
        this.perfectLineCount = perfectLineCount;  
    }  
    public int getWrongLineCount() {  
        return wrongLineCount;  
    }  
    public void setWrongLineCount(int wrongLineCount) {  
        this.wrongLineCount = wrongLineCount;  
    }  
    public int getTotalCharCount() {  
        return totalCharCount;  
    }  
    public void setTotalCharCount(int totalCharCount) {  
        this.totalCharCount = totalCharCount;  
    }  
    public int getPerfectCharCount() {  
        return perfectCharCount;  
    }  
    public void setPerfectCharCount(int perfectCharCount) {  
        this.perfectCharCount = perfectCharCount;  
    }  
    public int getWrongCharCount() {  
        return wrongCharCount;  
    }  
    public void setWrongCharCount(int wrongCharCount) {  
        this.wrongCharCount = wrongCharCount;  
    }  
    @Override  
    public String toString(){  
        return segmentationAlgorithm.name()+"（"+segmentationAlgorithm.getDes()+"）："  
                +"\n"  
                +"分词速度："+segSpeed+" 字符/毫秒"  
                +"\n"  
                +"行数完美率："+getLinePerfectRate()+"%"  
                +"  行数错误率："+getLineWrongRate()+"%"  
                +"  总的行数："+totalLineCount  
                +"  完美行数："+perfectLineCount  
                +"  错误行数："+wrongLineCount  
                +"\n"  
                +"字数完美率："+getCharPerfectRate()+"%"  
                +" 字数错误率："+getCharWrongRate()+"%"  
                +" 总的字数："+totalCharCount  
                +" 完美字数："+perfectCharCount  
                +" 错误字数："+wrongCharCount;  
    }  
    @Override  
    public int compareTo(Object o) {  
        EvaluationResult other = (EvaluationResult)o;  
        if(other.getLinePerfectRate() - getLinePerfectRate() > 0){  
            return 1;  
        }  
        if(other.getLinePerfectRate() - getLinePerfectRate() < 0){  
            return -1;  
        }  
        return 0;  
    }  
}  

word分词使用trigram评估结果：

       Java代码   
       
     
BidirectionalMaximumMinimumMatching（双向最大最小匹配算法）：  
分词速度：265.62566 字符/毫秒  
行数完美率：55.352688%  行数错误率：44.647312%  总的行数：2533709  完美行数：1402476  错误行数：1131233  
字数完美率：46.23227% 字数错误率：53.76773% 总的字数：28374490 完美字数：13118171 错误字数：15256319  
  
BidirectionalMaximumMatching（双向最大匹配算法）：  
分词速度：335.62155 字符/毫秒  
行数完美率：50.16934%  行数错误率：49.83066%  总的行数：2533709  完美行数：1271145  错误行数：1262564  
字数完美率：40.692997% 字数错误率：59.307003% 总的字数：28374490 完美字数：11546430 错误字数：16828060  
  
ReverseMaximumMatching（逆向最大匹配算法）：  
分词速度：686.71045 字符/毫秒  
行数完美率：46.723125%  行数错误率：53.27688%  总的行数：2533709  完美行数：1183828  错误行数：1349881  
字数完美率：36.67598% 字数错误率：63.32402% 总的字数：28374490 完美字数：10406622 错误字数：17967868  
  
MaximumMatching（正向最大匹配算法）：  
分词速度：733.9535 字符/毫秒  
行数完美率：46.661713%  行数错误率：53.338287%  总的行数：2533709  完美行数：1182272  错误行数：1351437  
字数完美率：36.72861% 字数错误率：63.271393% 总的字数：28374490 完美字数：10421556 错误字数：17952934  
  
BidirectionalMinimumMatching（双向最小匹配算法）：  
分词速度：432.87375 字符/毫秒  
行数完美率：45.863907%  行数错误率：54.136093%  总的行数：2533709  完美行数：1162058  错误行数：1371651  
字数完美率：35.942123% 字数错误率：64.05788% 总的字数：28374490 完美字数：10198395 错误字数：18176095  
  
ReverseMinimumMatching（逆向最小匹配算法）：  
分词速度：1033.58636 字符/毫秒  
行数完美率：41.776066%  行数错误率：58.223934%  总的行数：2533709  完美行数：1058484  错误行数：1475225  
字数完美率：31.678978% 字数错误率：68.32102% 总的字数：28374490 完美字数：8988748 错误字数：19385742  
  
MinimumMatching（正向最小匹配算法）：  
分词速度：1175.4431 字符/毫秒  
行数完美率：36.853836%  行数错误率：63.146164%  总的行数：2533709  完美行数：933769  错误行数：1599940  
字数完美率：26.859812% 字数错误率：73.14019% 总的字数：28374490 完美字数：7621334 错误字数：20753156  

word分词使用bigram评估结果：

       Java代码   
       
     
BidirectionalMaximumMinimumMatching（双向最大最小匹配算法）：  
分词速度：233.49121 字符/毫秒  
行数完美率：55.31531%  行数错误率：44.68469%  总的行数：2533709  完美行数：1401529  错误行数：1132180  
字数完美率：45.834396% 字数错误率：54.165604% 总的字数：28374490 完美字数：13005277 错误字数：15369213  
  
BidirectionalMaximumMatching（双向最大匹配算法）：  
分词速度：303.59401 字符/毫秒  
行数完美率：52.007233%  行数错误率：47.992767%  总的行数：2533709  完美行数：1317712  错误行数：1215997  
字数完美率：42.424194% 字数错误率：57.575806% 总的字数：28374490 完美字数：12037649 错误字数：16336841  
  
BidirectionalMinimumMatching（双向最小匹配算法）：  
分词速度：349.67215 字符/毫秒  
行数完美率：46.766422%  行数错误率：53.23358%  总的行数：2533709  完美行数：1184925  错误行数：1348784  
字数完美率：36.52718% 字数错误率：63.47282% 总的字数：28374490 完美字数：10364401 错误字数：18010089  
  
ReverseMaximumMatching（逆向最大匹配算法）：  
分词速度：598.04272 字符/毫秒  
行数完美率：46.723125%  行数错误率：53.27688%  总的行数：2533709  完美行数：1183828  错误行数：1349881  
字数完美率：36.67598% 字数错误率：63.32402% 总的字数：28374490 完美字数：10406622 错误字数：17967868  
  
MaximumMatching（正向最大匹配算法）：  
分词速度：676.7993 字符/毫秒  
行数完美率：46.661713%  行数错误率：53.338287%  总的行数：2533709  完美行数：1182272  错误行数：1351437  
字数完美率：36.72861% 字数错误率：63.271393% 总的字数：28374490 完美字数：10421556 错误字数：17952934  
  
ReverseMinimumMatching（逆向最小匹配算法）：  
分词速度：806.9586 字符/毫秒  
行数完美率：41.776066%  行数错误率：58.223934%  总的行数：2533709  完美行数：1058484  错误行数：1475225  
字数完美率：31.678978% 字数错误率：68.32102% 总的字数：28374490 完美字数：8988748 错误字数：19385742  
  
MinimumMatching（正向最小匹配算法）：  
分词速度：1020.9208 字符/毫秒  
行数完美率：36.853836%  行数错误率：63.146164%  总的行数：2533709  完美行数：933769  错误行数：1599940  
字数完美率：26.859812% 字数错误率：73.14019% 总的字数：28374490 完美字数：7621334 错误字数：20753156  

Ansj0.9的评估结果如下：

       Java代码   
       
     
Ansj ToAnalysis 精准分词：  
分词速度：495.9188 字符/毫秒  
行数完美率：58.609295%  行数错误率：41.390705%  总的行数：2533709  完美行数：1484989  错误行数：1048720  
字数完美率：50.97614%   字数错误率：49.023857%  总的字数：28374490 完美字数：14464220 错误字数：13910270  
  
Ansj NlpAnalysis NLP分词：  
分词速度：350.7527 字符/毫秒  
行数完美率：58.60353%  行数错误率：41.396465%  总的行数：2533709  完美行数：1484843  错误行数：1048866  
字数完美率：50.75546%  字数错误率：49.244545%  总的字数：28374490 完美字数：14401602 错误字数：13972888  
  
Ansj BaseAnalysis 基本分词：  
分词速度：532.65424 字符/毫秒  
行数完美率：54.028584%  行数错误率：45.97142%  总的行数：2533709  完美行数：1368927  错误行数：1164782  
字数完美率：46.84512%   字数错误率：53.15488%  总的字数：28374490 完美字数：13292064 错误字数：15082426  
  
Ansj IndexAnalysis 面向索引的分词：  
分词速度：564.6103 字符/毫秒  
行数完美率：53.510803%  行数错误率：46.489197%  总的行数：2533709  完美行数：1355808  错误行数：1177901  
字数完美率：46.355087%  字数错误率：53.644913%  总的字数：28374490 完美字数：13153019 错误字数：15221471  

Ansj1.4的评估结果如下：

       Java代码   
       
     
Ansj ToAnalysis 精准分词：  
分词速度：581.7306 字符/毫秒  
行数完美率：58.60302%  行数错误率：41.39698%  总的行数：2533709  完美行数：1484830  错误行数：1048879  
字数完美率：50.968987% 字数错误率：49.031013% 总的字数：28374490 完美字数：14462190 错误字数：13912300  
  
Ansj NlpAnalysis NLP分词：  
分词速度：138.81165 字符/毫秒  
行数完美率：58.1515%  行数错误率：41.8485%  总的行数：2533687  完美行数：1473377  错误行数：1060310  
字数完美率：49.806484% 字数错误率：50.19352% 总的字数：28374398 完美字数：14132290 错误字数：14242108  
  
Ansj BaseAnalysis 基本分词：  
分词速度：627.68475 字符/毫秒  
行数完美率：55.3174%  行数错误率：44.6826%  总的行数：2533709  完美行数：1401582  错误行数：1132127  
字数完美率：48.177986% 字数错误率：51.822014% 总的字数：28374490 完美字数：13670258 错误字数：14704232  
  
Ansj IndexAnalysis 面向索引的分词：  
分词速度：715.55176 字符/毫秒  
行数完美率：50.89444%  行数错误率：49.10556%  总的行数：2533709  完美行数：1289517  错误行数：1244192  
字数完美率：42.965115% 字数错误率：57.034885% 总的字数：28374490 完美字数：12191132 错误字数：16183358  

Ansj分词评估程序如下：

       Java代码   
       
     
import java.io.BufferedReader;  
import java.io.BufferedWriter;  
import java.io.FileInputStream;  
import java.io.FileOutputStream;  
import java.io.IOException;  
import java.io.InputStreamReader;  
import java.io.OutputStreamWriter;  
import java.nio.file.Files;  
import java.nio.file.Paths;  
import java.util.ArrayList;  
import java.util.Collections;  
import java.util.List;  
import org.ansj.domain.Term;  
import org.ansj.splitWord.analysis.BaseAnalysis;  
import org.ansj.splitWord.analysis.IndexAnalysis;  
import org.ansj.splitWord.analysis.NlpAnalysis;  
import org.ansj.splitWord.analysis.ToAnalysis;  
  
/** 
 * Ansj分词器分词效果评估 
 * @author 杨尚川 
 */  
public class AnsjEvaluation {  
  
    public static void main(String[] args) throws Exception{  
        // 测试文件 d:/test-text.txt 和 标准分词结果文件 d:/standard-text.txt 的下载地址：  
        // http://pan.baidu.com/s/1hqihzjY  
          
        List<EvaluationResult> list = new ArrayList<>();  
        // 对文本进行分词  
        float rate = seg("d:/test-text.txt", "d:/result-text-BaseAnalysis.txt", "BaseAnalysis");  
        // 对分词结果进行评估  
        EvaluationResult result = evaluation("d:/result-text-BaseAnalysis.txt", "d:/standard-text.txt");  
        result.setAnalyzer("Ansj BaseAnalysis 基本分词");  
        result.setSegSpeed(rate);  
        list.add(result);  
          
        // 对文本进行分词  
        rate = seg("d:/test-text.txt", "d:/result-text-ToAnalysis.txt", "ToAnalysis");  
        // 对分词结果进行评估  
        result = evaluation("d:/result-text-ToAnalysis.txt", "d:/standard-text.txt");  
        result.setAnalyzer("Ansj ToAnalysis 精准分词");  
        result.setSegSpeed(rate);  
        list.add(result);  
          
        // 对文本进行分词  
        rate = seg("d:/test-text.txt", "d:/result-text-NlpAnalysis.txt", "NlpAnalysis");  
        // 对分词结果进行评估  
        result = evaluation("d:/result-text-NlpAnalysis.txt", "d:/standard-text.txt");  
        result.setAnalyzer("Ansj NlpAnalysis NLP分词");  
        result.setSegSpeed(rate);  
        list.add(result);  
          
        // 对文本进行分词  
        rate = seg("d:/test-text.txt", "d:/result-text-IndexAnalysis.txt", "IndexAnalysis");  
        // 对分词结果进行评估  
        result = evaluation("d:/result-text-IndexAnalysis.txt", "d:/standard-text.txt");  
        result.setAnalyzer("Ansj IndexAnalysis 面向索引的分词");  
        result.setSegSpeed(rate);  
        list.add(result);  
          
        //输出评估结果  
        Collections.sort(list);  
        System.out.println("");  
        for(EvaluationResult r : list){  
            System.out.println(r+"\n");  
        }  
    }  
    private static float seg(final String input, final String output, final String type) throws Exception{  
        float rate = 0;  
        try(BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(input),"utf-8"));  
                BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(output),"utf-8"))){  
            long size = Files.size(Paths.get(input));  
            System.out.println("size:"+size);  
            System.out.println("文件大小："+(float)size/1024/1024+" MB");  
            int textLength=0;  
            int progress=0;  
            long start = System.currentTimeMillis();  
            String line = null;  
            while((line = reader.readLine()) != null){  
                if("".equals(line.trim())){  
                    writer.write("\n");  
                    continue;  
                }  
                textLength += line.length();  
                switch(type){  
                    case "BaseAnalysis":  
                        for(Term term : BaseAnalysis.parse(line)){  
                            writer.write(term.getName()+" ");  
                        }  
                        break;  
                    case "ToAnalysis":  
                        for(Term term : ToAnalysis.parse(line)){  
                            writer.write(term.getName()+" ");  
                        }  
                        break;  
                    case "NlpAnalysis":  
                        try{  
                            for(Term term : NlpAnalysis.parse(line)){  
                                writer.write(term.getName()+" ");  
                            }  
                        }catch(Exception e){}  
                        break;  
                    case "IndexAnalysis":  
                        for(Term term : IndexAnalysis.parse(line)){  
                            writer.write(term.getName()+" ");  
                        }  
                        break;  
                }                  
                writer.write("\n");  
                progress += line.length();  
                if( progress > 500000){  
                    progress = 0;  
                    System.out.println("分词进度："+(int)(textLength*2.99/size*100)+"%");  
                }  
            }  
            long cost = System.currentTimeMillis() - start;  
            rate = textLength/(float)cost;  
            System.out.println("字符数目："+textLength);  
            System.out.println("分词耗时："+cost+" 毫秒");  
            System.out.println("分词速度："+rate+" 字符/毫秒");  
        }  
        return rate;  
    }  
    /** 
     * 分词效果评估 
     * @param resultText 实际分词结果文件路径 
     * @param standardText 标准分词结果文件路径 
     * @return 评估结果 
     */  
    private static EvaluationResult evaluation(String resultText, String standardText) {  
        int perfectLineCount=0;  
        int wrongLineCount=0;  
        int perfectCharCount=0;  
        int wrongCharCount=0;  
        try(BufferedReader resultReader = new BufferedReader(new InputStreamReader(new FileInputStream(resultText),"utf-8"));  
            BufferedReader standardReader = new BufferedReader(new InputStreamReader(new FileInputStream(standardText),"utf-8"))){  
            String result;  
            while( (result = resultReader.readLine()) != null ){  
                result = result.trim();  
                String standard = standardReader.readLine().trim();  
                if(result.equals("")){  
                    continue;  
                }  
                if(result.equals(standard)){  
                    //分词结果和标准一模一样  
                    perfectLineCount++;  
                    perfectCharCount+=standard.replaceAll("\\s+", "").length();  
                }else{  
                    //分词结果和标准不一样  
                    wrongLineCount++;  
                    wrongCharCount+=standard.replaceAll("\\s+", "").length();  
                }  
            }  
        } catch (IOException ex) {  
            System.err.println("分词效果评估失败：" + ex.getMessage());  
        }  
        int totalLineCount = perfectLineCount+wrongLineCount;  
        int totalCharCount = perfectCharCount+wrongCharCount;  
        EvaluationResult er = new EvaluationResult();  
        er.setPerfectCharCount(perfectCharCount);  
        er.setPerfectLineCount(perfectLineCount);  
        er.setTotalCharCount(totalCharCount);  
        er.setTotalLineCount(totalLineCount);  
        er.setWrongCharCount(wrongCharCount);  
        er.setWrongLineCount(wrongLineCount);       
        return er;  
    }  
    /** 
     * 分词结果 
     */  
    private static class EvaluationResult implements Comparable{  
        private String analyzer;  
        private float segSpeed;  
        private int totalLineCount;  
        private int perfectLineCount;  
        private int wrongLineCount;  
        private int totalCharCount;  
        private int perfectCharCount;  
        private int wrongCharCount;  
  
        public String getAnalyzer() {  
            return analyzer;  
        }  
        public void setAnalyzer(String analyzer) {  
            this.analyzer = analyzer;  
        }  
        public float getSegSpeed() {  
            return segSpeed;  
        }  
        public void setSegSpeed(float segSpeed) {  
            this.segSpeed = segSpeed;  
        }  
        public float getLinePerfectRate(){  
            return perfectLineCount/(float)totalLineCount*100;  
        }  
        public float getLineWrongRate(){  
            return wrongLineCount/(float)totalLineCount*100;  
        }  
        public float getCharPerfectRate(){  
            return perfectCharCount/(float)totalCharCount*100;  
        }  
        public float getCharWrongRate(){  
            return wrongCharCount/(float)totalCharCount*100;  
        }  
        public int getTotalLineCount() {  
            return totalLineCount;  
        }  
        public void setTotalLineCount(int totalLineCount) {  
            this.totalLineCount = totalLineCount;  
        }  
        public int getPerfectLineCount() {  
            return perfectLineCount;  
        }  
        public void setPerfectLineCount(int perfectLineCount) {  
            this.perfectLineCount = perfectLineCount;  
        }  
        public int getWrongLineCount() {  
            return wrongLineCount;  
        }  
        public void setWrongLineCount(int wrongLineCount) {  
            this.wrongLineCount = wrongLineCount;  
        }  
        public int getTotalCharCount() {  
            return totalCharCount;  
        }  
        public void setTotalCharCount(int totalCharCount) {  
            this.totalCharCount = totalCharCount;  
        }  
        public int getPerfectCharCount() {  
            return perfectCharCount;  
        }  
        public void setPerfectCharCount(int perfectCharCount) {  
            this.perfectCharCount = perfectCharCount;  
        }  
        public int getWrongCharCount() {  
            return wrongCharCount;  
        }  
        public void setWrongCharCount(int wrongCharCount) {  
            this.wrongCharCount = wrongCharCount;  
        }  
        @Override  
        public String toString(){  
            return analyzer+"："  
                    +"\n"  
                    +"分词速度："+segSpeed+" 字符/毫秒"  
                    +"\n"  
                    +"行数完美率："+getLinePerfectRate()+"%"  
                    +"  行数错误率："+getLineWrongRate()+"%"  
                    +"  总的行数："+totalLineCount  
                    +"  完美行数："+perfectLineCount  
                    +"  错误行数："+wrongLineCount  
                    +"\n"  
                    +"字数完美率："+getCharPerfectRate()+"%"  
                    +" 字数错误率："+getCharWrongRate()+"%"  
                    +" 总的字数："+totalCharCount  
                    +" 完美字数："+perfectCharCount  
                    +" 错误字数："+wrongCharCount;  
        }  
        @Override  
        public int compareTo(Object o) {  
            EvaluationResult other = (EvaluationResult)o;  
            if(other.getLinePerfectRate() - getLinePerfectRate() > 0){  
                return 1;  
            }  
            if(other.getLinePerfectRate() - getLinePerfectRate() < 0){  
                return -1;  
            }  
            return 0;  
        }  
    }  
}  

MMSeg4j1.9.1的评估结果如下：

       Java代码   
       
     
MMSeg4j ComplexSeg：  
分词速度：794.24805 字符/毫秒  
行数完美率：38.817604%  行数错误率：61.182396%  总的行数：2533688  完美行数：983517  错误行数：1550171  
字数完美率：29.604435% 字数错误率：70.39557% 总的字数：28374428 完美字数：8400089 错误字数：19974339  
  
MMSeg4j SimpleSeg：  
分词速度：1026.1058 字符/毫秒  
行数完美率：37.570095%  行数错误率：62.429905%  总的行数：2533688  完美行数：951909  错误行数：1581779  
字数完美率：28.455273% 字数错误率：71.54473% 总的字数：28374428 完美字数：8074021 错误字数：20300407  
  
MMSeg4j MaxWordSeg：  
分词速度：813.0676 字符/毫秒  
行数完美率：34.27573%  行数错误率：65.72427%  总的行数：2533688  完美行数：868440  错误行数：1665248  
字数完美率：25.20896% 字数错误率：74.79104% 总的字数：28374428 完美字数：7152898 错误字数：21221530  

MMSeg4j1.9.1分词评估程序如下：

       Java代码   
       
     
import com.chenlb.mmseg4j.ComplexSeg;  
import com.chenlb.mmseg4j.Dictionary;  
import com.chenlb.mmseg4j.MMSeg;  
import com.chenlb.mmseg4j.MaxWordSeg;  
import com.chenlb.mmseg4j.Seg;  
import com.chenlb.mmseg4j.SimpleSeg;  
import com.chenlb.mmseg4j.Word;  
import java.io.BufferedReader;  
import java.io.BufferedWriter;  
import java.io.FileInputStream;  
import java.io.FileOutputStream;  
import java.io.IOException;  
import java.io.InputStreamReader;  
import java.io.OutputStreamWriter;  
import java.io.StringReader;  
import java.nio.file.Files;  
import java.nio.file.Paths;  
import java.util.ArrayList;  
import java.util.Collections;  
import java.util.List;  
  
/** 
 * MMSeg4j分词器分词效果评估 
 * @author 杨尚川 
 */  
public class MMSeg4jEvaluation {  
  
    public static void main(String[] args) throws Exception{  
        // 测试文件 d:/test-text.txt 和 标准分词结果文件 d:/standard-text.txt 的下载地址：  
        // http://pan.baidu.com/s/1hqihzjY  
          
        List<EvaluationResult> list = new ArrayList<>();  
        Dictionary dic = Dictionary.getInstance();  
        // 对文本进行分词  
        float rate = seg("d:/test-text.txt", "d:/result-text-ComplexSeg.txt", new ComplexSeg(dic));  
        // 对分词结果进行评估  
        EvaluationResult result = evaluation("d:/result-text-ComplexSeg.txt", "d:/standard-text.txt");  
        result.setAnalyzer("MMSeg4j ComplexSeg");  
        result.setSegSpeed(rate);  
        list.add(result);  
          
        // 对文本进行分词  
        rate = seg("d:/test-text.txt", "d:/result-text-SimpleSeg.txt", new SimpleSeg(dic));  
        // 对分词结果进行评估  
        result = evaluation("d:/result-text-SimpleSeg.txt", "d:/standard-text.txt");  
        result.setAnalyzer("MMSeg4j SimpleSeg");  
        result.setSegSpeed(rate);  
        list.add(result);  
          
        // 对文本进行分词  
        rate = seg("d:/test-text.txt", "d:/result-text-MaxWordSeg.txt", new MaxWordSeg(dic));  
        // 对分词结果进行评估  
        result = evaluation("d:/result-text-MaxWordSeg.txt", "d:/standard-text.txt");  
        result.setAnalyzer("MMSeg4j MaxWordSeg");  
        result.setSegSpeed(rate);  
        list.add(result);  
          
        //输出评估结果  
        Collections.sort(list);  
        System.out.println("");  
        for(EvaluationResult r : list){  
            System.out.println(r+"\n");  
        }  
    }  
    private static float seg(final String input, final String output, final Seg seg) throws Exception{  
        float rate = 0;  
        try(BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(input),"utf-8"));  
                BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(output),"utf-8"))){  
            long size = Files.size(Paths.get(input));  
            System.out.println("size:"+size);  
            System.out.println("文件大小："+(float)size/1024/1024+" MB");  
            int textLength=0;  
            int progress=0;  
            long start = System.currentTimeMillis();  
            String line = null;  
            while((line = reader.readLine()) != null){  
                if("".equals(line.trim())){  
                    writer.write("\n");  
                    continue;  
                }  
                textLength += line.length();  
                writer.write(seg(line, seg));  
                writer.write("\n");  
                progress += line.length();  
                if( progress > 500000){  
                    progress = 0;  
                    System.out.println("分词进度："+(int)(textLength*2.99/size*100)+"%");  
                }  
            }  
            long cost = System.currentTimeMillis() - start;  
            rate = textLength/(float)cost;  
            System.out.println("字符数目："+textLength);  
            System.out.println("分词耗时："+cost+" 毫秒");  
            System.out.println("分词速度："+rate+" 字符/毫秒");  
        }  
        return rate;  
    }  
    private static String seg(String text, Seg seg) throws IOException {  
        StringBuilder result = new StringBuilder();  
        MMSeg mmSeg = new MMSeg(new StringReader(text), seg);  
        Word word = null;  
        while((word=mmSeg.next())!=null) {  
            result.append(word.getString()).append(" ");              
        }  
        return result.toString().trim();  
    }  
    /** 
     * 分词效果评估 
     * @param resultText 实际分词结果文件路径 
     * @param standardText 标准分词结果文件路径 
     * @return 评估结果 
     */  
    private static EvaluationResult evaluation(String resultText, String standardText) {  
        int perfectLineCount=0;  
        int wrongLineCount=0;  
        int perfectCharCount=0;  
        int wrongCharCount=0;  
        try(BufferedReader resultReader = new BufferedReader(new InputStreamReader(new FileInputStream(resultText),"utf-8"));  
            BufferedReader standardReader = new BufferedReader(new InputStreamReader(new FileInputStream(standardText),"utf-8"))){  
            String result;  
            while( (result = resultReader.readLine()) != null ){  
                result = result.trim();  
                String standard = standardReader.readLine().trim();  
                if(result.equals("")){  
                    continue;  
                }  
                if(result.equals(standard)){  
                    //分词结果和标准一模一样  
                    perfectLineCount++;  
                    perfectCharCount+=standard.replaceAll("\\s+", "").length();  
                }else{  
                    //分词结果和标准不一样  
                    wrongLineCount++;  
                    wrongCharCount+=standard.replaceAll("\\s+", "").length();  
                }  
            }  
        } catch (IOException ex) {  
            System.err.println("分词效果评估失败：" + ex.getMessage());  
        }  
        int totalLineCount = perfectLineCount+wrongLineCount;  
        int totalCharCount = perfectCharCount+wrongCharCount;  
        EvaluationResult er = new EvaluationResult();  
        er.setPerfectCharCount(perfectCharCount);  
        er.setPerfectLineCount(perfectLineCount);  
        er.setTotalCharCount(totalCharCount);  
        er.setTotalLineCount(totalLineCount);  
        er.setWrongCharCount(wrongCharCount);  
        er.setWrongLineCount(wrongLineCount);       
        return er;  
    }  
    /** 
     * 分词结果 
     */  
    private static class EvaluationResult implements Comparable{  
        private String analyzer;  
        private float segSpeed;  
        private int totalLineCount;  
        private int perfectLineCount;  
        private int wrongLineCount;  
        private int totalCharCount;  
        private int perfectCharCount;  
        private int wrongCharCount;  
  
        public String getAnalyzer() {  
            return analyzer;  
        }  
        public void setAnalyzer(String analyzer) {  
            this.analyzer = analyzer;  
        }  
        public float getSegSpeed() {  
            return segSpeed;  
        }  
        public void setSegSpeed(float segSpeed) {  
            this.segSpeed = segSpeed;  
        }  
        public float getLinePerfectRate(){  
            return perfectLineCount/(float)totalLineCount*100;  
        }  
        public float getLineWrongRate(){  
            return wrongLineCount/(float)totalLineCount*100;  
        }  
        public float getCharPerfectRate(){  
            return perfectCharCount/(float)totalCharCount*100;  
        }  
        public float getCharWrongRate(){  
            return wrongCharCount/(float)totalCharCount*100;  
        }  
        public int getTotalLineCount() {  
            return totalLineCount;  
        }  
        public void setTotalLineCount(int totalLineCount) {  
            this.totalLineCount = totalLineCount;  
        }  
        public int getPerfectLineCount() {  
            return perfectLineCount;  
        }  
        public void setPerfectLineCount(int perfectLineCount) {  
            this.perfectLineCount = perfectLineCount;  
        }  
        public int getWrongLineCount() {  
            return wrongLineCount;  
        }  
        public void setWrongLineCount(int wrongLineCount) {  
            this.wrongLineCount = wrongLineCount;  
        }  
        public int getTotalCharCount() {  
            return totalCharCount;  
        }  
        public void setTotalCharCount(int totalCharCount) {  
            this.totalCharCount = totalCharCount;  
        }  
        public int getPerfectCharCount() {  
            return perfectCharCount;  
        }  
        public void setPerfectCharCount(int perfectCharCount) {  
            this.perfectCharCount = perfectCharCount;  
        }  
        public int getWrongCharCount() {  
            return wrongCharCount;  
        }  
        public void setWrongCharCount(int wrongCharCount) {  
            this.wrongCharCount = wrongCharCount;  
        }  
        @Override  
        public String toString(){  
            return analyzer+"："  
                    +"\n"  
                    +"分词速度："+segSpeed+" 字符/毫秒"  
                    +"\n"  
                    +"行数完美率："+getLinePerfectRate()+"%"  
                    +"  行数错误率："+getLineWrongRate()+"%"  
                    +"  总的行数："+totalLineCount  
                    +"  完美行数："+perfectLineCount  
                    +"  错误行数："+wrongLineCount  
                    +"\n"  
                    +"字数完美率："+getCharPerfectRate()+"%"  
                    +" 字数错误率："+getCharWrongRate()+"%"  
                    +" 总的字数："+totalCharCount  
                    +" 完美字数："+perfectCharCount  
                    +" 错误字数："+wrongCharCount;  
        }  
        @Override  
        public int compareTo(Object o) {  
            EvaluationResult other = (EvaluationResult)o;  
            if(other.getLinePerfectRate() - getLinePerfectRate() > 0){  
                return 1;  
            }  
            if(other.getLinePerfectRate() - getLinePerfectRate() < 0){  
                return -1;  
            }  
            return 0;  
        }  
    }  
}   

ik-analyzer2012_u6的评估结果如下：

       Java代码   
       
     
IKAnalyzer 智能切分：  
分词速度：178.3516 字符/毫秒  
行数完美率：37.55943%  行数错误率：62.440567%  总的行数：2533686  完美行数：951638  错误行数：1582048  
字数完美率：27.978464% 字数错误率：72.02154% 总的字数：28374416 完美字数：7938726 错误字数：20435690  
  
IKAnalyzer 细粒度切分：  
分词速度：182.97859 字符/毫秒  
行数完美率：18.872742%  行数错误率：81.12726%  总的行数：2533686  完美行数：478176  错误行数：2055510  
字数完美率：10.936535% 字数错误率：89.06347% 总的字数：28374416 完美字数：3103178 错误字数：25271238  

ik-analyzer2012_u6分词评估程序如下：

       Java代码   
       
     
import java.io.BufferedReader;  
import java.io.BufferedWriter;  
import java.io.FileInputStream;  
import java.io.FileOutputStream;  
import java.io.IOException;  
import java.io.InputStreamReader;  
import java.io.OutputStreamWriter;  
import java.io.StringReader;  
import java.nio.file.Files;  
import java.nio.file.Paths;  
import java.util.ArrayList;  
import java.util.Collections;  
import java.util.List;  
import org.wltea.analyzer.core.IKSegmenter;  
import org.wltea.analyzer.core.Lexeme;  
  
/** 
 * IKAnalyzer分词器分词效果评估 
 * @author 杨尚川 
 */  
public class IKAnalyzerEvaluation {  
  
    public static void main(String[] args) throws Exception{  
        // 测试文件 d:/test-text.txt 和 标准分词结果文件 d:/standard-text.txt 的下载地址：  
        // http://pan.baidu.com/s/1hqihzjY  
          
        List<EvaluationResult> list = new ArrayList<>();  
          
        // 对文本进行分词  
        float rate = seg("d:/test-text.txt", "d:/result-text-ComplexSeg.txt", true);  
        // 对分词结果进行评估  
        EvaluationResult result = evaluation("d:/result-text-ComplexSeg.txt", "d:/standard-text.txt");  
        result.setAnalyzer("IKAnalyzer 智能切分");  
        result.setSegSpeed(rate);  
        list.add(result);  
          
        // 对文本进行分词  
        rate = seg("d:/test-text.txt", "d:/result-text-SimpleSeg.txt", false);  
        // 对分词结果进行评估  
        result = evaluation("d:/result-text-SimpleSeg.txt", "d:/standard-text.txt");  
        result.setAnalyzer("IKAnalyzer 细粒度切分");  
        result.setSegSpeed(rate);  
        list.add(result);  
          
        //输出评估结果  
        Collections.sort(list);  
        System.out.println("");  
        for(EvaluationResult r : list){  
            System.out.println(r+"\n");  
        }  
    }  
    private static float seg(final String input, final String output, final boolean useSmart) throws Exception{  
        float rate = 0;  
        try(BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(input),"utf-8"));  
                BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(output),"utf-8"))){  
            long size = Files.size(Paths.get(input));  
            System.out.println("size:"+size);  
            System.out.println("文件大小："+(float)size/1024/1024+" MB");  
            int textLength=0;  
            int progress=0;  
            long start = System.currentTimeMillis();  
            String line = null;  
            while((line = reader.readLine()) != null){  
                if("".equals(line.trim())){  
                    writer.write("\n");  
                    continue;  
                }  
                textLength += line.length();  
                writer.write(seg(line, useSmart));  
                writer.write("\n");  
                progress += line.length();  
                if( progress > 500000){  
                    progress = 0;  
                    System.out.println("分词进度："+(int)(textLength*2.99/size*100)+"%");  
                }  
            }  
            long cost = System.currentTimeMillis() - start;  
            rate = textLength/(float)cost;  
            System.out.println("字符数目："+textLength);  
            System.out.println("分词耗时："+cost+" 毫秒");  
            System.out.println("分词速度："+rate+" 字符/毫秒");  
        }  
        return rate;  
    }  
    private static String seg(String text, boolean useSmart) throws IOException {  
        StringBuilder result = new StringBuilder();  
        IKSegmenter ik = new IKSegmenter(new StringReader(text), useSmart);  
        Lexeme word = null;  
        while((word=ik.next())!=null) {  
            result.append(word.getLexemeText()).append(" ");              
        }  
        return result.toString().trim();  
    }  
    /** 
     * 分词效果评估 
     * @param resultText 实际分词结果文件路径 
     * @param standardText 标准分词结果文件路径 
     * @return 评估结果 
     */  
    private static EvaluationResult evaluation(String resultText, String standardText) {  
        int perfectLineCount=0;  
        int wrongLineCount=0;  
        int perfectCharCount=0;  
        int wrongCharCount=0;  
        try(BufferedReader resultReader = new BufferedReader(new InputStreamReader(new FileInputStream(resultText),"utf-8"));  
            BufferedReader standardReader = new BufferedReader(new InputStreamReader(new FileInputStream(standardText),"utf-8"))){  
            String result;  
            while( (result = resultReader.readLine()) != null ){  
                result = result.trim();  
                String standard = standardReader.readLine().trim();  
                if(result.equals("")){  
                    continue;  
                }  
                if(result.equals(standard)){  
                    //分词结果和标准一模一样  
                    perfectLineCount++;  
                    perfectCharCount+=standard.replaceAll("\\s+", "").length();  
                }else{  
                    //分词结果和标准不一样  
                    wrongLineCount++;  
                    wrongCharCount+=standard.replaceAll("\\s+", "").length();  
                }  
            }  
        } catch (IOException ex) {  
            System.err.println("分词效果评估失败：" + ex.getMessage());  
        }  
        int totalLineCount = perfectLineCount+wrongLineCount;  
        int totalCharCount = perfectCharCount+wrongCharCount;  
        EvaluationResult er = new EvaluationResult();  
        er.setPerfectCharCount(perfectCharCount);  
        er.setPerfectLineCount(perfectLineCount);  
        er.setTotalCharCount(totalCharCount);  
        er.setTotalLineCount(totalLineCount);  
        er.setWrongCharCount(wrongCharCount);  
        er.setWrongLineCount(wrongLineCount);       
        return er;  
    }  
    /** 
     * 分词结果 
     */  
    private static class EvaluationResult implements Comparable{  
        private String analyzer;  
        private float segSpeed;  
        private int totalLineCount;  
        private int perfectLineCount;  
        private int wrongLineCount;  
        private int totalCharCount;  
        private int perfectCharCount;  
        private int wrongCharCount;  
  
        public String getAnalyzer() {  
            return analyzer;  
        }  
        public void setAnalyzer(String analyzer) {  
            this.analyzer = analyzer;  
        }  
        public float getSegSpeed() {  
            return segSpeed;  
        }  
        public void setSegSpeed(float segSpeed) {  
            this.segSpeed = segSpeed;  
        }  
        public float getLinePerfectRate(){  
            return perfectLineCount/(float)totalLineCount*100;  
        }  
        public float getLineWrongRate(){  
            return wrongLineCount/(float)totalLineCount*100;  
        }  
        public float getCharPerfectRate(){  
            return perfectCharCount/(float)totalCharCount*100;  
        }  
        public float getCharWrongRate(){  
            return wrongCharCount/(float)totalCharCount*100;  
        }  
        public int getTotalLineCount() {  
            return totalLineCount;  
        }  
        public void setTotalLineCount(int totalLineCount) {  
            this.totalLineCount = totalLineCount;  
        }  
        public int getPerfectLineCount() {  
            return perfectLineCount;  
        }  
        public void setPerfectLineCount(int perfectLineCount) {  
            this.perfectLineCount = perfectLineCount;  
        }  
        public int getWrongLineCount() {  
            return wrongLineCount;  
        }  
        public void setWrongLineCount(int wrongLineCount) {  
            this.wrongLineCount = wrongLineCount;  
        }  
        public int getTotalCharCount() {  
            return totalCharCount;  
        }  
        public void setTotalCharCount(int totalCharCount) {  
            this.totalCharCount = totalCharCount;  
        }  
        public int getPerfectCharCount() {  
            return perfectCharCount;  
        }  
        public void setPerfectCharCount(int perfectCharCount) {  
            this.perfectCharCount = perfectCharCount;  
        }  
        public int getWrongCharCount() {  
            return wrongCharCount;  
        }  
        public void setWrongCharCount(int wrongCharCount) {  
            this.wrongCharCount = wrongCharCount;  
        }  
        @Override  
        public String toString(){  
            return analyzer+"："  
                    +"\n"  
                    +"分词速度："+segSpeed+" 字符/毫秒"  
                    +"\n"  
                    +"行数完美率："+getLinePerfectRate()+"%"  
                    +"  行数错误率："+getLineWrongRate()+"%"  
                    +"  总的行数："+totalLineCount  
                    +"  完美行数："+perfectLineCount  
                    +"  错误行数："+wrongLineCount  
                    +"\n"  
                    +"字数完美率："+getCharPerfectRate()+"%"  
                    +" 字数错误率："+getCharWrongRate()+"%"  
                    +" 总的字数："+totalCharCount  
                    +" 完美字数："+perfectCharCount  
                    +" 错误字数："+wrongCharCount;  
        }  
        @Override  
        public int compareTo(Object o) {  
            EvaluationResult other = (EvaluationResult)o;  
            if(other.getLinePerfectRate() - getLinePerfectRate() > 0){  
                return 1;  
            }  
            if(other.getLinePerfectRate() - getLinePerfectRate() < 0){  
                return -1;  
            }  
            return 0;  
        }  
    }  
}  

ansj、mmseg4j和ik-analyzer的评估程序可在附件中下载，word分词只需运行项目根目录下的evaluation.bat脚本即可。

参考资料：

1、word分词器分词效果评估测试数据集和标准数据集

你可能感兴趣的:(word分词器)

【2024软考架构案例题】你知道 Es 的几种分词器吗？Standard、Simple、WhiteSpace、Keyword 四种分词器你知道吗？激流丶日常 elasticsearch 大数据搜索引擎
博主介绍：博主从事应用安全和大数据领域，有8年研发经验，5年面试官经验，Java技术专家，WEB架构师，阿里云专家博主，华为云云享专家，51CTO专家博主⛪️个人社区：个人社区个人主页：个人主页专栏地址：✅Java中级八股文专题：剑指大厂，手撕Java八股文文章目录1.什么是Standard分词器？2.什么是Simple分词器？3.什么是WhiteSpace分词器？4.什么是Keyword分词器？
【ELK学习笔记】ik分词器安装和验证（基于elasticsearch-7.10.1） xiao_zhu_kuai_pao ELK elasticsearch
PS：欢迎转载，但请注明出处，谢谢配合。ik分词器安装和验证（基于elasticsearch-7.10.1）一、安装1、下载2、新建插件子目录3、解压ik插件包4、重启elasticsearch二、验证（查看分词效果）1、standard分词器效果2、ik_smart分词器效果3、ik_max_word分词器效果三、实际使用效果对比1、创建索引时，文档中的列使用默认分词器2、创建索引时，文档中的列
Java分词工具：word 进击的小鹿
今天发现一个好用的分词工具，Word。word分词器主页：https://github.com/ysc/wordword分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。引入依赖1.3版本org.a
二、ElasticSearch基础语法叫我柒月 elasticsearch elasticsearch 搜索引擎大数据
目录一、简单了解ik分词器(分词效果)1.standard(单字分词器，es默认分词器)2.ik_smart分词(粗粒度的拆分)3.ik_max_word分词器（最细粒度拆分）二、指定默认分词器1.为索引指定默认分词器三、ES操作数据1.概述2.创建索引3.查询索引4.删除索引5.添加文档6.查询索引库6.1查询索引库中所有内容6.2简单等值查询6.3简单范围查询6.4通过id进行in查询6.5分
深入浅出Elasticsearch 的倒排索引 qq_1757537040 elasticsearch
分词：前置知识在创建索引之前，会对文档中的字符串进行分词。ES中字符串有两种类型，keyword和text。keyword类型的字符串不会被分词，搜索时全匹配查询text类型的字符串会被分词，搜索时是包含查询不同的分词器对相同字符串分词的结果大有不同，选择不同的分词器对索引的创建有很大的影响，这里使用ik分词器进行介绍：ik_max_word分词器:最细粒度拆分ik_smart分词器:最粗粒度的拆
word分词器使用（java） 14C的风
1.在pom.xml中导入依赖org.apdplatword1.12.在代码中使用packagecom.vortex.commonAPI.controller;importjavax.servlet.http.HttpServletRequest;importorg.apdplat.word.WordSegmenter;importorg.springframework.web.bind.anno
word分词器使用（java） Quillagua
1.在pom.xml中导入依赖org.apdplatword1.12.在代码中使用packagecom.vortex.commonAPI.controller;importjavax.servlet.http.HttpServletRequest;importorg.apdplat.word.WordSegmenter;importorg.springframework.web.bind.anno
地址分词彭强兵
地址分词和传统的NLP有很大区别。基于地址分词和词性标注，可用在仓储物流系统，实现AI自动化，也可用在标准地址库建设中，实现地址标准化。传统NLP技术用在地址分词上正确率和召回率都很低，对于地址“上海市上海市斜土路768号22层C座”，传统分词器切分结果如下，如果进行地址分词和词性标注，正确率是很低的。而专门的地址分词和词性标注系统能达到地址分词和词性标注准确率在99.1以上。word分词器的分词
Spark计算《西虹市首富》短评词云阿坤的博客
本文主要记录利用爬虫爬取豆瓣对电影《西虹市首富》的短评，使用word分词器分词，并使用Spark计算出磁盘取Top20，使用echats展示。效果图如下：相关文章：1.Spark之PI本地2.Spark之WordCount集群3.SparkStreaming之读取Kafka数据4.SparkStreaming之使用redis保存Kafka的Offset5.SparkStreaming之优雅停止6.
ElasticSearch自动补全功能之分词器选择 xiaolege_ 学习 es相关操作总结 elasticsearch
阅读该文档需要对es有一定的了解。需求：根据输入地址段查询相关地址。目前系统情况：目前es搜索字段采用ik_max_word分词器进行分词，但是该分词器不会对英文和数字进行分词，导致一种情况：我的es库里面有类似：武汉市洪山区武大园一路9号武大吉奥4楼408室，但是我使用match_phrase设置了slop(保证输入框内容顺序，并且允许跳字)搜索武汉市洪山区武大园一路9号武大吉奥4楼4会无结果返
es基础查询（未完待续） wangfy_ es
转自：https://mp.weixin.qq.com/s/_jXdCPGsmcpMkEnFJ5VQ7A仅作个人备份，浏览请看原文之前给大家介绍过elasticsearch以及它的安装，今天我们来学习一下它的基本用法中文分词器首先我们来了解一下中文分词器，中文分词器有两种：一种是ik_max_word，一种是ik_smart,我们分别来看下他们对中文分词的拆分ik_max_word分词器采用ik_
完整实用篇：Java分布式中文分词组件-word分词器小栋哟 Java
这次分享一个实用过的分词器--word分词器，详细信息可以点我看看没有废话直接上代码，代码通俗易懂，如果实在还是有问题可以留言讨论；1.引入pom信息org.apdplatword1.32.代码部分publicstaticvoidtest1(){//根据词库进行分词(没有词库就不用设置)WordConfTools.set("dic.path","D:\\wdd\\file\\bacco_dict.
基于spring boot架构和word分词器的分词检索，排序，分页实现追风落叶乔木生 spring boot java
本文不适合Java初学者，适合对springboot有一定了解的同学。文中可能涉及到一些实体类、dao类、工具类文中没有这些类大家不必在意，不影响本文的核心内容，本文重在对方法的梳理。word分词器maven依赖org.apdplatword1.3springboot的常见依赖在这里我就不列举了可以见文章基于maven的springboot项目porm文件配置(含定时器，数据抓取，分词器依赖配置)
hanlp中文智能分词自动识别文字提取实例 adnb34g hanlp 人工智能
阅读更多需求：客户给销售员自己的个人信息，销售帮助客户下单，此过程需要销售人员手动复制粘贴收获地址，电话，姓名等等，一个智能的分词系统可以让销售人员一键识别以上各种信息经过调研，找到了一下开源项目1、word分词器2、ansj分词器3、mmseg4j分词器4、ik-analyzer分词器5、jcseg分词器6、fudannlp分词器7、smartcn分词器8、jieba分词器9、stanford分
hanlp中文智能分词自动识别文字提取实例 adnb34g hanlp 人工智能
阅读更多需求：客户给销售员自己的个人信息，销售帮助客户下单，此过程需要销售人员手动复制粘贴收获地址，电话，姓名等等，一个智能的分词系统可以让销售人员一键识别以上各种信息经过调研，找到了一下开源项目1、word分词器2、ansj分词器3、mmseg4j分词器4、ik-analyzer分词器5、jcseg分词器6、fudannlp分词器7、smartcn分词器8、jieba分词器9、stanford分
word分词器、ansj分词器、IKanalyzer分词器、mmseg4j分词器、jcseg分词器对比 colie_li elasticsearch
因项目需要，对目前比较流行的几个分词器进行了对比，ansj_seg是最美好的一个分词器，智能、强悍，对索引和最大颗粒分割都照顾得很到位，词库的树形读取也堪称经典；如果搜索只追求绝对准确度不考虑搜索结果最大化，jcseg效果还是很好的；如果只做站内搜索，不是海量互联网搜索引擎，可以考虑使用IKanalyzer，鼎鼎大名的知乎网用的也是IKanalyzer分词器；如果做推荐做分类可能会使用jcseg，
Solr 5.x集成中文分词word，mmseg4j refactor
使用标准分词器，如图：使用word分词器下载word-1.3.jar，注意solr的版本和word分词的版本将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下修改如下文件C:\workspace\solr_home\solr\mysolr\conf\schema.xml 在schema节点下添加如下节点
常用中文分词器 itace
分词器：1、word分词器2、ansj分词器3、mmseg4j分词器4、ik-analyzer分词器5、jcseg分词器6、fudannlp分词器7、smartcn分词器8、jieba分词器9、stanford分词器10、hanlp分词器测试评估报告：https://github.com/ysc/cws_evaluation
如何利用多核提升分词速度 yangshangchuan 多线程 word word分词器并行分词 ParallelStream
在进行中文分词的时候，我们如何利用多核提升分词速度呢？计算机很早就进入多核心时代了，不充分利用多核CPU是对计算资源的一种极大的浪费。在对一段文本进行分词的时候，word分词器的处理步骤如下： 1、把要分词的文本根据标点符号分割成句子； 2、以分割后的句子为基本单位进行分词； 3、把各个句子的分词结果按原来的句子顺序组合起来； word分词器充分考虑到了利用多核提升分词速度这个问题
如何利用多核提升分词速度 yangshangchuan 多线程 word word分词器并行分词 ParallelStream
在进行中文分词的时候，我们如何利用多核提升分词速度呢？计算机很早就进入多核心时代了，不充分利用多核CPU是对计算资源的一种极大的浪费。在对一段文本进行分词的时候，word分词器的处理步骤如下： 1、把要分词的文本根据标点符号分割成句子； 2、以分割后的句子为基本单位进行分词； 3、把各个句子的分词结果按原来的句子顺序组合起来； word分词器充分考虑到了利用多核提升分词速度这个问题
如何利用多核提升分词速度 yangshangchuan 多线程 word word分词器并行分词 ParallelStream
在进行中文分词的时候，我们如何利用多核提升分词速度呢？计算机很早就进入多核心时代了，不充分利用多核CPU是对计算资源的一种极大的浪费。在对一段文本进行分词的时候，word分词器的处理步骤如下： 1、把要分词的文本根据标点符号分割成句子； 2、以分割后的句子为基本单位进行分词； 3、把各个句子的分词结果按原来的句子顺序组合起来； word分词器充分考虑到了利用多核提升分词速度这个问题
如何利用多核提升分词速度 yangshangchuan 多线程 word word分词器并行分词 ParallelStream
在进行中文分词的时候，我们如何利用多核提升分词速度呢？计算机很早就进入多核心时代了，不充分利用多核CPU是对计算资源的一种极大的浪费。在对一段文本进行分词的时候，word分词器的处理步骤如下： 1、把要分词的文本根据标点符号分割成句子； 2、以分割后的句子为基本单位进行分词； 3、把各个句子的分词结果按原来的句子顺序组合起来； word分词器充分考虑到了利用多核提升分词速度这个问题
如何利用多核提升分词速度杨尚川多线程 word word分词器多核并行分词 ParallelStream
在进行中文分词的时候，我们如何利用多核提升分词速度呢？计算机很早就进入多核心时代了，不充分利用多核CPU是对计算资源的一种极大的浪费。在对一段文本进行分词的时候，word分词器的处理步骤如下：1、把要分词的文本根据标点符号分割成句子；2、以分割后的句子为基本单位进行分词；3、把各个句子的分词结果按原来的句子顺序组合起来；word分词器充分考虑到了利用多核提升分词速度这个问题，在第1步完成后，如果分
cws_evaluation v1.1 发布，中文分词器分词效果评估对比 yangshangchuan word分词器中文分词器 cws_evaluation 分词效果评估分词效果对比
cws_evaluation是一个Java开源项目，用于对中文分词器的分词效果进行评估对比，目前支持9大中文分词器。分别是：word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smartcn分词器、jieba分词器、stanford分词器。在1.1中，将9大中文分词器都升级到了最新版本，并采用Maven构
cws_evaluation v1.1 发布，中文分词器分词效果评估对比 yangshangchuan word分词器中文分词器 cws_evaluation 分词效果评估分词效果对比
cws_evaluation是一个Java开源项目，用于对中文分词器的分词效果进行评估对比，目前支持9大中文分词器。分别是：word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smartcn分词器、jieba分词器、stanford分词器。在1.1中，将9大中文分词器都升级到了最新版本，并采用Maven构
cws_evaluation v1.1 发布，中文分词器分词效果评估对比 yangshangchuan word分词器中文分词器 cws_evaluation 分词效果对比分词效果评估
cws_evaluation是一个Java开源项目，用于对中文分词器的分词效果进行评估对比，目前支持9大中文分词器。分别是：word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smartcn分词器、jieba分词器、stanford分词器。在1.1中，将9大中文分词器都升级到了最新版本，并采用Maven构
cws_evaluation v1.1 发布，中文分词器分词效果评估对比 yangshangchuan word分词器中文分词器分词效果对比 cws_evaluation 分词效果评估
cws_evaluation是一个Java开源项目，用于对中文分词器的分词效果进行评估对比，目前支持9大中文分词器。分别是：word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smartcn分词器、jieba分词器、stanford分词器。在1.1中，将9大中文分词器都升级到了最新版本，并采用Maven构
cws_evaluation v1.1 发布，中文分词器分词效果评估对比杨尚川 word分词器中文分词器分词效果评估分词效果对比 cws_evaluation
cws_evaluation是一个Java开源项目，用于对中文分词器的分词效果进行评估对比，目前支持9大中文分词器。分别是：word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smartcn分词器、jieba分词器、stanford分词器。在1.1中，将9大中文分词器都升级到了最新版本，并采用Maven构建项目，增加了方便用
给LUKE增加word分词器 yangshangchuan 搜索 Nutch word分词网络爬虫 luke
word分词是一个Java实现的分布式中文分词组件 1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar（国内不能访问） 2、下载并解压Java中文分词组件word-1.0-bin.zip 3、将解压后的Java中文分词组件word-1.0-bin/word-1.0文件夹里面的4个jar包解压到当前文件夹，用压缩解压工具如win
给LUKE增加word分词器 yangshangchuan 搜索 Nutch word分词网络爬虫 luke
word分词是一个Java实现的分布式中文分词组件 1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar（国内不能访问） 2、下载并解压Java中文分词组件word-1.0-bin.zip 3、将解压后的Java中文分词组件word-1.0-bin/word-1.0文件夹里面的4个jar包解压到当前文件夹，用压缩解压工具如win
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><