简单比较IKAnalyzer和je-analysis中文分词包

   最近在突然对全文信息检索有了兴趣,本来嘛,以前是学信息管理的, 对全文信息检索有一定的了解,不过只是停留在理论上的,具体的如何操作没有什么概念,现在有一点空闲时间,来研究研究。
   研究全文信息检索的,对于Lucene应该多少有一点的了解吧。当然它自己本身有分词的功能,但主要是在英文环境下面,所以对中文的支持不是好,但是它提供了一个接口,可以让其他的分词包能使用。下面简单的比较一下ikanalyzer和je-analysis这两个中文分词包,主要是它们对中文分词的效果的比较。下面是一段代码
String text = "IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。";

        //实例化IKAnalyzer分词器
        Analyzer analyzer = new IKAnalyzer();
        //以下是对文本进行分词的试验!
        String text2 = "ajax是我比较喜欢的技术,我am是ajax";
        StringReader sr = new StringReader(text2);
        TokenStream ts = analyzer.tokenStream("s", sr);
        Token t = ts.next();
        int j = 0;
        while (t != null) {
            System.out.print(t.termText() + " | ");
            t = ts.next();
            j++;
        }
        System.out.println("\n");
        MMAnalyzer analyzer1 = new MMAnalyzer();
        try {
            System.out.println(analyzer1.segment(text2, " | "));
        } catch (IOException e) {
            e.printStackTrace();
        }

其结果:

ajax | 是 | 我 | 比较 | 喜欢 | 的 | 技术 | 我 | am | 是 | ajax |
ajax | 是我 | 比较 | 喜欢 | 技术 | am | ajax |

我觉得还是IKAnaylzer得中文分词效果稍微好一点。当然这里只是举一个简单的例子,理由不是很充分,但至少能说明一点问题。中文分词还是蛮有意思的,希望大家能多交流交流。我是抛砖了,希望能吸引个把玉过来!

你可能感兴趣的:(Ajax,算法,Lucene,J#,全文检索)