IC分词和IK分词

                         

一、   IC中文分词

1.   简介:

下载地址:http://www.ictclas.org/

中科院的分词开源包,但是有版权!

2. 使用:

      \Sample\Windows_64_jni_Demo 把这个扔进eclipse中。

          其中:ICTCLAS 是放在src的包,TestMain是测试程序,其它放在根目录。


二、IK分词

      IK中文分词(一)

一、      搭建IK分词

1下载地址:https://code.google.com/p/ik-analyzer/

2安装部署:

IK Analyzer 安装包包含:

1)《IKAnalyzer 中文分词器 V2012 使用手册》 (即本文档)

2)IKAnalyzer2012.jar(主 jar 包)

3)  IKAnalyzer.cfg.xml(分词器扩展配置文件)

4) stopword.dic(停止词典)

5) LICENSE.TXT ; NOTICE.TXT (apache 版权申明)

它 的 安 装 部 署 十 分 简 单 , 将 IKAnalyzer2012.jar 部 署 亍 项 目 的 lib 目 彔 中 ;

IKAnalyzer.cfg.xml 不 stopword.dic 文件放置在 class 根目彔(对亍 web 项目,通常是

WEB-INF/classes 目彔,同 hibernate、log4j 等配置文件相同)下即可。

3. 简单测试使用(仅仅分词):

public static StringikSplit(String str){

            /*1.根据文档引入包,引入词典和xml配置

             * 2. str -->byteArrayInputStream---InputStreamReader

             * 3.IKSegmenter --Lexeme = ~next--~.getLexemeText();

             */

            String result="";

            if(StringUtil.isEmpty(str))return result;

            try {

                byte[] bt =str.getBytes();

                InputStream is = newByteArrayInputStream(bt);

                Reader read = newInputStreamReader(is);

                IKSegmenter iks = newIKSegmenter(read, true);

                Lexeme t=null;

                while((t =iks.next()) !=null){

                    result= result +  t.getLexemeText() + "  ";

                }

                System.out.println(result);

            } catch(Exception e) {

                e.printStackTrace();

            }

            return result;

     }


你可能感兴趣的:(IC分词和IK分词)