一、 IC中文分词
1. 简介:
下载地址:http://www.ictclas.org/
中科院的分词开源包,但是有版权!
2. 使用:
\Sample\Windows_64_jni_Demo 把这个扔进eclipse中。
其中:ICTCLAS 是放在src的包,TestMain是测试程序,其它放在根目录。
二、IK分词
IK中文分词(一)
一、 搭建IK分词
1下载地址:https://code.google.com/p/ik-analyzer/
2安装部署:
IK Analyzer 安装包包含:
1)《IKAnalyzer 中文分词器 V2012 使用手册》 (即本文档)
2)IKAnalyzer2012.jar(主 jar 包)
3) IKAnalyzer.cfg.xml(分词器扩展配置文件)
4) stopword.dic(停止词典)
5) LICENSE.TXT ; NOTICE.TXT (apache 版权申明)
它 的 安 装 部 署 十 分 简 单 , 将 IKAnalyzer2012.jar 部 署 亍 项 目 的 lib 目 彔 中 ;
IKAnalyzer.cfg.xml 不 stopword.dic 文件放置在 class 根目彔(对亍 web 项目,通常是
WEB-INF/classes 目彔,同 hibernate、log4j 等配置文件相同)下即可。
3. 简单测试使用(仅仅分词):
public static StringikSplit(String str){
/*1.根据文档引入包,引入词典和xml配置
* 2. str -->byteArrayInputStream---》InputStreamReader
* 3.IKSegmenter --》Lexeme = ~。next--》~.getLexemeText();
*/
String result="";
if(StringUtil.isEmpty(str))return result;
try {
byte[] bt =str.getBytes();
InputStream is = newByteArrayInputStream(bt);
Reader read = newInputStreamReader(is);
IKSegmenter iks = newIKSegmenter(read, true);
Lexeme t=null;
while((t =iks.next()) !=null){
result= result + t.getLexemeText() + " ";
}
System.out.println(result);
} catch(Exception e) {
e.printStackTrace();
}
return result;
}