IKAnalyzer试用手记

其它什么的不哆嗦了,直接上代码。

import java.io.IOException;
import java.io.StringReader;

import org.wltea.analyzer.IKSegmentation;
import org.wltea.analyzer.Lexeme;


public class Test {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		String t = "累计了近一年的增长,iphone4岡崎律子ipad216g岡崎律子快乐家族杨千嬅尤其是最近一段时间的疯涨,让民众很自然想起07至08年那段猪肉价格让人心悸的高位运行的日子。现在的猪肉价位已经差不多达到甚至超过那时期的水平。俗话说:“猪粮安天下”,占了中国肉类消费65%的猪肉,其疯涨行为也成为了CPI居高不下的一大黑手。为什么猪肉价格这么贵?什么时候猪肉价格能下跌?";
		System.out.println("原文:"+t);	
		System.out.println("----------分词结果(采用最大词长分词)--------");	
		long start = System.currentTimeMillis();
		IKSegmentation ikSeg = new IKSegmentation(new StringReader(t) ,true);
		long end = System.currentTimeMillis();
		try {
			Lexeme l = null;
			while( (l = ikSeg.next()) != null){
				System.out.println(l);
			}
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		System.out.println("耗时:"+(end-start)+"毫秒");
	}

}

   这里有个人名叫岡崎律子,原词库解析不出来,看来要用自定义词库了,别以为就是建个TXT文档放到程序目录下,再设置一下配置文件就可以了,那你就大错特错了。下面这句关键:

词典文件格式是无BOM 的UTF-8 编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n 的DOS 方式换行。

如果你不知道怎么搞,就学我的,把它原来的ext_stopword.dic复制一个,再把里面的内容改了就OK了,修改工具用的是editplus.

 

你可能感兴趣的:(ext,dos)