测试庖丁解牛分词工具

因为笔者要在MapReduce中进行中文分词解析数据,所以测试了一下庖丁解牛中文分词器(paoding-analysis-2.0.4-beta)。现将使用过程小结:

下载地址:http://pan.baidu.com/s/1eQ88SZS

个人环境:linux+eclipse

使用分为如下几步:

1. 配置dic文件:

修改paoding-analysis.jar中的paoding-dic-home.properties文件,将“#paoding.dic.home=dic”的注释去掉,并配置成自己dic文件的本地存放路径。eg:/home/hadoop/work/paoding-analysis-2.0.4-beta/dic

2. 把Jar包导入到项目中:

将paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四个包导入到项目中,这时就可以在代码片段中使用庖丁解牛工具提供的中文分词技术,例如:

[java] view plain copy print ?
  1. Analyzeranalyzer=newPaodingAnalyzer();//定义一个解析器
  2. Stringtext="庖丁系统是个完全基于lucene的中文分词系统,它就是重新建了一个analyzer,叫做PaodingAnalyzer,这个analyer的核心任务就是生成一个可以切词TokenStream。";"font-family:Arial,Helvetica,sans-serif;">//待分词的内容
  3. TokenStreamtokenStream=analyzer.tokenStream(text,newStringReader(text));//得到token序列的输出流
  4. try{
  5. Tokent;
  6. while((t=tokenStream.next())!=null)
  7. {
  8. System.out.println(t);//输出每个token
  9. }
  10. }catch(IOExceptione){
  11. e.printStackTrace();
  12. }
结果如下:

测试庖丁解牛分词工具_第1张图片
每一行的输出是一个token。

你可能感兴趣的:(测试庖丁解牛分词工具)