1.什么是分词
分词器能以某种规则对关键字进行分词,将分好的词放到目录中,以作为检索到的条件,在创建索引时会使用到分词器,在搜索时也将用到分词器。
2.分词器的一般工作流程
2.1切分关键词
2.2去除停用词
2.3对于英文单词,把所有字母转为小写
拿我所用的ik分词器为例
IKAnalyzer.cfg.xml
IK Analyzer 扩展配置
/mydict.dic
/surname.dic
他运行时会自动加载这两个文件(这两个文件位置要和这个xml文件在同一地方)
3.Ik分词器
ik分词器自2012年后就暂停更新,而lucene却在不断的更新,导致ik分词器在新版本的lucene中使用会出现错误,所以出现Ik重构的代码来消除这个错误
首先引入依赖
'''
com.janeluo
ikanalyzer
2012_u6
'''
分词器的核心类Analyzer,TokenStream,Tokenizer,TokenFilter.
Analyzer
Lucene中的分词器有StandardAnalyzer,StopAnalyzer,SimpleAnalyzer,WhitespaceAnalyzer.
TokenStream
分词器做好处理之后得到的一个流,这个流中存储了分词的各种信息.可以通过TokenStream有效的获取到分词单元
Tokenizer
主要负责接收字符流Reader,将Reader进行分词操作.
TokenFilter
将分好词的语汇单元进行各种各样的过滤.
代码是网上找的,如果你是作者请联系我 附上署名
有两个文件 MyIKTokenizer和MyIkAnalyzer
package net.begincode.lucene.analyzer;
import java.io.IOException;
import java.io.Reader;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;
public class MyIKTokenizer extends Tokenizer {
// IK分词器实现
private IKSegmenter _IKImplement;
// 词元文本属性
private final CharTermAttribute termAtt;
// 词元位移属性
private final OffsetAttribute offsetAtt;
// 词元分类属性(该属性分类参考org.wltea.analyzer.core.Lexeme中的分类常量)
private final TypeAttribute typeAtt;
// 记录最后一个词元的结束位置
private int endPosition;
public MyIKTokenizer(Reader in) {
this(in, false);
}
public MyIKTokenizer(Reader in, boolean useSmart) {
offsetAtt = addAttribute(OffsetAttribute.class);
termAtt = addAttribute(CharTermAttribute.class);
typeAtt = addAttribute(TypeAttribute.class);
_IKImplement = new IKSegmenter(input, useSmart);
}
@Override
public boolean incrementToken() throws IOException {
// 清除所有的词元属性
clearAttributes();
Lexeme nextLexeme = _IKImplement.next();
if (nextLexeme != null) {
// 将Lexeme转成Attributes
// 设置词元文本
termAtt.append(nextLexeme.getLexemeText());
// 设置词元长度
termAtt.setLength(nextLexeme.getLength());
// 设置词元位移
offsetAtt.setOffset(nextLexeme.getBeginPosition(),
nextLexeme.getEndPosition());
// 记录分词的最后位置
endPosition = nextLexeme.getEndPosition();
// 记录词元分类
typeAtt.setType(nextLexeme.getLexemeTypeString());
// 返会true告知还有下个词元
return true;
}
// 返会false告知词元输出完毕
return false;
}
public void reset() throws IOException {
super.reset();
_IKImplement.reset(input);
}
@Override
public final void end() {
// set final offset
int finalOffset = correctOffset(this.endPosition);
offsetAtt.setOffset(finalOffset, finalOffset);
}
}
为什么要使用MyIKTokenizer来继承Tokenizer 因为在原有的IKTokenizer中里面多了一个
super(in);这段代码 而5.0以上版本的Lucene的父类中已经取消了这个构造方法
package net.begincode.lucene.analyzer;
import java.io.Reader;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.util.IOUtils;
public class MyIkAnalyzer extends Analyzer {
@Override
protected TokenStreamComponents createComponents(String arg0) {
Reader reader = null;
try {
reader = new StringReader(arg0);
MyIKTokenizer it = new MyIKTokenizer(reader);
return new Analyzer.TokenStreamComponents(it);
} finally {
IOUtils.closeWhileHandlingException(reader);
}
}
}
其中的createComponents方法是继承Luecene的Analyzer接口的,由于Lucene5.0里把createComponents方法的第二个参数去掉了,所以需要对该方法做如上修改
4.分词测试类
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import net.begincode.lucene.util.MyIkAnalyzer;
/**
*
* @author Stay
*
*/
public class TestAnalyzer {
private static void testAnalyzer(Analyzer analyzer,String text) throws Exception{
System.out.println("当前使用的分词器:"+analyzer.getClass());
TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
CharTermAttribute cta = tokenStream.addAttribute(CharTermAttribute.class);
tokenStream.reset(); //必须先调用reset方法
while(tokenStream.incrementToken()){
System.out.println(cta);
}
}
public static void main(String[] args) throws Exception{
Analyzer analyzer = new MyIkAnalyzer();
testAnalyzer(analyzer, "begincode社区,java初学者");
}
}
输出
当前使用的分词器:class net.begincode.lucene.util.MyIkAnalyzer
加载扩展词典:mydict.dic
加载扩展停止词典:surname.dic
begincode
社区
java
初学者
初学
学者
5.总结
好的分词器需要不断的摸索,实践而产生的。不同的领域有不同的分词技术。 国内也有一些商业化的分词组件,要真正好用的分词器,还是得花一些钱。
lucene5.4.1所有代码和拓展代码地址:https://github.com/StayY/begincodeLucene