lucene根据document获取词频

在lucene过程中可能会遇到需要获取在单个文章中词频,可以使用一下方法:

long cp = 0;
TokenStream tokenStream = null;
try {
    tokenStream = analyzer.tokenStream("neirong", new StringReader(doc.get("neirong")));
    CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
    tokenStream.reset();
    while (tokenStream.incrementToken()) {
        if(charTermAttribute.toString().indexOf(q) != -1){
		    cp++;
        }
    }
} catch (Exception e) {
	// TODO: handle exception
}finally {
		tokenStream.close();
}

大家有好的方式可以相互交流

你可能感兴趣的:(java,大数据)