查询这个功能很强大,也可以说是lucene搜索最重要的功能之一,但是这个功能对英文也来比较好用,对中文支持来说,就不那么理想了。
查询支持种类很多,最简单的是TermQuery,其次是TermRangeQuery、PrefixQuery、BooleanQuery、PhraseQuery等等,看起来确实很丰富,特别是PhraseQuery这种查询,就是通过短语来进行查询,听起来很不错,可惜经过本人尝试和网上了解,这个对中文根本行不通。退而求其次,BooleanQuery相对来说靠谱一点,但稍微要注意一些东西。
BooleanQuery用途大概是这样,比如有句话为
感恩南无大慈大悲救苦救难广大灵感观世音菩萨摩诃萨
我们输入两个关键字“南无“、”观世音“,如果采用 BooleanQuery查询,可以使用类似于"and"、“or"这样的逻辑关系来组合查询,只是BooleanQuery里面的对应的是:
BooleanClause.Occur.MUST(必须包括此关键字) BooleanClause.Occur.MUST_NOT(必须不包括此关键字) BooleanClause.Occur.SHOULD(可以包含)
下面我们来看一个实际的例子:
public static void main(String[] args) throws Exception {
Directory dir = new RAMDirectory();
Analyzer analyzer = new MyIKAnalyzer();
IndexWriterConfig config = new IndexWriterConfig(analyzer);
IndexWriter writer = new IndexWriter(dir,config);
writer.addDocument(getDoc("感恩南无大慈大悲救苦救难广大灵感观世音菩萨摩诃萨"));
writer.addDocument(getDoc("观世音菩萨摩诃萨"));
writer.close();
IndexReader reader = DirectoryReader.open(dir);
IndexSearcher searcher = new IndexSearcher(reader);
BooleanQuery.Builder builder = new BooleanQuery.Builder();
QueryParser queryParser = new QueryParser("field",analyzer);
builder.add(queryParser.parse("观世音菩萨"), BooleanClause.Occur.MUST);
builder.add(queryParser.parse("感恩"), BooleanClause.Occur.MUST);
TopScoreDocCollector collector = TopScoreDocCollector.create(10);
searcher.search(builder.build(), collector);
ScoreDoc[] hits = collector.topDocs().scoreDocs;
System.out.println("Found " + hits.length + " hits.");
for(int i=0;i<hits.length;++i) {
int docId = hits[i].doc;
Document d = searcher.doc(docId);
System.out.println((i + 1) + ". " + d.get("field") );
}
reader.close();
}
private static Document getDoc(String field) throws IOException {
Document doc = new Document();
doc.add(new TextField("field", field, Field.Store.YES));
return doc;
}
上面的代码不做多说,只说一个地方,BooleanQuery这个在6.0版本里面不能直接用new BooleanQuery()这种形式构造,而是通过new BooleanQuery.Builder()创建一个BooleanQuery.Builder对象,而且Builder对象add的对象不能是TermQuery这种对象,而是要由QueryParser解析后对象,如上面代码中的:
builder.add(queryParser.parse("观世音菩萨"),。。。。。);
不然的话,中文词组就查不出来,这点至关重要。 最后获取BooleanQuery查询对象是这么获取的:
builder.build()
记住,获取查询对象必须要放在添加组合查询之后。
下面来一个highlighter与booleanQuery查询相结合的例子吧,直接上代码:
public static void main(String[] args) throws Exception {
String text = readFile("d:/content1.txt");
//设置高亮文本的样式
Formatter formatter = new SimpleHTMLFormatter("<span>", "</span>");
//通过TokenStream流获取存储分词的各种信息
Analyzer analyzer = new MyIKAnalyzer();
Query query = getBooleanQuery(analyzer);
TokenStream tokenStream = analyzer.tokenStream("field",new StringReader(text));
//通过评分后的查询对象
QueryScorer scorer = new QueryScorer(query,"field");
Highlighter highlighter = new Highlighter(formatter,scorer);
// 默认情况下,highlighter内部使用的是SimpleFragmenter分成片断,如果满足不了需求,可以用SimpleSpanFragmenter
highlighter.setTextFragmenter(new SimpleSpanFragmenter(scorer));
System.out.println(highlighter.getBestFragment(tokenStream,text));
}
static String readFile(String filename) throws Exception {
String line = null;
StringBuilder records = new StringBuilder();
BufferedReader bufferedReader = new BufferedReader(new FileReader(filename));
while ((line = bufferedReader.readLine()) != null) {
records.append(line);
}
bufferedReader.close();
return records.toString();
}
public static Query getBooleanQuery(Analyzer analyzer) throws ParseException {
BooleanQuery.Builder builder = new BooleanQuery.Builder();
QueryParser queryParser = new QueryParser("field",analyzer);
builder.add(queryParser.parse("地藏菩萨"), BooleanClause.Occur.MUST);
builder.add(queryParser.parse("南无"), BooleanClause.Occur.MUST);
return builder.build();
}
注意,我已经在ext.dic里面添加了“地藏菩萨”这个词组,上面的程序运行结果如下:
早晨请这个水喝,在二十四小时之内,心里思念<span>地藏菩萨</span>名号“<span>南无</span><span>地藏菩萨</span>”六字,喝的时候长跪捧这杯水,要发愿请<span>地藏菩萨</span>加持。这部经上指示说面向南,南西北方都是不定的,你的意念对着<span>地藏菩萨</span>像就行了,想的是南方
需要注意的是,获取BooleanQuery查询对象的位置要放在获取tokenStream之前,不然会报错。从上面运行输出来看,结果相当完美。