Highlighter与BooleanQuery查询

查询这个功能很强大,也可以说是lucene搜索最重要的功能之一,但是这个功能对英文也来比较好用,对中文支持来说,就不那么理想了。

查询支持种类很多,最简单的是TermQuery,其次是TermRangeQuery、PrefixQuery、BooleanQuery、PhraseQuery等等,看起来确实很丰富,特别是PhraseQuery这种查询,就是通过短语来进行查询,听起来很不错,可惜经过本人尝试和网上了解,这个对中文根本行不通。退而求其次,BooleanQuery相对来说靠谱一点,但稍微要注意一些东西。

BooleanQuery用途大概是这样,比如有句话为

感恩南无大慈大悲救苦救难广大灵感观世音菩萨摩诃萨

我们输入两个关键字“南无“、”观世音“,如果采用 BooleanQuery查询,可以使用类似于"and"、“or"这样的逻辑关系来组合查询,只是BooleanQuery里面的对应的是:

BooleanClause.Occur.MUST(必须包括此关键字)
BooleanClause.Occur.MUST_NOT(必须不包括此关键字)
BooleanClause.Occur.SHOULD(可以包含)

下面我们来看一个实际的例子:

public static void main(String[] args) throws Exception {
        Directory dir = new RAMDirectory();
        Analyzer analyzer = new MyIKAnalyzer();
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        IndexWriter writer = new IndexWriter(dir,config);

   writer.addDocument(getDoc("感恩南无大慈大悲救苦救难广大灵感观世音菩萨摩诃萨"));
        writer.addDocument(getDoc("观世音菩萨摩诃萨"));
        writer.close();

        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher searcher = new IndexSearcher(reader);

        BooleanQuery.Builder builder = new BooleanQuery.Builder();

        QueryParser queryParser = new QueryParser("field",analyzer);
        builder.add(queryParser.parse("观世音菩萨"), BooleanClause.Occur.MUST);
        builder.add(queryParser.parse("感恩"), BooleanClause.Occur.MUST);

        TopScoreDocCollector collector = TopScoreDocCollector.create(10);
        searcher.search(builder.build(), collector);
        ScoreDoc[] hits = collector.topDocs().scoreDocs;

        System.out.println("Found " + hits.length + " hits.");
        for(int i=0;i<hits.length;++i) {
            int docId = hits[i].doc;
            Document d = searcher.doc(docId);
            System.out.println((i + 1) + ". " + d.get("field") );
        }
        reader.close();
    }

    private static Document getDoc(String field) throws IOException {
        Document doc = new Document();
        doc.add(new TextField("field", field, Field.Store.YES));
        return doc;
    }

上面的代码不做多说,只说一个地方,BooleanQuery这个在6.0版本里面不能直接用new BooleanQuery()这种形式构造,而是通过new BooleanQuery.Builder()创建一个BooleanQuery.Builder对象,而且Builder对象add的对象不能是TermQuery这种对象,而是要由QueryParser解析后对象,如上面代码中的:

builder.add(queryParser.parse("观世音菩萨"),。。。。。);

不然的话,中文词组就查不出来,这点至关重要。 最后获取BooleanQuery查询对象是这么获取的:

builder.build()

记住,获取查询对象必须要放在添加组合查询之后。

下面来一个highlighter与booleanQuery查询相结合的例子吧,直接上代码:

public static void main(String[] args) throws Exception {
        String text = readFile("d:/content1.txt");
        //设置高亮文本的样式
        Formatter formatter = new SimpleHTMLFormatter("<span>", "</span>");
        //通过TokenStream流获取存储分词的各种信息
        Analyzer analyzer = new MyIKAnalyzer();
        Query query = getBooleanQuery(analyzer);
        TokenStream tokenStream = analyzer.tokenStream("field",new StringReader(text));
        //通过评分后的查询对象
        QueryScorer scorer = new QueryScorer(query,"field");
        Highlighter highlighter = new Highlighter(formatter,scorer);
//        默认情况下,highlighter内部使用的是SimpleFragmenter分成片断,如果满足不了需求,可以用SimpleSpanFragmenter
        highlighter.setTextFragmenter(new SimpleSpanFragmenter(scorer));
        System.out.println(highlighter.getBestFragment(tokenStream,text));

    }

    static String readFile(String filename) throws Exception {
        String line = null;
        StringBuilder records = new StringBuilder();
        BufferedReader bufferedReader = new BufferedReader(new FileReader(filename));
        while ((line = bufferedReader.readLine()) != null) {
            records.append(line);
        }
        bufferedReader.close();
        return records.toString();
    }

    public static Query getBooleanQuery(Analyzer analyzer) throws ParseException {
        BooleanQuery.Builder builder = new BooleanQuery.Builder();
        QueryParser queryParser = new QueryParser("field",analyzer);
        builder.add(queryParser.parse("地藏菩萨"), BooleanClause.Occur.MUST);
        builder.add(queryParser.parse("南无"), BooleanClause.Occur.MUST);
        return builder.build();
    }

注意,我已经在ext.dic里面添加了“地藏菩萨”这个词组,上面的程序运行结果如下:

早晨请这个水喝,在二十四小时之内,心里思念<span>地藏菩萨</span>名号“<span>南无</span><span>地藏菩萨</span>”六字,喝的时候长跪捧这杯水,要发愿请<span>地藏菩萨</span>加持。这部经上指示说面向南,南西北方都是不定的,你的意念对着<span>地藏菩萨</span>像就行了,想的是南方

需要注意的是,获取BooleanQuery查询对象的位置要放在获取tokenStream之前,不然会报错。从上面运行输出来看,结果相当完美。

你可能感兴趣的:(Lucene,highlighter,BooleanQuery)