lxwt909

Lucene5学习之Highlighte关键字高亮

Google我想大家应该都用过，输入我们的搜索关键字，然后回车，Google就会返回搜索结果，在返回的界面里，会对命中的关键字进行红色字体标注出来，这就是高亮功能。

Lucene5中高亮功能相关API都在org.apache.lucene.search.highlight包下，我们先从简单的高亮器开始即Highlighter

透过Hightlighter类的源码，我们首先需要去了解里面的每个成员变量的含义：

  public static final int DEFAULT_MAX_CHARS_TO_ANALYZE = 50*1024;

  private int maxDocCharsToAnalyze = DEFAULT_MAX_CHARS_TO_ANALYZE;
  private Formatter formatter;
  private Encoder encoder;
  private Fragmenter textFragmenter=new SimpleFragmenter();
  private Scorer fragmentScorer=null;

formatter：高亮的格式化器，即使用什么标签来高亮。默认是<B></B>

Encoder:编码器，比如返回的高亮片段里面包含了特殊字符，比如< > & "等等，如果你需要进行转义，则需要指定一个编码器

Scorer:是用来为每个命中的Frag进行打分的

Fragmenter:即拆分器，把原始文本拆分成一个个高亮片段。

DEFAULT_MAX_CHARS_TO_ANALYZE：设置了当前高亮器可以处理的最大字符个数

下面是一些高亮器的简单使用示例：

package com.yida.framework.lucene5.hightlight;

import java.io.IOException;
import java.util.Arrays;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.FieldType;
import org.apache.lucene.document.IntField;
import org.apache.lucene.document.StoredField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queries.CommonTermsQuery;
import org.apache.lucene.search.BooleanClause.Occur;
import org.apache.lucene.search.FuzzyQuery;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.MultiTermQuery;
import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.QueryWrapperFilter;
import org.apache.lucene.search.RegexpQuery;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TermRangeQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.WildcardQuery;
import org.apache.lucene.search.highlight.Formatter;
import org.apache.lucene.search.highlight.Fragmenter;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.InvalidTokenOffsetsException;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.QueryTermScorer;
import org.apache.lucene.search.highlight.Scorer;
import org.apache.lucene.search.highlight.SimpleFragmenter;
import org.apache.lucene.search.highlight.SimpleHTMLEncoder;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.search.highlight.SimpleSpanFragmenter;
import org.apache.lucene.search.highlight.TokenSources;
import org.apache.lucene.search.join.BitDocIdSetCachingWrapperFilter;
import org.apache.lucene.search.join.BitDocIdSetFilter;
import org.apache.lucene.search.join.ScoreMode;
import org.apache.lucene.search.join.ToParentBlockJoinQuery;
import org.apache.lucene.search.spans.SpanNearQuery;
import org.apache.lucene.search.spans.SpanQuery;
import org.apache.lucene.search.spans.SpanTermQuery;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.BytesRef;

/**
 * 高亮简单测试
 * 
 * @author Lanxiaowei
 * 
 */
public class SimpleHightlightTest {
	final int QUERY = 0;
	final int QUERY_TERM = 1;
	final String FIELD_NAME = "contents";
	private static final String NUMERIC_FIELD_NAME = "nfield";
	private Directory ramDir = new RAMDirectory();
	private Analyzer analyzer = new StandardAnalyzer();
	int numHighlights = 0;
	TopDocs hits;
	int mode = QUERY;
	Fragmenter frag = new SimpleFragmenter(20);

	final FieldType FIELD_TYPE_TV;
	{
		FieldType fieldType = new FieldType(TextField.TYPE_STORED);
		fieldType.setStoreTermVectors(true);
		fieldType.setStoreTermVectorPositions(true);
		fieldType.setStoreTermVectorPayloads(true);
		fieldType.setStoreTermVectorOffsets(true);
		fieldType.freeze();
		FIELD_TYPE_TV = fieldType;
	}

	String[] texts = {
			"Hello this is a piece of text that is very long and contains too much preamble and the meat is really here which says kennedy has been shot",
			"This piece of text refers to Kennedy at the beginning then has a longer piece of text that is very long in the middle and finally ends with another reference to Kennedy",
			"JFK has been shot", "John Kennedy Kennedy has been shot",
			"This text has a typo in referring to Keneddy",
			"wordx wordy wordz wordx wordy wordx worda wordb wordy wordc",
			"y z x y z a b", "lets is a the lets is a the lets is a the lets" };

	/**
	 * 创建测试索引
	 * 
	 * @throws IOException
	 */
	public void createIndex() throws IOException {
		// Analyzer analyzer = new StandardAnalyzer();
		IndexWriter writer = new IndexWriter(ramDir, new IndexWriterConfig(
				analyzer));
		// 添加几个文本域
		for (String text : texts) {
			writer.addDocument(doc(FIELD_NAME, text));
		}

		// 添加几个数字域
		Document doc = new Document();
		doc.add(new IntField(NUMERIC_FIELD_NAME, 1, Field.Store.NO));
		doc.add(new StoredField(NUMERIC_FIELD_NAME, 1));
		writer.addDocument(doc);

		doc = new Document();
		doc.add(new IntField(NUMERIC_FIELD_NAME, 3, Field.Store.NO));
		doc.add(new StoredField(NUMERIC_FIELD_NAME, 3));
		writer.addDocument(doc);

		doc = new Document();
		doc.add(new IntField(NUMERIC_FIELD_NAME, 5, Field.Store.NO));
		doc.add(new StoredField(NUMERIC_FIELD_NAME, 5));
		writer.addDocument(doc);

		doc = new Document();
		doc.add(new IntField(NUMERIC_FIELD_NAME, 7, Field.Store.NO));
		doc.add(new StoredField(NUMERIC_FIELD_NAME, 7));
		writer.addDocument(doc);

		Document childDoc = doc(FIELD_NAME, "child document");
		Document parentDoc = doc(FIELD_NAME, "parent document");
		writer.addDocuments(Arrays.asList(childDoc, parentDoc));

		// 强制合并段文件，限制合并后段文件个数最大数量
		writer.forceMerge(1);
		writer.close();
	}

	/**
	 * 为Document添加域
	 * 
	 * @param name
	 * @param value
	 * @return
	 */
	private Document doc(String name, String value) {
		Document d = new Document();
		d.add(new Field(name, value, FIELD_TYPE_TV));
		return d;
	}

	/**
	 * 创建Token对象
	 * 
	 * @param term
	 * @param start
	 * @param offset
	 * @return
	 */
	private static Token createToken(String term, int start, int offset) {
		return new Token(term, start, offset);
	}

	public Highlighter getHighlighter(Query query, String fieldName,
			Formatter formatter) {
		return getHighlighter(query, fieldName, formatter, true);
	}

	/**
	 * 创建高亮器
	 * 
	 * @param query
	 * @param fieldName
	 * @param formatter
	 * @param expanMultiTerm
	 * @return
	 */
	public Highlighter getHighlighter(Query query, String fieldName,
			Formatter formatter, boolean expanMultiTerm) {
		Scorer scorer;
		if (mode == QUERY) {
			scorer = new QueryScorer(query, fieldName);
			// 是否展开多Term查询
			if (!expanMultiTerm) {
				((QueryScorer) scorer).setExpandMultiTermQuery(false);
			}
		} else if (mode == QUERY_TERM) {
			scorer = new QueryTermScorer(query);
		} else {
			throw new RuntimeException("Unknown highlight mode");
		}
		return new Highlighter(formatter, scorer);
	}

	/**
	 * 获取高亮后的文本(如果高亮失败，则返回原样文本)
	 * 
	 * @param query
	 * @param fieldName
	 * @param text
	 * @return
	 * @throws IOException
	 * @throws InvalidTokenOffsetsException
	 */
	private String highlightField(Query query, String fieldName, String text)
			throws IOException, InvalidTokenOffsetsException {
		// 将用户输入的搜索关键字通过分词器转化为TokenStream
		TokenStream tokenStream = analyzer.tokenStream(fieldName, text);
		// SimpleHTMLFormatter默认是使用<B></B>
		SimpleHTMLFormatter formatter = new SimpleHTMLFormatter();
		// 第3个参数表示默认域
		QueryScorer scorer = new QueryScorer(query, fieldName, FIELD_NAME);
		Highlighter highlighter = new Highlighter(formatter, scorer);
		highlighter.setTextFragmenter(new SimpleFragmenter(Integer.MAX_VALUE));

		// maxNumFragments:最大的高亮个数，separator：多个高亮段之间的分隔符，默认是...
		String rv = highlighter.getBestFragments(tokenStream, text, 1, "...");
		return rv.length() == 0 ? text : rv;
	}

	public Query doSearching(Query unReWrittenQuery) throws Exception {
		IndexReader reader = DirectoryReader.open(ramDir);
		IndexSearcher searcher = new IndexSearcher(reader);
		// 对于MultiTermQuery, TermRangeQuery, PrefixQuery，你如果使用QueryTermScorer而非QueryScorer，
		//那么你必须对MultiTermQuery, TermRangeQuery, PrefixQuery进行rewrite
		Query query = unReWrittenQuery.rewrite(reader);
		hits = searcher.search(query, null, 1000);
		return query;
	}

	public void testHighlightingWithDefaultField() throws Exception {

		String s1 = "I call our world world Flatland, not because we call it so";

		PhraseQuery q = new PhraseQuery();
		// 表示两个Term之间最大3个间距
		q.setSlop(3);
		q.add(new Term(FIELD_NAME, "world"));
		q.add(new Term(FIELD_NAME, "flatland"));

		String observed = highlightField(q, FIELD_NAME, s1);
		System.out.println(observed);

		q = new PhraseQuery();
		q.setSlop(3);
		q.add(new Term("text", "world"));
		q.add(new Term("text", "flatland"));
		// 高亮域域查询时Query域不一致，所以无法高亮，这个务必注意
		observed = highlightField(q, FIELD_NAME, s1);
		System.out.println(observed);
	}

	/**
	 * CommonTermsQuery中使用高亮
	 * 
	 * @throws Exception
	 */
	public void testHighlightingCommonTermsQuery() throws Exception {
		createIndex();
		// 第一个参数：频率高的Term必须出现，第二个参数：频率低的Term可有可无，第三个参数表示Term出现的最大频率
		CommonTermsQuery query = new CommonTermsQuery(Occur.MUST, Occur.SHOULD,
				3);
		query.add(new Term(FIELD_NAME, "this"));
		query.add(new Term(FIELD_NAME, "long"));
		query.add(new Term(FIELD_NAME, "very"));
		IndexReader reader = DirectoryReader.open(ramDir);
		IndexSearcher searcher = new IndexSearcher(reader);
		TopDocs hits = searcher.search(query, 10);
		System.out.println("hits.totalHits:" + hits.totalHits);
		QueryScorer scorer = new QueryScorer(query, FIELD_NAME);
		Highlighter highlighter = new Highlighter(scorer);

		Document doc = searcher.doc(hits.scoreDocs[0].doc);
		String storedField = doc.get(FIELD_NAME);

		TokenStream stream = TokenSources.getAnyTokenStream(
				searcher.getIndexReader(), hits.scoreDocs[0].doc, FIELD_NAME,
				doc, analyzer);
		Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);
		highlighter.setTextFragmenter(fragmenter);
		String fragment = highlighter.getBestFragment(stream, storedField);
		System.out.println("fragment:" + fragment);

		doc = searcher.doc(hits.scoreDocs[1].doc);
		storedField = doc.get(FIELD_NAME);

		stream = TokenSources.getAnyTokenStream(searcher.getIndexReader(),
				hits.scoreDocs[1].doc, FIELD_NAME, doc, analyzer);
		highlighter.setTextFragmenter(new SimpleSpanFragmenter(scorer));
		fragment = highlighter.getBestFragment(stream, storedField);
		// 打印第二个匹配结果高亮后的结果，默认是加<B></B>
		System.out.println("fragment:" + fragment);
		reader.close();
		ramDir.close();
	}

	/**
	 * 测试下高亮最大显示个数和高亮段显示字符长度控制
	 * 
	 * @throws Exception
	 */
	public void testSimpleTermQueryHighlighter() throws Exception {
		// 创建索引
		createIndex();
		IndexReader reader = DirectoryReader.open(ramDir);
		IndexSearcher searcher = new IndexSearcher(reader);
		Query query = doSearching(new TermQuery(new Term(FIELD_NAME, "kennedy")));
		// 这里不能简单的使用TermQuery,MultiTermQuery，需要query.rewriter下，需要引起你们的注意
		// Query query = new TermQuery(new Term(FIELD_NAME, "kennedy"));

		// 设置最大显示的高亮段个数，即显示<B></B>的个数
		int maxNumFragmentsRequired = 1;

		QueryScorer scorer = new QueryScorer(query, FIELD_NAME);
		Highlighter highlighter = new Highlighter(scorer);

		for (int i = 0; i < hits.totalHits; i++) {
			String text = searcher.doc(hits.scoreDocs[i].doc).get(FIELD_NAME);
			TokenStream tokenStream = analyzer.tokenStream(FIELD_NAME, text);
			// SimpleFragmenter构造函数里的这个参数表示显示的高亮段字符的总长度<B></B>标签也是计算在内的
			// 自己调整这个数字，数数显示的高亮段字符的长度去感受下，你就懂了
			highlighter.setTextFragmenter(new SimpleFragmenter(17));

			String result = highlighter.getBestFragments(tokenStream, text,
					maxNumFragmentsRequired, "...");
			System.out.println("\t" + result);
		}
	}

	public void testSimplePhraseQueryHightlighting() throws Exception {
		// 创建索引
		createIndex();
		IndexReader reader = DirectoryReader.open(ramDir);
		IndexSearcher searcher = new IndexSearcher(reader);
		PhraseQuery phraseQuery = new PhraseQuery();
		phraseQuery.add(new Term(FIELD_NAME, "very"));
		phraseQuery.add(new Term(FIELD_NAME, "long"));
		phraseQuery.add(new Term(FIELD_NAME, "contains"), 3);

		// 如果不对Query进行rewrite，你将会得到一个NullPointerException
		Query query = doSearching(phraseQuery);

		// 这个参数很诡异 SimpleFragmenter的构造参数，
		int maxNumFragmentsRequired = 2;

		QueryScorer scorer = new QueryScorer(query, FIELD_NAME);
		Highlighter highlighter = new Highlighter(scorer);

		for (int i = 0; i < hits.totalHits; i++) {
			final Document doc = searcher.doc(hits.scoreDocs[i].doc);
			String text = doc.get(FIELD_NAME);
			TokenStream tokenStream = TokenSources.getAnyTokenStream(reader,
					hits.scoreDocs[i].doc, FIELD_NAME, doc, analyzer);

			highlighter.setTextFragmenter(new SimpleFragmenter(40));

			String result = highlighter.getBestFragments(tokenStream, text,
					maxNumFragmentsRequired, "...");
			System.out.println("\t" + result);
		}

		// 测试2
		phraseQuery = new PhraseQuery();
		phraseQuery.add(new Term(FIELD_NAME, "piece"), 1);
		phraseQuery.add(new Term(FIELD_NAME, "text"), 3);
		phraseQuery.add(new Term(FIELD_NAME, "refers"), 4);
		phraseQuery.add(new Term(FIELD_NAME, "kennedy"), 6);

		query = doSearching(phraseQuery);
		maxNumFragmentsRequired = 2;

		scorer = new QueryScorer(query, FIELD_NAME);
		highlighter = new Highlighter(scorer);

		for (int i = 0; i < hits.totalHits; i++) {
			final Document doc = searcher.doc(hits.scoreDocs[i].doc);
			String text = doc.get(FIELD_NAME);
			TokenStream tokenStream = TokenSources.getAnyTokenStream(reader,
					hits.scoreDocs[i].doc, FIELD_NAME, doc, analyzer);

			highlighter.setTextFragmenter(new SimpleFragmenter(40));

			String result = highlighter.getBestFragments(tokenStream, text,
					maxNumFragmentsRequired, "...");
			System.out.println("\t" + result);
		}
	}

	/**
	 * 在正则查询中使用高亮器
	 * 
	 * @throws Exception
	 */
	public void testRegexQueryHightlighting() throws Exception {
		// 创建索引
		createIndex();
		IndexReader reader = DirectoryReader.open(ramDir);
		IndexSearcher searcher = new IndexSearcher(reader);
		Query query = new RegexpQuery(new Term(FIELD_NAME, "ken.*"));
		searcher = new IndexSearcher(reader);
		hits = searcher.search(query, 100);
		int maxNumFragmentsRequired = 2;

		QueryScorer scorer = new QueryScorer(query, FIELD_NAME);
		Highlighter highlighter = new Highlighter(scorer);

		for (int i = 0; i < hits.totalHits; i++) {
			final Document doc = searcher.doc(hits.scoreDocs[i].doc);
			String text = doc.get(FIELD_NAME);
			TokenStream tokenStream = TokenSources.getAnyTokenStream(reader,
					hits.scoreDocs[i].doc, FIELD_NAME, doc, analyzer);

			highlighter.setTextFragmenter(new SimpleFragmenter(40));

			String result = highlighter.getBestFragments(tokenStream, text,
					maxNumFragmentsRequired, "...");
			System.out.println("\t" + result);
		}

	}
	
	/**
	 * 在通配符查询中使用高亮器
	 * 
	 * @throws Exception
	 */
	public void testWildcardQueryHightlighting() throws Exception {
		// 创建索引
		createIndex();
		IndexReader reader = DirectoryReader.open(ramDir);
		IndexSearcher searcher = new IndexSearcher(reader);
		Query query = new WildcardQuery(new Term(FIELD_NAME, "k?nnedy"));
		searcher = new IndexSearcher(reader);
		hits = searcher.search(query, 100);
		int maxNumFragmentsRequired = 2;

		QueryScorer scorer = new QueryScorer(query, FIELD_NAME);
		Highlighter highlighter = new Highlighter(scorer);

		for (int i = 0; i < hits.totalHits; i++) {
			final Document doc = searcher.doc(hits.scoreDocs[i].doc);
			String text = doc.get(FIELD_NAME);
			TokenStream tokenStream = TokenSources.getAnyTokenStream(reader,
					hits.scoreDocs[i].doc, FIELD_NAME, doc, analyzer);

			highlighter.setTextFragmenter(new SimpleFragmenter(40));

			String result = highlighter.getBestFragments(tokenStream, text,
					maxNumFragmentsRequired, "...");
			System.out.println("\t" + result);
		}

	}
	
	/**
	 * 在TermRangeQuery中使用高亮器
	 * 
	 * @throws Exception
	 */
	public void testTermRangeQueryHightlighting() throws Exception {
		// 创建索引
		createIndex();
		IndexReader reader = DirectoryReader.open(ramDir);
		IndexSearcher searcher = new IndexSearcher(reader);
		TermRangeQuery rangeQuery = new TermRangeQuery(
	            FIELD_NAME,
	            new BytesRef("kannedy"),
	            new BytesRef("kznnedy"),
	            true, true);
		rangeQuery.setRewriteMethod(MultiTermQuery.SCORING_BOOLEAN_QUERY_REWRITE);
		searcher = new IndexSearcher(reader);
		hits = searcher.search(rangeQuery, 100);
		int maxNumFragmentsRequired = 2;

		QueryScorer scorer = new QueryScorer(rangeQuery, FIELD_NAME);
		Highlighter highlighter = new Highlighter(scorer);

		for (int i = 0; i < hits.totalHits; i++) {
			final Document doc = searcher.doc(hits.scoreDocs[i].doc);
			String text = doc.get(FIELD_NAME);
			TokenStream tokenStream = TokenSources.getAnyTokenStream(reader,
					hits.scoreDocs[i].doc, FIELD_NAME, doc, analyzer);

			highlighter.setTextFragmenter(new SimpleFragmenter(40));

			String result = highlighter.getBestFragments(tokenStream, text,
					maxNumFragmentsRequired, "...");
			System.out.println("\t" + result);
		}

	}
	
	/**
	 * 在SpanNear查询中使用高亮器
	 * 
	 * @throws Exception
	 */
	public void testSpanNearQueryHightlighting() throws Exception {
		// 创建索引
		createIndex();
		IndexReader reader = DirectoryReader.open(ramDir);
		IndexSearcher searcher = new IndexSearcher(reader);
		Query query = new SpanNearQuery(new SpanQuery[] {
		        new SpanTermQuery(new Term(FIELD_NAME, "beginning")),
		        new SpanTermQuery(new Term(FIELD_NAME, "kennedy")) }, 3, false);
		/*Query query = doSearching(new SpanNearQuery(new SpanQuery[] {
		        new SpanTermQuery(new Term(FIELD_NAME, "beginning")),
		        new SpanTermQuery(new Term(FIELD_NAME, "kennedy")) }, 3, false));*/
		searcher = new IndexSearcher(reader);
		hits = searcher.search(query, 100);
		int maxNumFragmentsRequired = 2;

		QueryScorer scorer = new QueryScorer(query, FIELD_NAME);
		Highlighter highlighter = new Highlighter(scorer);

		for (int i = 0; i < hits.totalHits; i++) {
			final Document doc = searcher.doc(hits.scoreDocs[i].doc);
			String text = doc.get(FIELD_NAME);
			TokenStream tokenStream = TokenSources.getAnyTokenStream(reader,
					hits.scoreDocs[i].doc, FIELD_NAME, doc, analyzer);

			highlighter.setTextFragmenter(new SimpleFragmenter(40));

			String result = highlighter.getBestFragments(tokenStream, text,
					maxNumFragmentsRequired, "...");
			System.out.println("\t" + result);
		}

	}
	
	/**
	 * 在FuzzyQuery查询中使用高亮器
	 * 
	 * @throws Exception
	 */
	public void testFuzzyQueryHightlighting() throws Exception {
		// 创建索引
		createIndex();
		IndexReader reader = DirectoryReader.open(ramDir);
		IndexSearcher searcher = new IndexSearcher(reader);
		FuzzyQuery query = new FuzzyQuery(new Term(FIELD_NAME, "kinnedy"), 2);
		searcher = new IndexSearcher(reader);
		hits = searcher.search(query, 100);
		int maxNumFragmentsRequired = 2;

		QueryScorer scorer = new QueryScorer(query, FIELD_NAME);
		Highlighter highlighter = new Highlighter(scorer);

		for (int i = 0; i < hits.totalHits; i++) {
			final Document doc = searcher.doc(hits.scoreDocs[i].doc);
			String text = doc.get(FIELD_NAME);
			TokenStream tokenStream = TokenSources.getAnyTokenStream(reader,
					hits.scoreDocs[i].doc, FIELD_NAME, doc, analyzer);

			highlighter.setTextFragmenter(new SimpleFragmenter(40));

			String result = highlighter.getBestFragments(tokenStream, text,
					maxNumFragmentsRequired, "...");
			System.out.println("\t" + result);
		}
	}

	/**
	 * 在joinQuery中使用高亮器
	 * @throws Exception
	 */
	public void testToParentBlockJoinQuery() throws Exception {
		// 创建索引
		createIndex();
		IndexReader reader = DirectoryReader.open(ramDir);
		IndexSearcher searcher = new IndexSearcher(reader);
		//你过滤出域值包含parent的索引文档作为parent
		BitDocIdSetFilter parentFilter = new BitDocIdSetCachingWrapperFilter(
				new QueryWrapperFilter(new TermQuery(new Term(FIELD_NAME,
						"parent"))));
		//然后通过ToParentBlockJoinQuery在parent中找child索引文档且child索引文档必须符合[域值包含child字符]
		//我们在创建索引时是通过addDocuments添加的parent和child的，即addDocuments，这里接收一个documents数组，
		//父子关系判定规则是，数组中最后一个索引为parent,前面剩下的索引文档都作为parent的child,记住child必须在parent前面
		//这也是addDocuments和addDocument的区别
		Query query = new ToParentBlockJoinQuery(new TermQuery(new Term(
				FIELD_NAME, "child")), parentFilter, ScoreMode.Total);
		hits = searcher.search(query, 100);
		int maxNumFragmentsRequired = 3;

		QueryScorer scorer = new QueryScorer(query, FIELD_NAME);
		Highlighter highlighter = new Highlighter(scorer);

		for (int i = 0; i < hits.totalHits; i++) {
			String text = "child document";
			TokenStream tokenStream = analyzer.tokenStream(FIELD_NAME, text);

			highlighter.setTextFragmenter(new SimpleFragmenter(50));
			String fragment = highlighter.getBestFragments(tokenStream, text,
					maxNumFragmentsRequired, "...");
			System.out.println("\t" + fragment);
		}
	}
	
	/**
	 * 测试高亮时对特殊字符进行编码，如< > & "等等
	 * 在构造高亮器时传入SimpleHTMLEncoder即可
	 * 通过SimpleHTMLFormatter可以自定义高亮时的开始和结束标签，如：new SimpleHTMLFormatter("<font color=\"red\">","</font>")
	 * 默认是<B> </B>
	 * @throws Exception
	 */
	public void testEncoding() throws Exception {
	    String rawDocContent = "\"Smith & sons' prices < 3 and >4\" claims article";
	    Query query = new RegexpQuery(new Term(FIELD_NAME,"price.*"));
	    QueryScorer scorer = new QueryScorer(query, FIELD_NAME, FIELD_NAME);
	    Highlighter highlighter = new Highlighter(new SimpleHTMLFormatter("<font color=\"red\">","</font>"),new SimpleHTMLEncoder(),scorer);
	    highlighter.setTextFragmenter(new SimpleFragmenter(2000));
	    TokenStream tokenStream = analyzer.tokenStream(FIELD_NAME, rawDocContent);

	    String encodedSnippet = highlighter.getBestFragments(tokenStream, rawDocContent, 1, "");
	    System.out.println(encodedSnippet);
	}

	public static void main(String[] args) throws Exception {
		SimpleHightlightTest simpleHightlightTest = new SimpleHightlightTest();
		// simpleHightlightTest.testHighlightingCommonTermsQuery();

		// simpleHightlightTest.testHighlightingWithDefaultField();

		// simpleHightlightTest.testSimpleTermQueryHighlighter();

		// simpleHightlightTest.testSimplePhraseQueryHightlighting();

		simpleHightlightTest.testRegexQueryHightlighting();
		
		//simpleHightlightTest.testWildcardQueryHightlighting();
		
		//simpleHightlightTest.testToParentBlockJoinQuery();
		
		//simpleHightlightTest.testSpanNearQueryHightlighting();
		
		//simpleHightlightTest.testFuzzyQueryHightlighting();
		
		//simpleHightlightTest.testTermRangeQueryHightlighting();
		
		//simpleHightlightTest.testEncoding();
	}
}

请注意看里面的代码注释，关键地方我有加相关说明。

这两个参数很诡异

当你设置最多显示2个高亮段，但如果SimpleFragmenter构造参数设置的最大段字符长度能够显示超过2个高亮段，则会无视maxNumFragmentsRequired设置

相反如果你最大能显示的段字符长度设置的很小不足以显示1个高亮段，而最多能显示的高亮段个数大于1，这是最大能显示的段字符长度设置无效，以最多能显示的高亮段个数为准。

int maxNumFragmentsRequired = 3;

new SimpleFragmenter(2)

上面两个参数的设置需要引起你们的注意。

接着来说说FastVectorHighlighter快速高亮器，为什么叫快速高亮器呢？意思就是说使用它进行高亮速度比较快，那它跟普通的Hightlighter有何区别呢？

两者本质区别就是实现方式不同，普通的Hightlighter是基本分词实现的，即先把用户输入的搜索关键字通过分词器Analyzer分词为一个个的Term,然后与Filed的域值进行算法匹配的。而FastVectorHighlighter是基于项向量实现的，从域中加载出位置起始信息，位置增量，项向量等信息，知道了每个域中每个Term的位置信息，自然就能快速的定位Term，然后在Term两头添加上高亮标签。既然需要读取项向量信息，意味着我们在创建索引的时候，就需要设置域存储位置起始索引、位置增量以及项向量，体现在API上就是：

         type.setStoreTermVectorOffsets(true);
         type.setStoreTermVectorPositions(true);
         type.setStoreTermVectors(true);

由于需要额外存储TermVector信息,则意味着需要额外占用硬盘空间和更多的磁盘IO操作，索引体积变大了，我们在进行索引查询的时候，占用的内存也会加大，所以不能说FastVectorHighlighter能完全替代Hightlighter，该不该使用FastVectorHighlighter应该考虑为索引域额外存储TermVector信息会带来多少查询性能的损耗，两者之间要做一个权衡。如果影响很大，这时就可以考虑使用前端JavaScript里进行高亮。即把用户输入的搜索关键字传递到后台里，后台对用户输入的搜索关键字进行分词，然后把分词后的Term回传到前端，在前端JS里进行高亮操作。

FastVectorHighlighter除了在高亮速度上比普通Hightlighter快点以外，它还有个特色就是支持多种样式高亮即不同的命中关键字可以使用不同的高亮样式进行显示(比如字体颜色不同，这取决于你高亮标签里的CSS样式)，FastVectorHighlighter还支持相邻的几个命中的关键字合并在一起进行高亮等等。

至于FastVectorHighlighter如何使用，两者在API使用上没有太大的区别，大家还是看下面的示例代码吧：

package com.yida.framework.lucene5.facet;

import java.io.IOException;
import java.util.HashSet;
import java.util.Set;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.FieldType;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.BooleanClause.Occur;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.highlight.Encoder;
import org.apache.lucene.search.highlight.SimpleHTMLEncoder;
import org.apache.lucene.search.vectorhighlight.FastVectorHighlighter;
import org.apache.lucene.search.vectorhighlight.FieldQuery;
import org.apache.lucene.search.vectorhighlight.FragListBuilder;
import org.apache.lucene.search.vectorhighlight.FragmentsBuilder;
import org.apache.lucene.search.vectorhighlight.ScoreOrderFragmentsBuilder;
import org.apache.lucene.search.vectorhighlight.SimpleFragListBuilder;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;

/**
 * 快速高亮器测试
 * 
 * @author Lanxiaowei
 * 
 */
public class FastVectorHighlighterTest {
	public static void main(String[] args) throws Exception {
		// testSimpleHighlightTest();
		// testPhraseHighlightLongTextTest();
		// testPhraseHighlightTest();
		// testBoostedPhraseHighlightTest();
		
		testFormater();
	}

	/**
	 * 快速高亮器第一个简单测试
	 * 
	 * @throws IOException
	 */
	public static void testSimpleHighlightTest() throws IOException {
		Directory dir = new RAMDirectory();
		IndexWriter writer = new IndexWriter(dir, new IndexWriterConfig(
				new StandardAnalyzer()));
		Document doc = new Document();
		FieldType type = new FieldType(TextField.TYPE_STORED);
		type.setStoreTermVectorOffsets(true);
		type.setStoreTermVectorPositions(true);
		type.setStoreTermVectors(true);
		type.freeze();
		Field field = new Field(
				"field",
				"This is a test where foo is highlighed and should be highlighted",
				type);

		doc.add(field);
		writer.addDocument(doc);
		FastVectorHighlighter highlighter = new FastVectorHighlighter();
		IndexReader reader = DirectoryReader.open(writer, true);
		int docId = 0;
		FieldQuery fieldQuery = highlighter.getFieldQuery(new TermQuery(
				new Term("field", "foo")), reader);

		/**
		 * 测试高亮段显示字符最大长度的影响
		 */
		String[] bestFragments = highlighter.getBestFragments(fieldQuery,
				reader, docId, "field", 54, 1);
		System.out.println(bestFragments[0]);

		bestFragments = highlighter.getBestFragments(fieldQuery, reader, docId,
				"field", 52, 1);
		System.out.println(bestFragments[0]);

		bestFragments = highlighter.getBestFragments(fieldQuery, reader, docId,
				"field", 30, 1);
		System.out.println(bestFragments[0]);
		reader.close();
		writer.close();
		dir.close();
	}

	public static void testPhraseHighlightLongTextTest() throws IOException {
		Directory dir = new RAMDirectory();
		IndexWriter writer = new IndexWriter(dir, new IndexWriterConfig(
				new StandardAnalyzer()));
		Document doc = new Document();
		FieldType type = new FieldType(TextField.TYPE_STORED);
		type.setStoreTermVectorOffsets(true);
		type.setStoreTermVectorPositions(true);
		type.setStoreTermVectors(true);
		type.freeze();
		Field text = new Field(
				"text",
				"Netscape was the general name for a series of web browsers originally produced by Netscape Communications Corporation, now a subsidiary of AOL The original browser was once the dominant browser in terms of usage share, but as a result of the first browser war it lost virtually all of its share to Internet Explorer Netscape was discontinued and support for all Netscape browsers and client products was terminated on March 1, 2008 Netscape Navigator was the name of Netscape\u0027s web browser from versions 1.0 through 4.8 The first beta release versions of the browser were released in 1994 and known as Mosaic and then Mosaic Netscape until a legal challenge from the National Center for Supercomputing Applications (makers of NCSA Mosaic, which many of Netscape\u0027s founders used to develop), led to the name change to Netscape Navigator The company\u0027s name also changed from Mosaic Communications Corporation to Netscape Communications Corporation The browser was easily the most advanced...",
				type);
		doc.add(text);
		writer.addDocument(doc);
		FastVectorHighlighter highlighter = new FastVectorHighlighter();
		IndexReader reader = DirectoryReader.open(writer, true);
		int docId = 0;
		String field = "text";
		{
			// BooleanQuery把两个Term分别进行高亮，因为BooleanQuery无法表示两个Term之间的位置关系
			BooleanQuery query = new BooleanQuery();
			query.add(new TermQuery(new Term(field, "internet")), Occur.MUST);
			query.add(new TermQuery(new Term(field, "explorer")), Occur.MUST);
			FieldQuery fieldQuery = highlighter.getFieldQuery(query, reader);
			String[] bestFragments = highlighter.getBestFragments(fieldQuery,
					reader, docId, field, 128, 1);
			System.out.println(bestFragments.length);
			System.out.println(bestFragments[0]);
		}

		{
			// 构造PhraseQuery时添加的两个Term之间是没有间隙，是连在一起的，且两者在原文中也是连在一起的，
			// 所以高亮时也是当作一个整体进行高亮的,这是普通高亮器实现不了的
			PhraseQuery query = new PhraseQuery();
			query.add(new Term(field, "internet"));
			query.add(new Term(field, "explorer"));
			FieldQuery fieldQuery = highlighter.getFieldQuery(query, reader);
			String[] bestFragments = highlighter.getBestFragments(fieldQuery,
					reader, docId, field, 128, 1);
			System.out.println(bestFragments.length);
			System.out.println(bestFragments[0]);
		}
		reader.close();
		writer.close();
		dir.close();
	}

	public static void testPhraseHighlightTest() throws IOException {
		Directory dir = new RAMDirectory();
		IndexWriter writer = new IndexWriter(dir, new IndexWriterConfig(
				new StandardAnalyzer()));
		Document doc = new Document();
		FieldType type = new FieldType(TextField.TYPE_STORED);

		// ////////////////////////////////////////////
		// 因为FastVectorHightlighter高亮器就是依赖项向量来完成高亮功能的，所以下面的3项设置是必须的
		type.setStoreTermVectorOffsets(true);
		type.setStoreTermVectorPositions(true);
		type.setStoreTermVectors(true);
		// ////////////////////////////////////////////

		type.freeze();
		Field longTermField = new Field(
				"long_term",
				"This is a test thisisaverylongwordandmakessurethisfails where foo is highlighed and should be highlighted",
				type);
		Field noLongTermField = new Field(
				"no_long_term",
				"This is a test where foo is highlighed and should be highlighted",
				type);

		doc.add(longTermField);
		doc.add(noLongTermField);
		writer.addDocument(doc);
		FastVectorHighlighter highlighter = new FastVectorHighlighter();
		IndexReader reader = DirectoryReader.open(writer, true);
		int docId = 0;
		String field = "no_long_term";
		{
			BooleanQuery query = new BooleanQuery();
			query.add(new TermQuery(new Term(field, "test")), Occur.MUST);
			query.add(new TermQuery(new Term(field, "foo")), Occur.MUST);
			query.add(new TermQuery(new Term(field, "highlighed")), Occur.MUST);
			FieldQuery fieldQuery = highlighter.getFieldQuery(query, reader);
			String[] bestFragments = highlighter.getBestFragments(fieldQuery,
					reader, docId, field, 18, 1);
			System.out.println(bestFragments.length);
			System.out.println(bestFragments[0]);
		}
		{
			BooleanQuery query = new BooleanQuery();
			PhraseQuery pq = new PhraseQuery();
			pq.add(new Term(field, "test"));
			pq.add(new Term(field, "foo"));
			pq.add(new Term(field, "highlighed"));
			pq.setSlop(5);
			query.add(new TermQuery(new Term(field, "foo")), Occur.MUST);
			query.add(pq, Occur.MUST);
			query.add(new TermQuery(new Term(field, "highlighed")), Occur.MUST);
			FieldQuery fieldQuery = highlighter.getFieldQuery(query, reader);
			String[] bestFragments = highlighter.getBestFragments(fieldQuery,
					reader, docId, field, 18, 1);
			System.out.println(bestFragments.length);
			if (bestFragments.length > 0) {
				System.out.println(bestFragments[0]);
			}
			bestFragments = highlighter.getBestFragments(fieldQuery, reader,
					docId, field, 30, 1);

			System.out.println(bestFragments.length);
			System.out.println(bestFragments[0]);

		}
		{
			PhraseQuery query = new PhraseQuery();
			query.add(new Term(field, "test"));
			query.add(new Term(field, "foo"));
			query.add(new Term(field, "highlighed"));
			query.setSlop(3);
			FieldQuery fieldQuery = highlighter.getFieldQuery(query, reader);
			String[] bestFragments = highlighter.getBestFragments(fieldQuery,
					reader, docId, field, 18, 1);
			System.out.println(bestFragments.length);
			bestFragments = highlighter.getBestFragments(fieldQuery, reader,
					docId, field, 30, 1);
			System.out.println(bestFragments.length);
			System.out.println(bestFragments[0]);

		}
		{
			PhraseQuery query = new PhraseQuery();
			query.add(new Term(field, "test"));
			query.add(new Term(field, "foo"));
			query.add(new Term(field, "highlighted"));
			query.setSlop(30);
			FieldQuery fieldQuery = highlighter.getFieldQuery(query, reader);
			String[] bestFragments = highlighter.getBestFragments(fieldQuery,
					reader, docId, field, 18, 1);
			System.out.println(bestFragments.length);
		}
		{
			BooleanQuery query = new BooleanQuery();
			PhraseQuery pq = new PhraseQuery();
			pq.add(new Term(field, "test"));
			pq.add(new Term(field, "foo"));
			pq.add(new Term(field, "highlighed"));
			pq.setSlop(5);
			BooleanQuery inner = new BooleanQuery();
			inner.add(pq, Occur.MUST);
			inner.add(new TermQuery(new Term(field, "foo")), Occur.MUST);
			query.add(inner, Occur.MUST);
			query.add(pq, Occur.MUST);
			query.add(new TermQuery(new Term(field, "highlighed")), Occur.MUST);
			FieldQuery fieldQuery = highlighter.getFieldQuery(query, reader);
			String[] bestFragments = highlighter.getBestFragments(fieldQuery,
					reader, docId, field, 18, 1);
			System.out.println(bestFragments.length);

			bestFragments = highlighter.getBestFragments(fieldQuery, reader,
					docId, field, 30, 1);
			System.out.println(bestFragments.length);
			System.out.println(bestFragments[0]);
		}

		field = "long_term";
		{
			BooleanQuery query = new BooleanQuery();
			query.add(new TermQuery(new Term(field,
					"thisisaverylongwordandmakessurethisfails")), Occur.MUST);
			query.add(new TermQuery(new Term(field, "foo")), Occur.MUST);
			query.add(new TermQuery(new Term(field, "highlighed")), Occur.MUST);
			FieldQuery fieldQuery = highlighter.getFieldQuery(query, reader);
			// 如果Term关键字自身长度就已经超过了设置的高亮段字符显示最大长度，则直接无视该设置，会完整显示该Term并加上高亮标签
			String[] bestFragments = highlighter.getBestFragments(fieldQuery,
					reader, docId, field, 18, 1);
			System.out.println(bestFragments.length);
			System.out.println(bestFragments[0]);
		}
		reader.close();
		writer.close();
		dir.close();
	}

	public static void testBoostedPhraseHighlightTest() throws IOException {
		Directory dir = new RAMDirectory();
		IndexWriter writer = new IndexWriter(dir, new IndexWriterConfig(
				new StandardAnalyzer()));
		Document doc = new Document();
		FieldType type = new FieldType(TextField.TYPE_STORED);
		type.setStoreTermVectorOffsets(true);
		type.setStoreTermVectorPositions(true);
		type.setStoreTermVectors(true);
		type.freeze();
		StringBuilder text = new StringBuilder();
		text.append("words words junk junk junk junk junk junk junk junk highlight junk junk junk junk together junk ");
		for (int i = 0; i < 10; i++) {
			text.append("junk junk junk junk junk junk junk junk junk junk junk junk junk junk junk junk junk junk junk junk ");
		}
		text.append("highlight words together ");
		for (int i = 0; i < 10; i++) {
			text.append("junk junk junk junk junk junk junk junk junk junk junk junk junk junk junk junk junk junk junk junk ");
		}
		doc.add(new Field("text", text.toString().trim(), type));
		writer.addDocument(doc);
		FastVectorHighlighter highlighter = new FastVectorHighlighter();
		IndexReader reader = DirectoryReader.open(writer, true);

		BooleanQuery terms = new BooleanQuery();
		terms.add(clause("text", "highlight"), Occur.MUST);
		terms.add(clause("text", "words"), Occur.MUST);
		terms.add(clause("text", "together"), Occur.MUST);
		BooleanQuery phrase = new BooleanQuery();
		phrase.add(clause("text", "highlight", "words", "together"), Occur.MUST);
		phrase.setBoost(100);

		BooleanQuery query = new BooleanQuery();
		query.add(terms, Occur.MUST);
		// 加上PhraseQuery就能将多个连在一起的Term一起高亮
		query.add(phrase, Occur.SHOULD);
		FieldQuery fieldQuery = highlighter.getFieldQuery(query, reader);
		String fragment = highlighter.getBestFragment(fieldQuery, reader, 0,
				"text", 10000);
		System.out.println(fragment);

		reader.close();
		writer.close();
		dir.close();
	}

	public static void testFormater() throws IOException, ParseException {
		Directory dir = new RAMDirectory();
		IndexWriter writer = new IndexWriter(dir, new IndexWriterConfig(
				new StandardAnalyzer()));
		Document doc = new Document();
		FieldType type = new FieldType(TextField.TYPE_STORED);
		type.setStoreTermVectorOffsets(true);
		type.setStoreTermVectorPositions(true);
		type.setStoreTermVectors(true);
		type.freeze();
		Field field = new Field(
				"field",
				"This is a test where foo is highlighed&<underline> and should be \"highlighted\".",
				type);

		doc.add(field);
		writer.addDocument(doc);

		
		//自定义高亮标签，默认为<B></B>
		String[] preTags = new String[] { "<font color=\"#0000FF\">","<strong>" };
		String[] postTags = new String[] { "</font>","</strong>" };
		
		
		FragListBuilder fragListBuilder = new SimpleFragListBuilder();
		FragmentsBuilder fragmentsBuilder = new ScoreOrderFragmentsBuilder(preTags,postTags);
		//创建快速高亮器
		FastVectorHighlighter highlighter = new FastVectorHighlighter(true,true,fragListBuilder,fragmentsBuilder);
		
		// 特殊字符编码器
		Encoder encoder = new SimpleHTMLEncoder();

		IndexReader reader = DirectoryReader.open(writer, true);
		
		/*PhraseQuery query = new PhraseQuery();
		query.add(new Term("field", "test"));
		query.add(new Term("field", "foo"));
		query.setSlop(2);*/
		QueryParser queryParser = new QueryParser("field",new StandardAnalyzer());
		Query query = queryParser.parse("test foo");
		System.out.println(query.toString());
		FieldQuery fieldQuery = highlighter.getFieldQuery(query, reader);
		int docId = 0;
		// matchedFields对哪些域进行高亮，添加多个域即可以对多个域进行高亮
		Set<String> matchedFields = new HashSet<String>();
		matchedFields.add("field");
		String[] bestFragments = highlighter.getBestFragments(fieldQuery,
				reader, docId, "field", matchedFields, 100, 1, fragListBuilder,
				fragmentsBuilder, preTags, postTags, encoder);
		System.out.println(bestFragments[0]);

		reader.close();
		writer.close();
		dir.close();
	}

	private static Query clause(String field, String... terms) {
		return clause(field, 1, terms);
	}

	private static Query clause(String field, float boost, String... terms) {
		Query q;
		if (terms.length == 1) {
			q = new TermQuery(new Term(field, terms[0]));
		} else {
			PhraseQuery pq = new PhraseQuery();
			for (String term : terms) {
				pq.add(new Term(field, term));
			}
			q = pq;
		}
		q.setBoost(boost);
		return q;
	}
}

至于使用那种高亮器，请对这两种高亮器分别进行性能测试，用事实测试数据说话，不能简单说FastVectorHighlighter比Highlighter好或Highlighter比FastVectorHighlighter好，在特定的场景下表现良好才是真的好。OK,有关高亮器就说这么多了，如果有哪里说的不对或者有哪里没说到的地方，还望大家积极指正，互相交流互相学习共同进步！DEMO源码请在最底下的附近里下载。

对于最近有个很令人作呕的人(名字我就不公布了，给你留点面子)老是对我的博客文章进行恶意点“踩”，请问这位童鞋，你是妒忌呢还是出门忘吃药了？更恶心的是，居然经常在我博客下方评论里贴他的淘宝链接推广他那恶心的代码，未经过我允许就在我博客里推广你的淘宝就够恶心的了，居然卖的还是代码，还是请自重吧！

如果你还有什么问题请加我Ｑ-Q：7-3-6-0-3-1-3-0-5，

或者加裙
一起交流学习！

你可能感兴趣的:(Lucene,highlighter)

CTF常见编码及加解密（超全）第二篇不会代码的小徐编码密码网络安全密码学预编码
HTML实体编码简述：字符实体是用一个编号写入HTML代码中来代替一个字符，在使用浏览器访问网页时会将这个编号解析还原为字符以供阅读。举例：highlighter-HTML明文：hello，world.十进制：hello，world.十六进制：hel
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
ElasticSearch 6.x 学习笔记：19.搜索高亮程裕强 Elasticsearch 6.x 学习笔记高亮 highlight
19.1高亮概述参照官方文档https://www.elastic.co/guide/en/elasticsearch/reference/6.1/search-request-highlighting.htmlHighlightersenableyoutogethighlightedsnippetsfromoneormorefieldsinyoursearchresultssoyoucansho
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
docker部署Elasticsearch和Kibana youm. docker docker elasticsearch 容器
1.Elasticsearch和Kibana介绍1.1什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，用于处理大规模数据的实时搜索、分析和存储。它构建在ApacheLucene搜索引擎库的基础上，提供了一个RESTfulAPI和易于使用的工具，使得在大数据量情况下进行搜索和分析变得高效和简单。1.2为什么使用Elasticsearch？Elastics
Elasticsearch中文本字段与关键字字段的聚合和排序问题好奇的菜鸟 Elasticsearch elasticsearch 大数据搜索引擎
引言Elasticsearch是一个强大的搜索引擎，它基于Lucene构建，提供了全文搜索、分析、聚合等功能。然而，在使用Elasticsearch时，我们可能会遇到一些特定的问题，比如在文本字段上进行聚合和排序操作时出现的错误。本文将详细解释这个问题，并提供解决方案。问题概述在使用Elasticsearch进行数据分析时，我们可能会尝试对文本字段进行聚合或排序。但是，Elasticsearch默
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Elastic Search常用命令胖毁青春，瘦解百病 ES es
1测试环境信息ElasticSearch服务器：192.168.0.100用户：docker启停：dockerstart/stop/restartelasticsearchKibana控制台：http://192.168.0.100:5601/app/kibana#/dev_tools/console2基本概念Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
Lucene实现自定义中文同义词分词器 WangJonney Lucene Lucene
----------------------------------------------------------lucene的分词_中文分词介绍----------------------------------------------------------Paoding:庖丁解牛分词器。已经没有更新了mmseg:使用搜狗的词库1.导入包（有两个包：1.带dic的，2.不带dic的）如果使用
选型搜索引擎之参考Elasticsearch 剑飞的编程思维 elasticsearch
简介Elasticsearch（简称ES）是一个基于ApacheLucene的开源、分布式、RESTful接口的全文搜索引擎。其设计用于云计算环境，能够达到实时搜索、稳定、可靠、快速、安装使用方便的效果。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。Elasticsearch的特点包括：分布式存储和搜索：Elasticsear
从入门到精通：Elasticsearch开发实践教程青年老年程序员 Elasticsearch学习 elasticsearch jenkins 大数据
Elasticsearch是一款开源的搜索引擎，它使用Lucene搜索库作为其核心搜索引擎。Elasticsearch使用RESTfulAPI进行交互，并支持多种数据类型的搜索和聚合。本教程将介绍Elasticsearch的基本原理，如何开发，以及如何在SpringBoot中使用Elasticsearch。Elasticsearch的原理Elasticsearch是一个分布式的文档存储和搜索引擎。
深入理解Lucene：开源全文搜索引擎的核心技术解析一休哥助手分布式系统算法搜索引擎 lucene 开源
1.介绍Lucene是什么？Lucene是一个开源的全文搜索引擎库，提供了强大的文本搜索和检索功能。它由Apache软件基金会维护和开发，采用Java语言编写，因其高性能、可扩展性和灵活性而备受欢迎。Lucene的作用和应用场景Lucene主要用于创建全文索引和执行文本搜索。其主要作用包括但不限于：在大型文本数据集中快速进行文本搜索和检索。实现网站、应用程序或系统中的搜索功能。构建文档管理系统、知
Elasticsearch基础知识与架构概述禅与计算机程序设计艺术 elasticsearch 架构 jenkins 大数据搜索引擎
1.背景介绍Elasticsearch是一个基于分布式搜索和分析引擎，它可以处理大量数据并提供实时搜索功能。在本文中，我们将深入了解Elasticsearch的基础知识和架构概述，并探讨其核心概念、算法原理、最佳实践、实际应用场景和未来发展趋势。1.背景介绍Elasticsearch是一款开源的搜索引擎，由ElasticCorporation开发。它基于Lucene库，具有高性能、可扩展性和实时性
视野 | OpenSearch，云厂商的新选择？ RadonDB 数据库搜索引擎 elasticsearch
王奇顾问软件工程师目前从事PaaS中间件服务（Redis/MongoDB/ELK等）开发工作，对NoSQL数据库有深入的研究以及丰富的二次开发经验，热衷对NoSQL数据库领域内的最新技术动态的学习，能够把握行业技术发展趋势。|最流行的全文搜索引擎Elasticsearch是一款广泛使用的开源分布式全文搜索引擎，源于ApacheLucene[1]，许可证为Apache2.0。由于出色的搜索引擎、高扩
Elasticsearch使用场景说明车马去闲闲丶 elasticsearch 大数据搜索引擎
Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多租户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。它设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。以下是一些Elasticsearch的常见使用场景：全文搜索：Elastic
ElasticSearch学习笔记重生之Java再爱我一次 elasticsearch 学习笔记
ElasticSearch一、初识ES1.什么是ElasticSearch？ES的概念：ElasticSearch是一款非常强大的开源搜索引擎，可以帮助我们从海量数据中快速找到需要的内容。ElasticSearch结合Kibana、LogStach、Beats，也就是ElasticStack（ELK）。被广泛应用在日志数据分析、实时监控等领域。ES的发展：Lucene是一个Java语言的搜索引擎类
solr —— 1 全文检索Solr8.0第一部分苏打饼干没加心 solr
solr，毕设啊，快被写完吧1solr介绍什么是solrLucene与Solr与ES为什么要用slor2HelloWorld2.1项目安装部署2.2项目安装配置创建核心创建document(表)添加文件查询数据3solr后台管理页面详解控制面板5全文检索千万级别数据实战，全面剖析架构设计，大数据瓶颈突破6数据库导入索引BV1Dt411G7eF1solr介绍什么是solrsolr简化了程序员的操作L
（三十七）大数据实战——Solr服务的部署安装厉害哥哥吖大数据大数据 solr
前言Solr是一个基于ApacheLucene的开源搜索平台，它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr可以用于构建高性能的搜索应用程序，支持从海量数据中快速检索和分析信息。Solr使用倒排索引和先进的搜索算法，可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展，实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询，使您可以根据各种条件对搜索结果进行精确
《ElasticSearch技术解析与实战-朱林》云澜哥哥 ElasticSearch elasticsearch big data
《第一章：ElasticSearch入门》ElasticSearch简介：ElasticSearch是一个基于lucener构建的开源的，分布式的，resultful接口全文搜索引擎。ElasticSearch是一个分布式文档数据库。其中每个字段都是可以被索引的数据且可被搜索。ElasticSearch能够扩展到数以百计的服务器存储以及处理PB级的数据，它可以在很短的时间内存储，搜索，分析大量的数
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
16款开源的全文搜索引擎网络安全乔妮娜开源搜索引擎网络安全 web安全数据库安全前端
网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！全文搜索引擎就是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。1、ApacheLuceneJava全文搜索框架许可证：Apache-2.0开发语言：Java官网：https://lucene.apache.org/ApacheLucene是完全
Lucene初识 KhaosYang
Lucene是一种高性能、可伸缩的信息搜索（IR）库，在2000年开源，最初由鼎鼎大名的DougCutting开发，是基于Java实现的高性能的开源项目。Lucene采用了基于倒排表的设计原理，可以非常高效地实现文本查找，在底层采用了分段的存储模式，使它在读写时几乎完全避免了锁的出现，大大提升了读写性能。核心模块Lucene的写流程和读流程如图1所示。1.Lucene读写流程图其中，虚线箭头（A、
03-03 elasticsearch nan得糊涂
入门篇使用场景海量存储：支持分布式存储实时搜索：lucene倒排索引，海量数据下近乎实时搜索a.日志分析，es+logstash+kibanab.Github代码数据分析：支持数据分析及处理基本功能分布式的搜索引擎和数据分析引擎全文检索，结构化检索，数据分析海量数据实时处理根据这些功能，可以实现的使用场景某张表有海量数据，需要实时快速查询数据分析带来的问题ES用在海量数据实时查询，基本的数据分析等
Error CREATEing SolrCore 'index': Unable to create core: index Caused by: No enum constant org.apach 杉斯狼后台 Java solr enum 索引 lucene
ErrorCREATEingSolrCore'index':Unabletocreatecore:indexCausedby:Noenumconstantorg.apache.lucene.util.Version.LUCENE_48出错原因：solr版本配置不正确解决方法：在索引文件的目录下conf>solrconfig.xml4.8将4.8修改为4.7（你具体的版本，可以参照collectio
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。