beyondqinghua

lucene初探（二）：创建索引，查询索引

上一次 lucene初探（一）：IKAnalyzer2012中文分词扩展初探 http://beyondqinghua.iteye.com/admin/blogs/1835986 已经尝试使用IK来分词，这次我们将学习如何将IK整合到lucene创建索引，并检索索引，例子分别使用lucene的英文分词工具、IK中文分词工具，代码依赖的包跟《IKAnalyzer2012中文分词扩展初探》一样。

1、创建一个模型对象

写道

package com.iris.scm.lucene.model;

public class Publication {

private Long id;
private String zhTitle;
private String enTitle;
private String zhAbstract;
private String enAbstract;
private Integer publishYear;

public Publication() {
super();
}
.....get set method
}

2、创建索引、查询索引

package com.iris.scm.lucene.test;

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.en.EnglishAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.Formatter;
import org.apache.lucene.search.highlight.Fragmenter;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.InvalidTokenOffsetsException;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.Scorer;
import org.apache.lucene.search.highlight.SimpleFragmenter;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;

import com.iris.scm.lucene.model.Publication;

public class LuceneTest {

	// 分词器
	private Analyzer analyzerEn;
	private Analyzer analyzerZh;
	// 索引存放目录
	private Directory directoryZh;
	// 索引存放目录
	private Directory directoryEn;

	public static void main(String[] args) throws Exception {

		LuceneTest test = new LuceneTest();
		test.initDir();
		// test.createIndex();
		test.searchZhPub();
		test.searchEnPub();
	}

	/**
	 * 初始化Analyzer和Directory.
	 * 
	 * @throws IOException
	 */
	public void initDir() throws IOException {

		// 建立一个标准分词器
		// Version.LUCENE_36 表示匹配Lucene3.6版本，使用英文分词解析工具
		analyzerEn = new EnglishAnalyzer(Version.LUCENE_36);

		analyzerZh = new IKAnalyzer();
		// 使用智能分词
		((IKAnalyzer) analyzerZh).setUseSmart(true);

		// 在当前路径下建立一个目录叫indexDir
		File indexDirZh = new File("d:/lucene/LuceneTestZh");

		File indexDirEn = new File("d:/lucene/LuceneTestEn");

		// 创建索引目录
		directoryZh = FSDirectory.open(indexDirZh);
		directoryEn = FSDirectory.open(indexDirEn);
	}

	/**
	 * 建立索引文件
	 * 
	 * @throws IOException
	 */
	public void createIndex() throws IOException {

		// 获取文献信息
		// 中文
		Publication pubZh1 = new Publication();
		pubZh1.setId(123456L);
		pubZh1.setPublishYear(2010);
		pubZh1.setZhTitle("金刚石薄膜抗激光破坏研究");
		pubZh1.setZhAbstract("介绍了金刚石优异的光学和力学特性,对金刚石薄膜在从紫外到红外波段以及不同脉宽激光参数下的激光损伤行为和损伤阈值进行了评述。");
		// 英文
		Publication pubEn1 = new Publication();
		pubEn1.setId(123456L);
		pubEn1.setPublishYear(2010);
		pubEn1.setEnTitle("Laser induced damage for diamond films");
		pubEn1.setEnAbstract("The outstanding optical and mechanical properties of diamond films are summarized.  ");

		// 中文
		Publication pubZh2 = new Publication();
		pubZh2.setId(68545L);
		pubZh2.setPublishYear(2009);
		pubZh2.setZhTitle("激光破坏金刚石薄膜研究");
		pubZh2.setZhAbstract("分析了不同激光工作参数对金刚石薄膜的激光损伤机理,认为石墨化导致晶格失稳是金刚石薄膜激光损伤的主要原因。金刚石薄膜石墨化有两种方式:垂直表面向体层方向石墨化和平行表面按分层的方式逐层石墨化。");
		// 英文
		Publication pubEn2 = new Publication();
		pubEn2.setId(68545L);
		pubEn2.setPublishYear(2009);
		pubEn2.setEnTitle("Laser destruction of the diamond thin films");
		pubEn2.setEnAbstract(" Laser damage for films irradiated with different wave lengths and pulse width are reviewed and the laser damage mechanism analyzed for different parameters. It is found that graphitization induced instability of the crystal lattice is the main reason for laser induced damage. There are two ways that lead to graphitized damage on the surface of diamond films under long and short laser pulses. For nanosecond or longer laser pul...");

		// 建立Document
		Document docZh1 = new Document();
		// Store指定Field是否需要存储,Index指定Field是否需要分词索引
		docZh1.add(new Field("id", pubZh1.getId().toString(), Store.YES, Index.NOT_ANALYZED));
		docZh1.add(new Field("publish_year", pubZh1.getPublishYear().toString(), Store.YES, Index.NOT_ANALYZED));
		docZh1.add(new Field("zh_title", pubZh1.getZhTitle(), Store.YES, Index.ANALYZED));
		docZh1.add(new Field("zh_abstract", pubZh1.getZhAbstract(), Store.YES, Index.ANALYZED));
		// 建立Document
		Document docZh2 = new Document();
		docZh2.add(new Field("id", pubZh2.getId().toString(), Store.YES, Index.NOT_ANALYZED));
		docZh2.add(new Field("publish_year", pubZh2.getPublishYear().toString(), Store.YES, Index.NOT_ANALYZED));
		docZh2.add(new Field("zh_title", pubZh2.getZhTitle(), Store.YES, Index.ANALYZED));
		docZh2.add(new Field("zh_abstract", pubZh2.getZhAbstract(), Store.YES, Index.ANALYZED));

		Document docEn1 = new Document();
		docEn1.add(new Field("id", pubEn1.getId().toString(), Store.YES, Index.NOT_ANALYZED));
		docEn1.add(new Field("publish_year", pubEn1.getPublishYear().toString(), Store.YES, Index.NOT_ANALYZED));
		docEn1.add(new Field("en_title", pubEn1.getEnTitle(), Store.YES, Index.ANALYZED));
		docEn1.add(new Field("en_abstract", pubEn1.getEnAbstract(), Store.YES, Index.ANALYZED));

		Document docEn2 = new Document();
		docEn2.add(new Field("id", pubEn2.getId().toString(), Store.YES, Index.NOT_ANALYZED));
		docEn2.add(new Field("publish_year", pubEn2.getPublishYear().toString(), Store.YES, Index.NOT_ANALYZED));
		docEn2.add(new Field("en_title", pubEn2.getEnTitle(), Store.YES, Index.ANALYZED));
		docEn2.add(new Field("en_abstract", pubEn2.getEnAbstract(), Store.YES, Index.ANALYZED));

		// 建立一个IndexWriter配置,指定匹配的版本,以及分词器
		IndexWriterConfig indexWriterConfigZh = new IndexWriterConfig(Version.LUCENE_36, analyzerZh);
		IndexWriterConfig indexWriterConfigEn = new IndexWriterConfig(Version.LUCENE_36, analyzerEn);
		// 创建IndexWriter,它负责索引的创建和维护
		IndexWriter indexWriterZh = new IndexWriter(directoryZh, indexWriterConfigZh);
		IndexWriter indexWriterEn = new IndexWriter(directoryEn, indexWriterConfigEn);

		// 把Document加入到索引中
		indexWriterZh.addDocument(docZh1);
		indexWriterZh.addDocument(docZh2);
		indexWriterEn.addDocument(docEn1);
		indexWriterEn.addDocument(docEn2);

		// 提交改变到索引,然后关闭
		indexWriterZh.close();
		indexWriterEn.close();

	}

	/**
	 * 搜索文献中文内容.
	 * 
	 * @throws ParseException
	 * @throws CorruptIndexException
	 * @throws IOException
	 * @throws InvalidTokenOffsetsException
	 */
	public void searchZhPub() throws ParseException, CorruptIndexException, IOException, InvalidTokenOffsetsException {
		// 搜索的关键词
		String queryKeyWord = "金刚石薄膜";

		// 创建查询分析器,把查询关键词转化为查询对象Query(单个Field中搜索)
		// 在标题的索引中搜索
		// QueryParser queryParser = new QueryParser(Version.LUCENE_36, "zh_title", analyzerZh);

		String[] fields = { "zh_title", "zh_abstract" };
		// (在多个Filed中搜索)
		QueryParser queryParser = new MultiFieldQueryParser(Version.LUCENE_36, fields, analyzerZh);
		Query query = queryParser.parse(queryKeyWord);

		// 获取访问索引的接口,进行搜索
		IndexReader indexReader = IndexReader.open(directoryZh);
		IndexSearcher indexSearcher = new IndexSearcher(indexReader);

		// TopDocs 搜索返回的结果
		TopDocs topDocs = indexSearcher.search(query, 100);// 只返回前100条记录

		int totalCount = topDocs.totalHits; // 搜索结果总数量
		System.out.println("搜索到的结果总数量为：" + totalCount);

		ScoreDoc[] scoreDocs = topDocs.scoreDocs; // 搜索的结果列表

		// 创建高亮器,使搜索的关键词突出显示
		Formatter formatter = new SimpleHTMLFormatter("<font color='red'>", "</font>");
		Scorer fragmentScore = new QueryScorer(query);
		Highlighter highlighter = new Highlighter(formatter, fragmentScore);
		Fragmenter fragmenter = new SimpleFragmenter(100);
		highlighter.setTextFragmenter(fragmenter);

		List<Publication> pubs = new ArrayList<Publication>();
		// 把搜索结果取出放入到集合中
		for (ScoreDoc scoreDoc : scoreDocs) {
			int docID = scoreDoc.doc;// 当前结果的文档编号
			float score = scoreDoc.score;// 当前结果的相关度得分
			System.out.println("score is : " + score);

			Document document = indexSearcher.doc(docID);
			Publication pubZh = new Publication();
			pubZh.setId(Long.parseLong(document.get("id")));

			// 高亮显示title
			String zhTitle = document.get("zh_title");
			String highlighterTitle = highlighter.getBestFragment(analyzerZh, "zh_title", zhTitle);
			// 如果title中没有找到关键词
			if (highlighterTitle == null) {
				highlighterTitle = zhTitle;
			}
			pubZh.setZhTitle(highlighterTitle);

			// 高亮显示abstract
			String zhAbstract = document.get("zh_abstract");
			String highlighterAbstract = highlighter.getBestFragment(analyzerZh, "zh_abstract", zhAbstract);
			// 如果Abstract中没有找到关键词
			if (highlighterAbstract == null) {
				highlighterAbstract = zhAbstract;
			}
			pubZh.setZhAbstract(highlighterAbstract);

			pubZh.setPublishYear(Integer.parseInt(document.get("publish_year")));

			pubs.add(pubZh);
		}
		// 关闭
		indexReader.close();
		indexSearcher.close();
		for (Publication pub : pubs) {
			System.out.println("pub'id is : " + pub.getId());
			System.out.println("pub'publish year is : " + pub.getPublishYear());
			System.out.println("pub'title is : " + pub.getZhTitle());
			System.out.println("pub'abstract is : " + pub.getZhAbstract());
		}
	}

	/**
	 * 搜索文献英文内容.
	 * 
	 * @throws ParseException
	 * @throws CorruptIndexException
	 * @throws InvalidTokenOffsetsException
	 */
	public void searchEnPub() throws ParseException, CorruptIndexException, IOException, InvalidTokenOffsetsException {
		// 搜索的关键词
		String queryKeyWord = "diamond films";

		// 创建查询分析器,把查询关键词转化为查询对象Query(单个Field中搜索)
		// 在标题的索引中搜索
		// QueryParser queryParser = new QueryParser(Version.LUCENE_36, "en_title", analyzerEn);

		String[] fields = { "en_title", "en_abstract" };
		// (在多个Filed中搜索)
		QueryParser queryParser = new MultiFieldQueryParser(Version.LUCENE_36, fields, analyzerEn);
		Query query = queryParser.parse(queryKeyWord);

		// 获取访问索引的接口,进行搜索
		IndexReader indexReader = IndexReader.open(directoryEn);
		IndexSearcher indexSearcher = new IndexSearcher(indexReader);

		// TopDocs 搜索返回的结果
		TopDocs topDocs = indexSearcher.search(query, 100);// 只返回前100条记录

		int totalCount = topDocs.totalHits; // 搜索结果总数量
		System.out.println("搜索到的结果总数量为：" + totalCount);

		ScoreDoc[] scoreDocs = topDocs.scoreDocs; // 搜索的结果列表

		// 创建高亮器,使搜索的关键词突出显示
		Formatter formatter = new SimpleHTMLFormatter("<font color='red'>", "</font>");
		Scorer fragmentScore = new QueryScorer(query);
		Highlighter highlighter = new Highlighter(formatter, fragmentScore);
		Fragmenter fragmenter = new SimpleFragmenter(100);
		highlighter.setTextFragmenter(fragmenter);

		List<Publication> pubs = new ArrayList<Publication>();
		// 把搜索结果取出放入到集合中
		for (ScoreDoc scoreDoc : scoreDocs) {
			int docID = scoreDoc.doc;// 当前结果的文档编号
			float score = scoreDoc.score;// 当前结果的相关度得分
			System.out.println("score is : " + score);

			Document document = indexSearcher.doc(docID);
			Publication pubEn = new Publication();
			pubEn.setId(Long.parseLong(document.get("id")));

			// 高亮显示title
			String enTitle = document.get("en_title");
			String highlighterTitle = highlighter.getBestFragment(analyzerEn, "en_title", enTitle);
			// 如果title中没有找到关键词
			if (highlighterTitle == null) {
				highlighterTitle = enTitle;
			}
			pubEn.setEnTitle(highlighterTitle);

			// 高亮显示abstract
			String enAbstract = document.get("en_abstract");
			String highlighterAbstract = highlighter.getBestFragment(analyzerEn, "en_abstract", enAbstract);
			// 如果Abstract中没有找到关键词
			if (highlighterAbstract == null) {
				highlighterAbstract = enAbstract;
			}
			pubEn.setEnAbstract(highlighterAbstract);

			pubEn.setPublishYear(Integer.parseInt(document.get("publish_year")));

			pubs.add(pubEn);
		}
		// 关闭
		indexReader.close();
		indexSearcher.close();
		for (Publication pub : pubs) {
			System.out.println("pub'id is : " + pub.getId());
			System.out.println("pub'publish year is : " + pub.getPublishYear());
			System.out.println("pub'title is : " + pub.getEnTitle());
			System.out.println("pub'abstract is : " + pub.getEnAbstract());
		}
	}
}

3、结果

写道

加载扩展词典：ext.dic
加载扩展停止词典：stopword.dic
加载扩展停止词典：stopword_chinese.dic
搜索到的结果总数量为：2
score is : 0.30121902
score is : 0.24961227
pub'id is : 68545
pub'publish year is : 2009
pub'title is : 激光破坏金刚石薄膜研究
pub'abstract is : 分析了不同激光工作参数对金刚石薄膜的激光损伤机理,认为石墨化导致晶格失稳是金刚石薄膜激光损伤的主要原因。金刚石薄膜石墨化有两种方式:垂直表面向体层方向石墨化和平行表面按分层的方式逐层石墨化。
pub'id is : 123456
pub'publish year is : 2010
pub'title is : 金刚石薄膜抗激光破坏研究
pub'abstract is : 介绍了金刚石优异的光学和力学特性,对金刚石薄膜在从紫外到红外波段以及不同脉宽激光参数下的激光损伤行为和损伤阈值进行了评述。
搜索到的结果总数量为：2
score is : 0.48305953
score is : 0.34981734
pub'id is : 123456
pub'publish year is : 2010
pub'title is : Laser induced damage for diamond films
pub'abstract is : The outstanding optical and mechanical properties of diamond films are summarized.
pub'id is : 68545
pub'publish year is : 2009
pub'title is : Laser destruction of the diamond thin films
pub'abstract is : that lead to graphitized damage on the surface of diamond films under long and short laser pulses

ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
docker部署Elasticsearch和Kibana youm. docker docker elasticsearch 容器
1.Elasticsearch和Kibana介绍1.1什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，用于处理大规模数据的实时搜索、分析和存储。它构建在ApacheLucene搜索引擎库的基础上，提供了一个RESTfulAPI和易于使用的工具，使得在大数据量情况下进行搜索和分析变得高效和简单。1.2为什么使用Elasticsearch？Elastics
Elasticsearch中文本字段与关键字字段的聚合和排序问题好奇的菜鸟 Elasticsearch elasticsearch 大数据搜索引擎
引言Elasticsearch是一个强大的搜索引擎，它基于Lucene构建，提供了全文搜索、分析、聚合等功能。然而，在使用Elasticsearch时，我们可能会遇到一些特定的问题，比如在文本字段上进行聚合和排序操作时出现的错误。本文将详细解释这个问题，并提供解决方案。问题概述在使用Elasticsearch进行数据分析时，我们可能会尝试对文本字段进行聚合或排序。但是，Elasticsearch默
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Elastic Search常用命令胖毁青春，瘦解百病 ES es
1测试环境信息ElasticSearch服务器：192.168.0.100用户：docker启停：dockerstart/stop/restartelasticsearchKibana控制台：http://192.168.0.100:5601/app/kibana#/dev_tools/console2基本概念Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
Lucene实现自定义中文同义词分词器 WangJonney Lucene Lucene
----------------------------------------------------------lucene的分词_中文分词介绍----------------------------------------------------------Paoding:庖丁解牛分词器。已经没有更新了mmseg:使用搜狗的词库1.导入包（有两个包：1.带dic的，2.不带dic的）如果使用
选型搜索引擎之参考Elasticsearch 剑飞的编程思维 elasticsearch
简介Elasticsearch（简称ES）是一个基于ApacheLucene的开源、分布式、RESTful接口的全文搜索引擎。其设计用于云计算环境，能够达到实时搜索、稳定、可靠、快速、安装使用方便的效果。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。Elasticsearch的特点包括：分布式存储和搜索：Elasticsear
从入门到精通：Elasticsearch开发实践教程青年老年程序员 Elasticsearch学习 elasticsearch jenkins 大数据
Elasticsearch是一款开源的搜索引擎，它使用Lucene搜索库作为其核心搜索引擎。Elasticsearch使用RESTfulAPI进行交互，并支持多种数据类型的搜索和聚合。本教程将介绍Elasticsearch的基本原理，如何开发，以及如何在SpringBoot中使用Elasticsearch。Elasticsearch的原理Elasticsearch是一个分布式的文档存储和搜索引擎。
深入理解Lucene：开源全文搜索引擎的核心技术解析一休哥助手分布式系统算法搜索引擎 lucene 开源
1.介绍Lucene是什么？Lucene是一个开源的全文搜索引擎库，提供了强大的文本搜索和检索功能。它由Apache软件基金会维护和开发，采用Java语言编写，因其高性能、可扩展性和灵活性而备受欢迎。Lucene的作用和应用场景Lucene主要用于创建全文索引和执行文本搜索。其主要作用包括但不限于：在大型文本数据集中快速进行文本搜索和检索。实现网站、应用程序或系统中的搜索功能。构建文档管理系统、知
Elasticsearch基础知识与架构概述禅与计算机程序设计艺术 elasticsearch 架构 jenkins 大数据搜索引擎
1.背景介绍Elasticsearch是一个基于分布式搜索和分析引擎，它可以处理大量数据并提供实时搜索功能。在本文中，我们将深入了解Elasticsearch的基础知识和架构概述，并探讨其核心概念、算法原理、最佳实践、实际应用场景和未来发展趋势。1.背景介绍Elasticsearch是一款开源的搜索引擎，由ElasticCorporation开发。它基于Lucene库，具有高性能、可扩展性和实时性
视野 | OpenSearch，云厂商的新选择？ RadonDB 数据库搜索引擎 elasticsearch
王奇顾问软件工程师目前从事PaaS中间件服务（Redis/MongoDB/ELK等）开发工作，对NoSQL数据库有深入的研究以及丰富的二次开发经验，热衷对NoSQL数据库领域内的最新技术动态的学习，能够把握行业技术发展趋势。|最流行的全文搜索引擎Elasticsearch是一款广泛使用的开源分布式全文搜索引擎，源于ApacheLucene[1]，许可证为Apache2.0。由于出色的搜索引擎、高扩
Elasticsearch使用场景说明车马去闲闲丶 elasticsearch 大数据搜索引擎
Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多租户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。它设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。以下是一些Elasticsearch的常见使用场景：全文搜索：Elastic
ElasticSearch学习笔记重生之Java再爱我一次 elasticsearch 学习笔记
ElasticSearch一、初识ES1.什么是ElasticSearch？ES的概念：ElasticSearch是一款非常强大的开源搜索引擎，可以帮助我们从海量数据中快速找到需要的内容。ElasticSearch结合Kibana、LogStach、Beats，也就是ElasticStack（ELK）。被广泛应用在日志数据分析、实时监控等领域。ES的发展：Lucene是一个Java语言的搜索引擎类
solr —— 1 全文检索Solr8.0第一部分苏打饼干没加心 solr
solr，毕设啊，快被写完吧1solr介绍什么是solrLucene与Solr与ES为什么要用slor2HelloWorld2.1项目安装部署2.2项目安装配置创建核心创建document(表)添加文件查询数据3solr后台管理页面详解控制面板5全文检索千万级别数据实战，全面剖析架构设计，大数据瓶颈突破6数据库导入索引BV1Dt411G7eF1solr介绍什么是solrsolr简化了程序员的操作L
（三十七）大数据实战——Solr服务的部署安装厉害哥哥吖大数据大数据 solr
前言Solr是一个基于ApacheLucene的开源搜索平台，它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr可以用于构建高性能的搜索应用程序，支持从海量数据中快速检索和分析信息。Solr使用倒排索引和先进的搜索算法，可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展，实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询，使您可以根据各种条件对搜索结果进行精确
《ElasticSearch技术解析与实战-朱林》云澜哥哥 ElasticSearch elasticsearch big data
《第一章：ElasticSearch入门》ElasticSearch简介：ElasticSearch是一个基于lucener构建的开源的，分布式的，resultful接口全文搜索引擎。ElasticSearch是一个分布式文档数据库。其中每个字段都是可以被索引的数据且可被搜索。ElasticSearch能够扩展到数以百计的服务器存储以及处理PB级的数据，它可以在很短的时间内存储，搜索，分析大量的数
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
16款开源的全文搜索引擎网络安全乔妮娜开源搜索引擎网络安全 web安全数据库安全前端
网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！全文搜索引擎就是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。1、ApacheLuceneJava全文搜索框架许可证：Apache-2.0开发语言：Java官网：https://lucene.apache.org/ApacheLucene是完全
Lucene初识 KhaosYang
Lucene是一种高性能、可伸缩的信息搜索（IR）库，在2000年开源，最初由鼎鼎大名的DougCutting开发，是基于Java实现的高性能的开源项目。Lucene采用了基于倒排表的设计原理，可以非常高效地实现文本查找，在底层采用了分段的存储模式，使它在读写时几乎完全避免了锁的出现，大大提升了读写性能。核心模块Lucene的写流程和读流程如图1所示。1.Lucene读写流程图其中，虚线箭头（A、
03-03 elasticsearch nan得糊涂
入门篇使用场景海量存储：支持分布式存储实时搜索：lucene倒排索引，海量数据下近乎实时搜索a.日志分析，es+logstash+kibanab.Github代码数据分析：支持数据分析及处理基本功能分布式的搜索引擎和数据分析引擎全文检索，结构化检索，数据分析海量数据实时处理根据这些功能，可以实现的使用场景某张表有海量数据，需要实时快速查询数据分析带来的问题ES用在海量数据实时查询，基本的数据分析等
Error CREATEing SolrCore 'index': Unable to create core: index Caused by: No enum constant org.apach 杉斯狼后台 Java solr enum 索引 lucene
ErrorCREATEingSolrCore'index':Unabletocreatecore:indexCausedby:Noenumconstantorg.apache.lucene.util.Version.LUCENE_48出错原因：solr版本配置不正确解决方法：在索引文件的目录下conf>solrconfig.xml4.8将4.8修改为4.7（你具体的版本，可以参照collectio
Elasticsearch的使用场景深入详解 Y T elasticsearch
Elasticsearch是一个基于Lucene的开源搜索引擎，它提供了一个分布式多用户能力，能够处理PB级别的结构化或非结构化数据。Elasticsearch的设计目标是实现一个可扩展的搜索解决方案，它适用于多种使用场景，以下是一些深入的使用场景详解：1.日志分析与监控Elasticsearch与Logstash和Kibana（统称为ELKStack）结合使用，可以构建强大的日志分析平台。它能够
Elasticsearch—概念、安装和配置 Sunflow007
13.jpg前言：Elasticsearch是一款很火热的，很优秀的，基于lucene的开源的分布式的搜索引擎，话不多说，本篇文章主要是Elasticsearch基本概念介绍、安装和配置。Elasticsearch的基本概念官方文档——BasicConcepts|ElasticsearchReference[6.4]|Elastic我们在学习关系型数据库和服务器的时候，接触到了一些概念如：data
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

lucene初探（二）：创建索引，查询索引

你可能感兴趣的:(Lucene)