rabbit9898

LinkedIn公司实现的实时搜索引擎Zoie

源：http://www.cnblogs.com/forfuture1978/archive/2010/11/29/1891476.html

一、总体架构

Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统，按照其官方wiki的描述为：

http://snaprojects.jira.com/wiki/display/ZOIE/Overview

Zoie is a realtime indexing and search system, and as such needs to have relatively close coupling between the logically distinct Indexing and Searching subsystems: as soon as a document made available to be indexed, it must be immediately searchable.

The ZoieSystem is the primary component of Zoie, that incorporates both Indexing (via implementing DataConsumer<V>) and Search (via implementing IndexReaderFactory<ZoieIndexReader<R extends IndexReader>>).

Zoie是一个实时的搜索引擎系统，其需要逻辑上独立的索引和搜索子系统相对紧密的结合在一起，从而使得一篇文档一经索引，就能够立刻被搜索的到。

ZoieSystem是Zoie的重要组成部分，其一方面通过实现DataConsumer接口而完成了索引功能，一方面通过实现IndexReaderFactory<ZoieIndexReader<R extends IndexReader>>而完成了搜索功能，并将二者紧密的结合在一起。

下面就是ZoieSystem的总体架构图：

对于索引系统来讲，ZoieSystem是一个DataConsumer，也即是一个消费者，其有函数consume用于消费DataEvent对象而完成索引功能。
既然其是消费者，则向其提供数据的就应该是生产者DataProvider，要想使用Zoie建立实时搜索系统，必须提供自己的生产者。
对于搜索系统来讲，ZoieSystem是一个IndexReaderFactory，也即是一个能够得到读取索引的IndexReader的工厂，其有函数getIndexReaders得到所有的IndexReader列表，从而可以完成对索引数据读取的功能。
熟悉Lucene的读者应该很清楚，要想对Lucene的索引进行搜索，则首先要得到IndexReader，然后根据IndexReader生成IndexSearcher，从而可以进行搜索，收集结果，打分，排序等过程。既然IndexReader可以通过Zoie的工厂得到，用户需要实现自己的搜索逻辑方可。

二、配置一个ZoieSystem

ZoieSystem是可以使用spring进行配置的，一个典型的配置如下：

<!--An instance of a DataProvider:

FileDataProvider recurses through a given directory and provides the DataConsumer

indexing requests built from the gathered files.

In the example, this provider needs to be started manually, and it is done via jmx.

一个DataProvider的实例：

FileDataProvider递归的访问一个指定的路径，将得到的文件构造成索引请求提供给DataConsumer。

在本例中，此生产者需要通过jmx进行手动启动。

-->

<constructor-arg value="file:${source.directory}"/>

</bean>

<!--

an instance of an IndexableInterpreter:

FileIndexableInterpreter converts a text file into a lucene document, for example

purposes only

一个IndexableInterpreter的实例：

在本例中，FileIndexableInterpreter将一个文本文件转换成为一个Lucene的Document对象。

从上面的介绍中我们知道，DataProvider作为一个生产者生产了DataEvent对象供消费者DataConsumer进行消费，然而由于Zoie最终是基于Lucene的，Lucene是不能够索引DataEvent对象的，这就需要有人负责将DataEvent转换成为Lucene的Document对象，根据应用的需要控制添加那些Field，添加什么样的Field等，此工作由翻译器Interpreter完成。

-->

<!-- A decorator for an IndexReader instance:

The default decorator is just a pass through, the input IndexReader is returned.

一个IndexReader的装饰者：

默认的装饰者什么都不做，将原IndexReader返回。

注意这里使用的是一个重要的设计模式，装饰者模式。被包装的IndexReader是直接打开Lucene索引的IndexReader，IndexReaderFactory在得到这些IndexReader后，都会经过此类封装一下，再返回给用户。基本的Lucene的IndexReader打开，会加载和初始化一些基本的东西，然而有时候，用户需要在IndexReader打开的时候，同时加载一些自己的东西，此类给了用户这样一个机会，用户只要实现自己的装饰者就可以了。在和Zoie同一个项目Bobo(实现Facet搜索，使用过Solr的同学可能会比较熟悉)中，实现了BoboIndexReaderDecorator，其作用就是在IndexReader打开的时候，将Facet信息加载到内存中形成某种数据结构，从而在收集Facet的时候快速的使用。

-->

<!-- A zoie system declaration, passed as a DataConsumer to the DataProvider declared above

一个ZoieSystem的声明，在上面的DataProvider的声明中，其是作为一个DataConsumer传入的。

-->

<constructor-arg index="0" value="file:${index.directory}"/>

<constructor-arg index="1" ref="fileInterpreter" />

<constructor-arg index="2">

</constructor-arg>

<!-- set the Analyzer, if null is passed, Lucene's StandardAnalyzer is used

设置分词器，如果为null，则使用默认的Lucene的StandardAnalyzer

-->

<constructor-arg index="3">

<null/>

</constructor-arg>

<!-- sets the Similarity, if null is passed, Lucene's DefaultSimilarity is used

设置相似性评分器，如果为null，则使用Lucene默认的DefaultSimilarity

-->

<constructor-arg index="4">

<null/>

</constructor-arg>

<!-- the following parameters indicate how often to triggered batched indexing,

whichever the first of the following two event happens will triggered indexing

下面的两个参数表示触发批量索引的频率，任意一个满足条件则触发索引。

-->

<!-- Batch size: how many items to put on the queue before indexing is triggered

批量大小：即队列中放入多少项方才触发索引

-->

<constructor-arg index="5" value="1000" />

<!-- Batch delay, how long to wait before indxing is triggered

批量延时：即等待多长时间方才触发索引

-->

<constructor-arg index="6" value="300000" />

<!-- flag turning on/off real time indexing

是否开启实时索引的标志位

-->

<constructor-arg index="7" value="true" />

</bean>

<!-- IndexReader factory that produces index readers to build Searchers from

ZoieSystem作为IndexReaderFactory向搜索服务提供IndexReader列表，使其可以构造Searcher。

-->

<constructor-arg ref="indexingSystem" />

</bean>

看完了ZoieSystem的配置以后，我们首先来看看ZoieSystem的构造函数是如何使用这些参数进行初始化的：

(1) 其根据制定的索引文件夹${index.directory}生成一个DefaultDirectoryManager _dirMgr，用于管理索引文件夹及索引的版本号IndexSignature。

(2) 生成一个SearchIndexManager _searchIdxMgr，它是实现实时搜索的关键类，包含如下的成员变量：

第一步中生成的DefaultDirectoryManager
spring配置文件中传进来的IndexReader的装饰器IndexReaderDecorator _indexReaderDecorator
DefaultDocIDMapperFactory _docIDMapperFactory用来维护Zoie的文档ID同Lucene的文档ID号之间的对应关系
DiskSearchIndex _diskIndex用于操作硬盘上的索引，此时便得到一个指向硬盘索引的IndexReader
Status _diskIndexerStatus当前索引的状态，共两种状态Sleeping和Working，所谓的Sleeping就是新添加的文档仅仅进入内存索引，所谓的Working即其中一个内存索引正在和硬盘上的索引进行合并，下一节实时机制的时候，我们会详细讨论
Mem _mem结构，是利用两个内存索引，一个硬盘索引配合实现实时索引的关键，详细的机制，我们下一节会讨论。Mem结构包含以下部分：
- RAMSearchIndex<R> _memIndexA用于操作内存索引A
- RAMSearchIndex<R> _memIndexB用于操作内存索引B
- RAMSearchIndex<R> _currentWritable根据索引所处的状态，有时候A是用于添加新文档的内存索引，有时候B是用于添加新文档的索引
- RAMSearchIndex<R> _currentReadOnly同上一个相反，这是当前不会被添加新文档的内存索引，从下面的讨论中我们可以知道，此内存索引此时正在和硬盘上的索引进行合并。
- ZoieIndexReader<R> _diskIndexReader硬盘索引的IndexReader

(3) 将参数赋值成员变量ZoieIndexableInterpreter _interpreter，Analyzer _analyzer，Similarity _similarity

(4) 创建DiskLuceneIndexDataLoader _diskLoader对象，用于索引到硬盘索引

(5) 如果实时索引_realtimeIndexing设置为true，则创建RealtimeIndexDataLoader _rtdc，第四步中的_diskLoader作为其成员变量。将其设置为ZoieSystem的父类AsyncDataConsumer的成员变量setDataConsumer(_rtdc)

三、Zoie实现实时搜索的原理

3.1、利用两个内存索引一个硬盘索引实现实时搜索的原理

(1) 当系统启动的时候，索引处在Sleeping状态，这时Mem结构中，只有索引A，索引B为null，索引A为_currentWritable，_currentReadOnly为null，_diskIndexReader为硬盘索引的IndexReader。由于内存中索引的IndexReader是每添加完文档后立刻更新的，而且速度很快，而硬盘上的索引一旦打开，在下次合并之前，一直使用，可以保证新添加的文档能够马上被搜索到。

(2) 当A中的文档数量达到一定的数量的时候，需要同硬盘上的索引进行合并，因此要进入Working状态。合并是一个相对比较长的过程，这时候会创建内存索引B，在合并过程中新添加的文档全部索引到B中。此时的Mem结构中，有内存索引A，内存索引B，索引A为currentReadOnly，索引B为currentWritable，diskIndexReader为硬盘索引的IndexReader。此时要获得ZoieSystem的IndexReader，则三个IndexReader全都返回，由于索引B的IndexReader是添加文档后立刻更新的，因而能够保证新添加的文档能够马上被搜索到，这个时候虽然索引A已经在同硬盘索引进行合并，然而由于硬盘索引的IndexReader还没有重新打开，因而索引A中的数据不会被重复搜到。

(3) 当索引A中的数据已经完全合并到硬盘上之后，则要重新打开硬盘索引的IndexReader，打开完毕后，创建一个新的Mem结构，原来的索引B作为索引A，为currentWritable，原来的索引A被抛弃，设为null，currentReadOnly也设为null，diskIndexReader为新打开的硬盘索引的IndexReader。然后通过无缝切换用新的Mem结构替代旧的Mem结构，然后索引进入Sleeping状态。

3.2、有关文档的更新问题

上面一节中，我们可以看到，对于新添加的文档的实时搜索问题相对简单，然而当遇到文档更新的时候，就相对复杂了。

如何实时的删除已经索引在硬盘上的文档是一个很大的问题，为此Zoie实现了ZoieSegmentReader：

成员变量_decoratedReader是ZoieSegmentReader把Lucene的IndexReader被用户指定的装饰器装饰后又封装了一层。
long[] _uidArray是从Lucene的文档ID到Zoie的文档ID的一个对应，Lucene的文档ID是下标，Zoie的文档ID是对应项的值。
IntRBTreeSet _delDocIdSet表示在此索引中删除的Lucene的文档ID
在索引中，Zoie的文档ID是作为一个特殊的Term("_ID", "_UID")的倒排表中每个Lucene的文档号的Payload信息保存的，保存为如下格式，其fillDocumentID函数就是将Zoie的文档ID放入Payload中。
当要从此ZoieSegmentReader中删除文档的时候，调用markDeletes函数，将要删除的文档的Zoie文档号通过DocIDMapper转换为Lucene的文档号，将Lucene的文档号加入_delDocIdSet
熟悉Lucene的读者应该知道，IndexReader是通过TermDocs接口从索引中取得倒排表的，Zoie也实现了自己的ZoieSegmentTermDocs，其有一个DocIdSetIterator作为成员变量，是在生成的时候由ZoieSegmentReader将自己的_delDocIdSet的遍历器传给它的，每当取下一个文档号的时候，其会将DocIdSetIterator中有的文档号过滤掉。对于TermPositions也是同样实现了ZoieSegmentTermPositions
ZoieSegmentReader使得较慢的从硬盘索引中删除文档的操作变为较快的在内存中的标记操作，并且不用重新打开IndexReader删除就能够被看到，还保证了更新的完整性(更新的操作是一个删除，外加一个添加，新添加的文档最初是在内存索引中，则删除操作也应该在内存中被标记，否则一旦系统crash，会出现新添加的丢了，老的版本也被删除了的情况，即便有重做机制也难以实现).

有了ZoieSegmentReader，下面我们来看文档更新情况下的实时搜索机制。

(1) 最初系统启动的时候，是在Sleeping状态下的，这个时候，内存索引为空，硬盘索引上有文档A,B,C。

(2) 在Sleeping状态下，更新文档B，则新的文档B进入内存索引，而硬盘索引中B被标记删除。

(3) 当内存中索引足够大的时候，索引会进入Working状态，进入合并过程。合并过程会首先将硬盘索引中被标记删除的文档先真实的删除，然后再将内存索引向硬盘索引进行合并。此时如果有新的更新进入，比如更新文档A，则将在另外一个内存索引和硬盘索引中都标记删除，然后将新文档添加到内存索引中。

(4) 当合并完毕后，硬盘索引会标记删除原来在内存索引中标记删除的文档，被合并的索引以及其标记删除的文档全部丢弃，索引进入Working状态。

四、Zoie的索引过程

4.1、将文档添加到内存索引

(1) Zoie的索引过程由DataProvider中调用ZoieSystem的consume函数开始，其实是调用AsyncDataConsumer的consume(Collection<DataEvent<V>> data)函数，其仅仅将DataEvent放在LinkedList<DataEvent<V>> _batch中。

(2) AsyncDataConsumer有一个背后的线程ConsumerThread _consumerThread，其会调用_consumer.consume(currentBatch)，由ZoieSystem的构造函数中第(5)步我们知道，此处的_consumer为RealtimeIndexDataLoader _rtdc。

(3) RealtimeIndexDataLoader.consume函数分一下几个步骤：

调用_interpreter的convertAndInterpret函数，将所有的DataEvent转换为ZoieIndexable，放入链表ArrayList<DataEvent<ZoieIndexable>> indexableList。ZoieIndexable其中封装了Lucene的Document
RealtimeIndexDataLoader在创建的时候，除了传进去的DiskLuceneIndexDataLoader作为成员变量_luceneDataLoader，还会创建成员变量RAMLuceneIndexDataLoader _ramConsumer用于索引到内存索引。在上一步做完后，调用_ramConsumer.consume(indexableList)将这些ZoieIndexable索引到内存中。

(4) RAMLuceneIndexDataLoader的consume函数会调用LuceneIndexDataLoader的consume函数，其包含以下步骤：

得到RAMSearchIndex idx
Zoie对所有的文档都做更新操作，将文档ID放入LongOpenHashSet delSet，将封装Lucene的Document的IndexingReq放入List<IndexingReq> docList中
对于每一篇文档，使用ZoieSegmentReader.fillDocumentID(doc, uid)向Payload中添加Zoie的文档ID
更新内存索引idx.updateIndex(delSet, docList, _analyzer,_similarity)，其中先用IndexReader删除，再用IndexWriter进行添加
当然要被删除的文档除了在内存索引中删除掉之外，还要在另外一个内存索引和硬盘索引中过滤掉。因而调用RAMLuceneIndexDataLoader的propagateDeletes(LongSet delDocs)函数：
- 首先得到另一个内存索引，这个时候应该是ReadOnly并正在和硬盘索引合并的索引：RAMSearchIndex<R> readOnlyMemoryIdx = _idxMgr.getCurrentReadOnlyMemoryIndex()
- 在ReadOnly的内存索引中标记删除，从而搜索的时候可以将其过滤掉，readOnlyMemoryIdx.markDeletes(delDocs)
- 然后得到硬盘索引，DiskSearchIndex<R> diskIdx = _idxMgr.getDiskIndex()
- 在硬盘索引中标记删除，diskIdx.markDeletes(delDocs)，从而在搜索中可以将其过滤掉

4.2、将内存索引合并到硬盘索引

RealtimeIndexDataLoader的父类是BatchedIndexDataLoader，其有一个背后的线程LoaderThread，其会调用processBatch函数。

RealtimeIndexDataLoader的processBatch函数过程如下：

(1) 当内存索引中的文档数量超过配置的batch size或者时间超过设置的_delay的时候，就进行内存索引到硬盘索引的合并。

(2) 设置索引的状态从Sleeping到Working，_idxMgr.setDiskIndexerStatus(SearchIndexManager.Status.Working)

重新构造Mem<R> _mem结构
原来在Sleeping状态下用于添加新文档的memIndexA变成_currentReadOnly的
创建在Working状态下用于添加新文档的memIndexB为_currentWritable
在合并阶段，硬盘索引的IndexReader还是老的IndexReader
从代码我们也可以看出，内存索引A和B交换了位置：Mem<R> mem = new Mem<R>(memIndexA, memIndexB, memIndexB, memIndexA, oldMem.get_diskIndexReader());

(3) 得到需要合并的内存索引readOnlyMemIndex = _idxMgr.getCurrentReadOnlyMemoryIndex()

(4) 将内存索引合并到硬盘索引：_luceneDataLoader.loadFromIndex(readOnlyMemIndex)，DiskLuceneIndexDataLoader的loadFromIndex函数做以下事情

得到DiskSearchIndex<R> idx = getSearchIndex()
idx.loadFromIndex(ramIndex)，其中首先用IndexReader删除被标记的文档，然后调用IndexWriter的addIndexesNoOptimize函数将内存索引合并到硬盘
刷新硬盘索引的IndexReader,idx.refresh()
idx.markDeletes(ramIndex.getDelDocs())继承内存索引中被标记删除的文档

(5) 设置索引的状态从Working到Sleeping，_idxMgr.setDiskIndexerStatus(Status.Sleep)

重新构造Mem<R> _mem结构
将在Working状态下的memIndexB付给memIndexA以及currentWritable，而memIndexB设为null，也即把B当做A，没有B
Mem<R> mem = new Mem<R>(oldMem.get_memIndexB(), null, oldMem.get_memIndexB(), null, diskIndexReader)
lockAndSwapMem将Mem结构进行无缝切换

五、Zoie的搜索过程

在使用Zoie进行搜索的时候，要调用ZoieSystem的getIndexReaders()函数，其调用了_searchIdxMgr.getIndexReaders()。

SearchIndexManager的getIndexReaders函数，分别得到RAMSearchIndex<R> memIndexA的IndexReader，RAMSearchIndex<R> memIndexB的IndexReader，以及硬盘索引的IndexReader。在Sleeping状态下得到两个IndexReader，在Working状态下得到三个IndexReader。

【数据结构】常见七大排序总结多多钟意你吖阶段一：数据结构数据结构排序算法算法 java
目录一、插入排序：直接插入排序【稳定排序方法】二、插入排序：希尔排序【不稳定排序方法】三、选择排序：直接选择排序【不稳定排序方法】四、选择排序：堆排序【不稳定排序方法】五、交换排序：冒泡排序【稳定排序方法】六、交换排序：快速排序【不稳定排序方法】七、归并排序：归并排序【稳定排序方法】前言排序是计算机程序设计中的一种重要操作，其功能是对一个数据元素集合或序列重新排列成一个按数据元素某个相知有序的序列
Redis学习总结（15）——Redis 基本数据类型使用场景一杯甜酒 Redis Redis基本数据类型使用场景
一、StringStrings数据结构是简单的key-value类型，value其实不仅是String，也可以是数字.常用命令:set,get,decr,incr,mget等。应用场景：String是最常用的一种数据类型，普通的key/value存储都可以归为此类.即可以完全实现目前Memcached的功能，并且效率更高。还可以享受Redis的定时持久化，操作日志及Replication等功能。除
量子算法：微算法科技用于定位未知哈希图的量子算法，网络安全中的哈希映射突破 MicroTech2025 量子计算哈希算法
近年来，量子计算的飞速发展使其成为各个领域的变革力量。特别是在网络安全领域，量子算法展示了加速并增强威胁检测（如恶意软件识别）方法的巨大潜力。微算法科技（NASDAQ:MLGO）用于定位未知哈希图的量子算法，是针对未知哈希图定位而设计的量子算法。这项技术可能会彻底改变在数据处理中利用哈希值的方式，特别是在恶意软件模式识别中。传统网络安全框架通常依赖哈希函数来生成不同数据结构的唯一标识符，或称之为“
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
MapReduce01：基本原理和wordCount代码实现冬至喵喵大数据 mapreduce
本篇文章中，笔者记录了自己对于MapReduce的肤浅理解，参考资料主要包括《大数据Hadoop3.X分布式处理实战》和网络视频课程。下文介绍了MapReduce的基本概念、运行逻辑以及在wordCount代码示例。一、MapReduce概述1.概述google为解决其搜索引擎中的大规模网页数据的并行化处理问题，设计了MapReduce，在发明MapReduce之后首先用其重新改写了搜索引擎中we
Python-什么是集合難釋懷 python 开发语言数据库
一、前言在Python中，除了我们常用的列表（list）、元组（tuple）和字典（dict），还有一种非常实用的数据结构——集合（set）。集合是一种无序且不重复的元素集合，常用于去重、交并差运算等场景。本文将带你全面了解Python中集合的基本用法、操作方法及其适用场景，并通过大量代码示例帮助你掌握这一重要数据类型。二、什么是集合（set）？✅定义：集合是Python中的一种可变数据类型，它存
数据结构—数组每天一个秃顶小技巧数据结构 golang 后端
数据结构—数组相关数据结构实现用go语言实现相关代码做题合集：https://github.com/longpi1/algorithm-pattern数组（Array）在Go中，数组是固定长度的连续内存块，长度在定义时确定且不可变。数组的使用场景较少，因为切片（slice）更加灵活，通常更常用。所以在做算法题时一般用切片进行编写定义和特点数组的长度是类型的一部分，例如[3]int和[4]int是不
Python元组的遍历難釋懷 python 前端 linux
一、前言在Python中，元组（tuple）是一种非常基础且常用的数据结构，它与列表类似，都是有序的序列，但不同的是，元组是不可变的（immutable），一旦创建就不能修改。虽然元组不能被修改，但它支持高效的遍历操作，非常适合用于存储不会变化的数据集合。本文将系统性地介绍Python中元组的多种遍历方式，包括基本遍历、索引访问、元素解包、结合函数等，并结合大量代码示例帮助你掌握这一重要技能。二、
Python开发从新手到专家：第三章列表、元组和集合 caifox菜狐狸 Python开发从新手到专家 python 元素集合列表元组数据结构字典
在Python开发的旅程中，数据结构是每一位开发者必须掌握的核心知识。它们是构建程序的基石，决定了代码的效率、可读性和可维护性。本章将深入探讨Python中的三种基本数据结构：列表、元组和集合。这三种数据结构在实际开发中有着广泛的应用，从简单的数据存储到复杂的算法实现，它们都扮演着不可或缺的角色。无论你是刚刚接触Python的新手，还是希望进一步提升编程技能的开发者，本章都将是你的宝贵指南。我们将
数据结构学习之栈楼田莉子数据结构学习笔记算法数据结构 c语言
本篇博客我们将深入学习数据结构中栈与队列相关的内容作者的个人gitee：楼田莉子(riko-lou-tian)-Gitee.com目录概念栈的实现初始化销毁入栈判空出栈获取栈顶元素栈的有效元素个数源代码与栈相关的算法题（力扣）有效的括号编辑概念栈是一种特殊的线性表，只允许在固定的一端进行插入删除元素的操作。进行数据插入和删除操作的一端叫栈顶，另一端叫栈底。遵循“后进先出”的原则。下图就是对栈后进先
JavaScript数组方法 whhhhhhhhhw javascript 开发语言 ecmascript 前端 html
前言：JavaScript这门强大而灵活的编程语言中，数组（Array）无疑是最基础且使用最频繁的数据结构之一。它允许我们以有序的方式存储多个值，并提供了丰富的内置方法来操作这些值，包括但不限于添加、删除、搜索、遍历等。掌握JavaScript数组的方法，不仅能够提高我们的编程效率，还能让我们在处理复杂数据结构时更加得心应手。本文将全面解析JavaScript数组的各种常用方法，并通过实战示例展示
ES 和 lucene 的区别是什么？晚夜微雨问海棠呀 elasticsearch lucene 大数据
Elasticsearch(ES)和Lucene都是用于全文搜索和分析的工具，但它们在功能和使用场景上有一些重要的区别：基础与角色：Lucene是一个开源的信息检索软件库，提供了一个高性能、全功能的文本搜索引擎。它是许多搜索应用的核心，包括Elasticsearch。Elasticsearch是一个分布式搜索和分析引擎，构建在Lucene之上。它不仅提供了Lucene的所有功能，还增加了分布式计算
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
Redis 功能扩展：Lua 脚本对 Redis 的扩展 cici15874 redis lua 数据库
Redis是一个高性能的内存数据库，支持多种数据结构，如字符串、哈希、列表、集合和有序集合。为了增强其功能，Redis引入了Lua脚本支持，使开发者可以编写自定义的脚本，确保操作的原子性并提高复杂操作的性能。本文将详细介绍如何使用Lua脚本对Redis进行扩展，重点讲解eval命令、redis.call和redis.pcall的用法。一、Lua脚本在Redis中的作用Lua脚本在Redis中的主要
Python的内存管理星辰灬 Python python pycharm
Python的内存管理在Python中，内存管理涉及到一个包含所有Python对象和数据结构的私有堆（heap）。这个私有堆的管理由内部的Python内存管理器（Pythonmemorymanager）保证。Python内存管理器有不同的组件来处理各种动态存储管理方面的问题，如共享、分割、预分配或缓存。内存管理机制动态内存分配：Python使用动态内存分配，这意味着它在运行时动态分配和管理内存，而
教育技术学读计算机论文的提示词东方-教育技术博主学术学习相关 AI
角色：你是一位经验丰富的计算机专业教授，擅长用通俗易懂的语言向初学者解释复杂概念。我现在正在学习阅读计算机科学领域的算法论文，但我的基础比较薄弱（了解编程基础如变量、循环、函数，了解一点数据结构和算法概念如数组、链表、排序，但对高级术语和数学证明不熟悉）。同时又是一个教育技术学教授。任务：请帮我解释以下论文内容中我不理解的部分。如果遇到初学者可能不懂的地方，我需要你用最清晰、最简洁、最易懂的方式解
【Linux】写时拷贝——干货解析代码程序猿RIP Linux linux 运维服务器
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、写时拷贝核心概念1.什么是写时拷贝？2.COW解决的问题二、写时拷贝工作原理1.内存管理基础结构2.COW工作流程3.页表状态变化图示初始状态（共享只读）子进程写入后（写时拷贝）三、写时拷贝的优势分析1.性能优势对比2.实际性能数据3.资源利用率提升四、内核实现深度解析1.COW核心代码逻辑2.关键数据结构五、应用场景与最
数据结构学习——动态数组C#实现 xiaojuese255 数据结构学习 c#
1数组1.1静态数组int[]float[]double[]char[]string[]特点：一旦创建，其容量的大小无法改变int[]arr=newint[20];1.2动态数组：ArrayListList泛型列表可以根据元素的多少动态地调整数组容量的大小1.3装箱和拆箱装箱：值类型转换为引用类型拆箱：引用类型转换为值类型，只有装过箱的对象才能拆箱ArrayLista=newArrayList()
数据结构day6——内核链表 LZA185 数据结构数据结构链表
在Linux内核开发中，链表是最基础且重要的数据结构之一。与普通链表不同，Linux内核采用了一种非常巧妙的"通用链表"设计，它不直接包含数据，而是将数据结构嵌入其中，从而实现了一种高度灵活、可复用的链表机制。本文将深入解析Linux内核链表的设计思想、实现原理及应用场景。一、传统链表的局限性传统链表的实现方式通常是将数据直接包含在节点结构中：//传统链表节点结构typedefstructStud
数据结构day5——队列和树 LZA185 数据结构数据结构
目录一、队列：先进先出的数据缓冲区队列的核心概念队列的典型应用场景队列的基本操作队列的两种C语言实现方式1.顺序队列（基于数组的实现）2.循环队列（解决假溢出问题）二、树：一对多的层次结构树的基本概念树的存储方式二叉树：最常用的树结构二叉树的定义二叉树的特点特殊的二叉树二叉树的重要特性二叉树的C语言实现与遍历三、总结在数据结构的世界里，队列和树是两种截然不同却又同样重要的结构。队列以其"先进先出"
数据结构day2 LZA185 数据结构数据结构
目录一、Makefile二、检测内存泄漏工具：valgrind2.1valgrind介绍2.2具体使用：valgrind./a.out三、顺序存储的优缺点3.1优点3.2缺点四、线性表的链式存储：4.1链式存储简介4.2关于单向链表的c语言描述4.3单项列表的功能函数一、Makefile关于makefile介绍请查看这篇文章：https://blog.csdn.net/weixin_7208634
数据结构day7——文件IO LZA185 数据结构数据结构
一、标准IO的起源与概念标准IO（StandardInput/Output）是由DennisRitchie在1975年设计的一套IO库，后来成为C语言的标准组成部分，并被ANSIC所采纳。它是对底层文件IO的封装，提供了更便捷、可移植的文件操作接口。核心特点：设备抽象：将输入输出设备抽象为文件操作标准输入设备：默认是键盘（/dev/input）标准输出设备：默认是显示器跨平台性：任何支持标准C的系
GlobalFilter、Filter关系 m0_63486540 java java
维度GlobalFilterFilter技术体系SpringCloudGateway+WebFluxJavaServletAPI编程模型响应式(Reactive)阻塞式(Imperative)作用范围全局（所有路由）可配置路径模式执行效率更高（基于事件循环）较低（线程池模型）配置方式SpringBean自动注册web.xml或@WebFilter如何选择？如果你正在开发API网关或微服务入口，使用
Spring Boot 过滤器拦截器监听器后端springboot
Filter过滤器SpringBoot的过滤器用于对数据进行过滤处理。通过SpringBoot的过滤器，程序开发人员不仅可以对用户通过URL地址发送的请求进行过滤处理（例如，过滤一些错误的请求或者请求中的敏感词等），而且可以对服务器返回的数据进行过滤处理（例如，压缩响应信息等）。使用FilterRegistrationBean类实现过滤器实现过滤器类如果一个类实现了一个继承Filter接口的类，那
数据结构之顺序表 Capricorn_man 数据结构
一、创建头文件typedefintSLDataType;//动态存储typedefstructSeqList{SLDataType*a;//动态开辟的数组intsize;//有效数据的数量intcapacity;//空间大小}SL;二、初始化顺序表voidSLInit(SL*psl){assert(psl);psl->a=NULL;psl->size=0;psl->capacity=0;}三、销毁
数据结构：递归：汉诺塔问题（Tower of Hanoi） 95号闪电麦坤数据结构数据结构
目录问题描述第一性原理分析代码实现第一步：明确函数要干什么第二步：写好递归的“结束条件”第三步：写递归步骤递归调用树问题描述有三个柱子（A,B,C），上面有n个大小不等的圆盘，最开始所有圆盘按从大到小顺序堆在柱子A上。目标：将所有圆盘移动到柱子C，移动时要满足：一次只能移动一个盘子；任何时刻小盘子不能压在大盘子上。❓核心问题：如何将n个盘子从A移动到C，同时只用B做辅助，且不违反约束？第一性原理分
数据结构与算法第一章绪论 noruta 408 #数据结构与算法数据结构
1.1.数据结构的基本概念数据：对计算机来说，能被计算机程序识别和处理的符号的集合。（比如二进制0和1）数据元素：数据的基本单位，通常作为一个整体进行考虑和处理。（比如一个学生的信息是一个数据元素）数据项：构成数据元素的最小单位。（学生的学号，姓名，班级构成一个学生信息）要根据实际的业务需求来确定什么是数据元素、什么是数据项。数据结构：相互之间存在一种或多种特定关系的数据元素的集合。比如汉字有左右
Java基础集合框架队列架构双端队列 Deque 骑牛小道士集合框架之队列 java 开发语言
双端队列DequeDeque方法简介Deque核心特点Deque实现类ArrayDequeArrayDeque构造方法ArrayDeque的数据结构及实现原理ArrayDeque方法介绍ArrayDeque核心特性ArrayDeque总结ArrayDeque使用样例代码Deque实现类LinkedListDeque实现类ConcurrentLinkedDeque(非阻塞线程安全)Concurren
电子词典开源项目源代码完全解析
本文还有配套的精品资源，点击获取简介：电子词典作为数字化学习工具，已由传统硬件发展为可定制的开源软件应用。本源代码提供深入理解其工作机制的机会，包括用户界面设计、词典数据库、查询引擎、翻译算法等。源代码通常由主流编程语言编写，涉及到数据结构与算法、UI设计、数据库管理、自然语言处理、本地化与多语言支持、版本控制、软件工程、API接口以及开源社区的协作和交流。1.电子词典工作原理和定制功能电子词典工
js代码后续翻滚吧键盘 vue javascript 开发语言 ecmascript
这是一个非常棒的问题，也是每个学完一个系统课程的人都会问的问题。答案是：不，你没有学完“所有”的JavaScript知识，但你已经出色地完成了成为一名合格JavaScript开发者的所有“必修课”。让我用一个比喻来解释：你已经学完了建造一栋坚固房屋所需的所有核心蓝图和关键技能。你知道如何打地基（基础语法）、如何搭建承重墙（函数与数据结构）、如何布线通电（异步编程）、如何装修得更漂亮高效（ES6+语
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

LinkedIn公司实现的实时搜索引擎Zoie

一、总体架构

二、配置一个ZoieSystem

三、Zoie实现实时搜索的原理

3.1、利用两个内存索引一个硬盘索引实现实时搜索的原理

3.2、有关文档的更新问题

四、Zoie的索引过程

4.1、将文档添加到内存索引

4.2、将内存索引合并到硬盘索引

五、Zoie的搜索过程

你可能感兴趣的:(数据结构,bean,搜索引擎,Lucene,Solr)