LinkedIn公司实现的实时搜索引擎Zoie

一、总体架构

Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统，按照其官方wiki的描述为：

http://snaprojects.jira.com/wiki/display/ZOIE/Overview

Zoie is a realtime indexing and search system, and as such needs to have relatively close coupling between the logically distinct Indexing and Searching subsystems: as soon as a document made available to be indexed, it must be immediately searchable.

The ZoieSystem is the primary component of Zoie, that incorporates both Indexing (via implementing DataConsumer) and Search (via implementing IndexReaderFactory>).

Zoie是一个实时的搜索引擎系统，其需要逻辑上独立的索引和搜索子系统相对紧密的结合在一起，从而使得一篇文档一经索引，就能够立刻被搜索的到。

ZoieSystem是Zoie的重要组成部分，其一方面通过实现DataConsumer接口而完成了索引功能，一方面通过实现IndexReaderFactory>而完成了搜索功能，并将二者紧密的结合在一起。

下面就是ZoieSystem的总体架构图：

对于索引系统来讲，ZoieSystem是一个DataConsumer，也即是一个消费者，其有函数consume用于消费DataEvent对象而完成索引功能。
既然其是消费者，则向其提供数据的就应该是生产者DataProvider，要想使用Zoie建立实时搜索系统，必须提供自己的生产者。
对于搜索系统来讲，ZoieSystem是一个IndexReaderFactory，也即是一个能够得到读取索引的IndexReader的工厂，其有函数getIndexReaders得到所有的IndexReader列表，从而可以完成对索引数据读取的功能。
熟悉Lucene的读者应该很清楚，要想对Lucene的索引进行搜索，则首先要得到IndexReader，然后根据IndexReader生成IndexSearcher，从而可以进行搜索，收集结果，打分，排序等过程。既然IndexReader可以通过Zoie的工厂得到，用户需要实现自己的搜索逻辑方可。

二、配置一个ZoieSystem

ZoieSystem是可以使用spring进行配置的，一个典型的配置如下：

看完了ZoieSystem的配置以后，我们首先来看看ZoieSystem的构造函数是如何使用这些参数进行初始化的：

(1) 其根据制定的索引文件夹${index.directory}生成一个DefaultDirectoryManager _dirMgr，用于管理索引文件夹及索引的版本号IndexSignature。

(2) 生成一个SearchIndexManager _searchIdxMgr，它是实现实时搜索的关键类，包含如下的成员变量：

第一步中生成的DefaultDirectoryManager
spring配置文件中传进来的IndexReader的装饰器IndexReaderDecorator _indexReaderDecorator
DefaultDocIDMapperFactory _docIDMapperFactory用来维护Zoie的文档ID同Lucene的文档ID号之间的对应关系
DiskSearchIndex _diskIndex用于操作硬盘上的索引，此时便得到一个指向硬盘索引的IndexReader
Status _diskIndexerStatus当前索引的状态，共两种状态Sleeping和Working，所谓的Sleeping就是新添加的文档仅仅进入内存索引，所谓的Working即其中一个内存索引正在和硬盘上的索引进行合并，下一节实时机制的时候，我们会详细讨论
Mem _mem结构，是利用两个内存索引，一个硬盘索引配合实现实时索引的关键，详细的机制，我们下一节会讨论。Mem结构包含以下部分：
- RAMSearchIndex _memIndexA用于操作内存索引A
- RAMSearchIndex _memIndexB用于操作内存索引B
- RAMSearchIndex _currentWritable根据索引所处的状态，有时候A是用于添加新文档的内存索引，有时候B是用于添加新文档的索引
- RAMSearchIndex _currentReadOnly同上一个相反，这是当前不会被添加新文档的内存索引，从下面的讨论中我们可以知道，此内存索引此时正在和硬盘上的索引进行合并。
- ZoieIndexReader _diskIndexReader硬盘索引的IndexReader

(3) 将参数赋值成员变量ZoieIndexableInterpreter _interpreter，Analyzer _analyzer，Similarity _similarity

(4) 创建DiskLuceneIndexDataLoader _diskLoader对象，用于索引到硬盘索引

(5) 如果实时索引_realtimeIndexing设置为true，则创建RealtimeIndexDataLoader _rtdc，第四步中的_diskLoader作为其成员变量。将其设置为ZoieSystem的父类AsyncDataConsumer的成员变量setDataConsumer(_rtdc)

三、Zoie实现实时搜索的原理

3.1、利用两个内存索引一个硬盘索引实现实时搜索的原理

(1) 当系统启动的时候，索引处在Sleeping状态，这时Mem结构中，只有索引A，索引B为null，索引A为_currentWritable，_currentReadOnly为null，_diskIndexReader为硬盘索引的IndexReader。由于内存中索引的IndexReader是每添加完文档后立刻更新的，而且速度很快，而硬盘上的索引一旦打开，在下次合并之前，一直使用，可以保证新添加的文档能够马上被搜索到。

(2) 当A中的文档数量达到一定的数量的时候，需要同硬盘上的索引进行合并，因此要进入Working状态。合并是一个相对比较长的过程，这时候会创建内存索引B，在合并过程中新添加的文档全部索引到B中。此时的Mem结构中，有内存索引A，内存索引B，索引A为currentReadOnly，索引B为currentWritable，diskIndexReader为硬盘索引的IndexReader。此时要获得ZoieSystem的IndexReader，则三个IndexReader全都返回，由于索引B的IndexReader是添加文档后立刻更新的，因而能够保证新添加的文档能够马上被搜索到，这个时候虽然索引A已经在同硬盘索引进行合并，然而由于硬盘索引的IndexReader还没有重新打开，因而索引A中的数据不会被重复搜到。

(3) 当索引A中的数据已经完全合并到硬盘上之后，则要重新打开硬盘索引的IndexReader，打开完毕后，创建一个新的Mem结构，原来的索引B作为索引A，为currentWritable，原来的索引A被抛弃，设为null，currentReadOnly也设为null，diskIndexReader为新打开的硬盘索引的IndexReader。然后通过无缝切换用新的Mem结构替代旧的Mem结构，然后索引进入Sleeping状态。

3.2、有关文档的更新问题

上面一节中，我们可以看到，对于新添加的文档的实时搜索问题相对简单，然而当遇到文档更新的时候，就相对复杂了。

如何实时的删除已经索引在硬盘上的文档是一个很大的问题，为此Zoie实现了ZoieSegmentReader：

成员变量_decoratedReader是ZoieSegmentReader把Lucene的IndexReader被用户指定的装饰器装饰后又封装了一层。
long[] _uidArray是从Lucene的文档ID到Zoie的文档ID的一个对应，Lucene的文档ID是下标，Zoie的文档ID是对应项的值。
IntRBTreeSet _delDocIdSet表示在此索引中删除的Lucene的文档ID
在索引中，Zoie的文档ID是作为一个特殊的Term("_ID", "_UID")的倒排表中每个Lucene的文档号的Payload信息保存的，保存为如下格式，其fillDocumentID函数就是将Zoie的文档ID放入Payload中。
当要从此ZoieSegmentReader中删除文档的时候，调用markDeletes函数，将要删除的文档的Zoie文档号通过DocIDMapper转换为Lucene的文档号，将Lucene的文档号加入_delDocIdSet
熟悉Lucene的读者应该知道，IndexReader是通过TermDocs接口从索引中取得倒排表的，Zoie也实现了自己的ZoieSegmentTermDocs，其有一个DocIdSetIterator作为成员变量，是在生成的时候由ZoieSegmentReader将自己的_delDocIdSet的遍历器传给它的，每当取下一个文档号的时候，其会将DocIdSetIterator中有的文档号过滤掉。对于TermPositions也是同样实现了ZoieSegmentTermPositions
ZoieSegmentReader使得较慢的从硬盘索引中删除文档的操作变为较快的在内存中的标记操作，并且不用重新打开IndexReader删除就能够被看到，还保证了更新的完整性(更新的操作是一个删除，外加一个添加，新添加的文档最初是在内存索引中，则删除操作也应该在内存中被标记，否则一旦系统crash，会出现新添加的丢了，老的版本也被删除了的情况，即便有重做机制也难以实现).

有了ZoieSegmentReader，下面我们来看文档更新情况下的实时搜索机制。

(1) 最初系统启动的时候，是在Sleeping状态下的，这个时候，内存索引为空，硬盘索引上有文档A,B,C。

(2) 在Sleeping状态下，更新文档B，则新的文档B进入内存索引，而硬盘索引中B被标记删除。

(3) 当内存中索引足够大的时候，索引会进入Working状态，进入合并过程。合并过程会首先将硬盘索引中被标记删除的文档先真实的删除，然后再将内存索引向硬盘索引进行合并。此时如果有新的更新进入，比如更新文档A，则将在另外一个内存索引和硬盘索引中都标记删除，然后将新文档添加到内存索引中。

(4) 当合并完毕后，硬盘索引会标记删除原来在内存索引中标记删除的文档，被合并的索引以及其标记删除的文档全部丢弃，索引进入Working状态。

四、Zoie的索引过程

4.1、将文档添加到内存索引

(1) Zoie的索引过程由DataProvider中调用ZoieSystem的consume函数开始，其实是调用AsyncDataConsumer的consume(Collection> data)函数，其仅仅将DataEvent放在LinkedList> _batch中。

(2) AsyncDataConsumer有一个背后的线程ConsumerThread _consumerThread，其会调用_consumer.consume(currentBatch)，由ZoieSystem的构造函数中第(5)步我们知道，此处的_consumer为RealtimeIndexDataLoader _rtdc。

(3) RealtimeIndexDataLoader.consume函数分一下几个步骤：

调用_interpreter的convertAndInterpret函数，将所有的DataEvent转换为ZoieIndexable，放入链表ArrayList> indexableList。ZoieIndexable其中封装了Lucene的Document
RealtimeIndexDataLoader在创建的时候，除了传进去的DiskLuceneIndexDataLoader作为成员变量_luceneDataLoader，还会创建成员变量RAMLuceneIndexDataLoader _ramConsumer用于索引到内存索引。在上一步做完后，调用_ramConsumer.consume(indexableList)将这些ZoieIndexable索引到内存中。

(4) RAMLuceneIndexDataLoader的consume函数会调用LuceneIndexDataLoader的consume函数，其包含以下步骤：

得到RAMSearchIndex idx
Zoie对所有的文档都做更新操作，将文档ID放入LongOpenHashSet delSet，将封装Lucene的Document的IndexingReq放入List docList中
对于每一篇文档，使用ZoieSegmentReader.fillDocumentID(doc, uid)向Payload中添加Zoie的文档ID
更新内存索引idx.updateIndex(delSet, docList, _analyzer,_similarity)，其中先用IndexReader删除，再用IndexWriter进行添加
当然要被删除的文档除了在内存索引中删除掉之外，还要在另外一个内存索引和硬盘索引中过滤掉。因而调用RAMLuceneIndexDataLoader的propagateDeletes(LongSet delDocs)函数：
- 首先得到另一个内存索引，这个时候应该是ReadOnly并正在和硬盘索引合并的索引：RAMSearchIndex readOnlyMemoryIdx = _idxMgr.getCurrentReadOnlyMemoryIndex()
- 在ReadOnly的内存索引中标记删除，从而搜索的时候可以将其过滤掉，readOnlyMemoryIdx.markDeletes(delDocs)
- 然后得到硬盘索引，DiskSearchIndex diskIdx = _idxMgr.getDiskIndex()
- 在硬盘索引中标记删除，diskIdx.markDeletes(delDocs)，从而在搜索中可以将其过滤掉

4.2、将内存索引合并到硬盘索引

RealtimeIndexDataLoader的父类是BatchedIndexDataLoader，其有一个背后的线程LoaderThread，其会调用processBatch函数。

RealtimeIndexDataLoader的processBatch函数过程如下：

(1) 当内存索引中的文档数量超过配置的batch size或者时间超过设置的_delay的时候，就进行内存索引到硬盘索引的合并。

(2) 设置索引的状态从Sleeping到Working，_idxMgr.setDiskIndexerStatus(SearchIndexManager.Status.Working)

重新构造Mem _mem结构
原来在Sleeping状态下用于添加新文档的memIndexA变成_currentReadOnly的
创建在Working状态下用于添加新文档的memIndexB为_currentWritable
在合并阶段，硬盘索引的IndexReader还是老的IndexReader
从代码我们也可以看出，内存索引A和B交换了位置：Mem mem = new Mem(memIndexA, memIndexB, memIndexB, memIndexA, oldMem.get_diskIndexReader());

(3) 得到需要合并的内存索引readOnlyMemIndex = _idxMgr.getCurrentReadOnlyMemoryIndex()

(4) 将内存索引合并到硬盘索引：_luceneDataLoader.loadFromIndex(readOnlyMemIndex)，DiskLuceneIndexDataLoader的loadFromIndex函数做以下事情

得到DiskSearchIndex idx = getSearchIndex()
idx.loadFromIndex(ramIndex)，其中首先用IndexReader删除被标记的文档，然后调用IndexWriter的addIndexesNoOptimize函数将内存索引合并到硬盘
刷新硬盘索引的IndexReader,idx.refresh()
idx.markDeletes(ramIndex.getDelDocs())继承内存索引中被标记删除的文档

(5) 设置索引的状态从Working到Sleeping，_idxMgr.setDiskIndexerStatus(Status.Sleep)

重新构造Mem _mem结构
将在Working状态下的memIndexB付给memIndexA以及currentWritable，而memIndexB设为null，也即把B当做A，没有B
Mem mem = new Mem(oldMem.get_memIndexB(), null, oldMem.get_memIndexB(), null, diskIndexReader)
lockAndSwapMem将Mem结构进行无缝切换

五、Zoie的搜索过程

在使用Zoie进行搜索的时候，要调用ZoieSystem的getIndexReaders()函数，其调用了_searchIdxMgr.getIndexReaders()。

SearchIndexManager的getIndexReaders函数，分别得到RAMSearchIndex memIndexA的IndexReader，RAMSearchIndex memIndexB的IndexReader，以及硬盘索引的IndexReader。在Sleeping状态下得到两个IndexReader，在Working状态下得到三个IndexReader。

已有 4 人发表留言，猛击->> 这里<<-参与讨论

ITeye推荐

—软件人才免语言低担保赴美带薪读研！—

替代进口SCA7606【智芯微】国产高精度电流传感器工业新能源电网专用深圳市尚想信息技术有限公司智芯微传感器电流传感器新能源智能电网工业控制代替进口
SCA7606（智芯微）产品解析与推广文案一、产品概述SCA7606是智芯微电子（ZXMICRO）推出的一款高精度数字隔离式电流传感器芯片，采用霍尔效应+数字输出技术，专为工业控制、新能源、智能电网等领域的电流检测需求设计。二、核心功能与参数特性参数/功能检测类型隔离式电流检测（非接触式）量程±5A/±20A/±50A（多量程可选）输出方式数字输出（I²C/SPI），支持实时数据传输精度±1%FS
如何在YashanDB数据库中进行高效的JSON数据存储数据库
随着业务对非结构化和半结构化数据存储需求的增加，JSON数据类型逐渐成为数据库支持的关键特性。然而，JSON数据的高效存储与访问面临性能瓶颈、一致性保障及空间利用率等挑战。YashanDB作为现代企业级数据库，需提供有效的机制解决上述难题，从而满足实时查询、高并发访问及数据一致性的需求。本文针对YashanDB数据库的体系架构、存储引擎及索引机制，深入分析如何实现高效的JSON数据存储与访问，旨在
如何为看板产品接入实时行情 API 后端教程观点程序员web3
以下是一个基于Java的完整示例，演示如何通过WebSocket接入InfowayAPI提供的实时行情接口，并展示如加密货币BTC/USDT的实时价格更新。文末附有完整代码。步骤1：准备工作注册账号并申请免费APIKey阅读接入文档（可选）Java环境准备：JDK11+添加jakarta.websocket依赖添加fastjson2依赖（用于构造/解析JSON）步骤2：建立WebSocket连接W
推荐算法（推广搜）——广告和推荐有什么不同？
导语近几年新兴起一个行业：推广搜。即推荐、广告、搜索算法的简称。各大厂都隐隐将其作为公司核心技术来发展。此文将带领大家探秘广告和推荐有什么区别以及其相似处。再此强调一下，广告算法里面的推荐广告和自然推荐结果里的推荐系统进行对比，但因为广告算法里面还有“搜索广告”，搜索广告和推荐系统差异性就太大了，这里不做讨论。一、不同点1.1本质不同推荐广告和自然推荐本质中要处理的群体和衡量的利益完全不一样。（图
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
在Linux环境下从0私有化部署Dify
在Linux环境下从0搭建Dify准备工作系统环境私有化部署下载Dify代码ZIP包启动Dify启动Docker容器访问Dify本地环境服务器环境准备工作因工作需要私有化部署公司内部的知识库，研究了一下准备采用Dify+RAG的方式实现，以下是具体步骤。系统环境服务器配置：官方建议2核4G以上；Liunx版本：RockyLinuxrelease9.4；Docker版本：28.1.1；Dify版本：
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
OneCode 图表组件核心优势解析
一、全方位的可视化能力OneCode图表组件提供了15+种专业图表类型，覆盖从基础到高级的数据可视化需求：基础图表：柱状图、折线图、饼图、面积图等高级图表：金字塔图、雷达图、仪表盘、LED图表等实时图表：实时折线图、实时柱状图、实时堆叠图等特殊图表：圆柱图、温度计图、角度仪表、水平线性仪表等这种丰富的图表类型支持，使得OneCode能够满足不同行业、不同场景下的数据可视化需求，从简单的数据展示到复
华为十年 weixin_30871905 数据库面试操作系统
http://hi.baidu.com/xujiajundd/blog/item/0192e23ba3bd9bef15cecb7c.html上周，我正式提交了离职报告，准备给自己的职业生涯一个很大的转折，这是我长时间的思考最后所做的决定。但真的提出离职后，回想在公司的十年，还是百感交集。1997年7月16日，我只身提着一个包从深圳宝安机场下飞机，走出机场，天是那么蓝、白云那么低、空气那么潮，仰头望
【Prometheus】cAdvisor工作原理介绍码上淘金 prometheus
cAdvisor（ContainerAdvisor）是Google开源的容器监控工具，专注于实时采集和暴露容器级别的资源使用数据。其底层实现基于Linux内核的多项技术，结合高效的事件驱动架构，实现对容器资源的细粒度监控。以下从核心机制、数据采集原理和架构实现三方面详细解析：一、核心依赖技术cAdvisor的监控能力建立在Linux内核提供的底层机制之上：cgroups（控制组）资源隔离与统计：c
Subversion FAQ(常见问题解答) lxt2lili Java第三方插件 subversion svn apache 工作服务器 windows
常见问题：为什么会有这样一个项目？Subversion是私有软件吗?我听说它是属于CollabNet公司的。Subversion用在我的项目上是否足够稳定？Subversion的客户端/服务器在协同工作时的策略是怎样的？Subversion可以运行在哪些操作系统上？所有它的一切是否是一种新的文件系统？比方说ext2文件系统？为了运行一个Subversion服务器，哪些硬件是我所需要的？我听说Sub
SharePlex for Oracle应用系统高可用和容灾方案 dsg_gulibin 【正Dataguard rman oracle 数据库服务器 constraints 数据备份产品
第1章前言在企业信息化进程不断加快的今天，保持业务的连续性是企业用户进行数据存储时必须考虑的重要方面。灾难的出现可能导致生产停顿、客户满意度降低，减少企业的竞争力。如何安全、可靠、完整地保存数据，实现系统的灾难恢复是市场竞争的需要，更是进一步提高服务水平和改善服务质量、提升业务支撑能力的重要技术手段。“911”事件使大家更加谨慎地审视自己的应用系统。据有关数据表明，接近50%的公司需要关键业务24
CppCon 2015 学习:Beyond Sanitizers 虾球xz CppCon 学习 c++开发语言
Sanitizers，一类基于编译时插桩（instrumentation）的动态测试工具，用来检测程序运行时的各种错误。Sanitizers简介基于编译时插桩：编译器在编译代码时自动插入检测代码。动态运行时检测：程序运行时实时检查错误。常见类型：ASan（AddressSanitizer）：检测内存相关错误，如越界访问、使用后释放（Use-After-Free）、内存泄漏等。UBSan（Undef
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
基于虚拟化技术的网闸安全交换：物理隔离时代的智能数据流通引擎 109702008 #linux系统安全安全人工智能网络
摘要：在等保2.0和零信任架构背景下，传统网闸正从“物理断网”向“智能交换”演进。本文将深入解析如何通过硬件虚拟化+策略容器化在网闸内部实现安全数据交换，并提供工业级落地方案。一、痛点：隔离与效率的终极矛盾当企业面临以下场景时，传统网闸力不从心：生产网与办公网需实时同步数据库公有云与私有云间敏感文件传输多租户环境下跨安全域业务协同核心矛盾：物理隔离阻断攻击链的同时，也阻断了业务流！二、技术破局：虚
Python实例题：基于 Flask 的在线聊天系统
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于Flask的在线聊天系统要求：使用Flask框架构建一个实时在线聊天系统，支持以下功能：用户注册、登录和个人资料管理一对一实时聊天功能群聊功能消息通知和未读消息提示在线用户状态显示使用Flask-SocketIO实现实时通信。使用SQLite数据库存储用户、聊天记录等信息。添加美观的前端界面，支持响应式设计。解题思路：使
深入解析Spring Boot与Kafka集成：构建高效消息驱动应用
深入解析SpringBoot与Kafka集成：构建高效消息驱动应用引言在现代分布式系统中，消息队列技术扮演着至关重要的角色。ApacheKafka作为一款高性能、分布式的消息队列系统，被广泛应用于实时数据处理、日志收集、事件驱动架构等场景。本文将深入探讨如何在SpringBoot应用中集成Kafka，构建高效的消息驱动应用。1.Kafka简介ApacheKafka是一个分布式流处理平台，具有高吞吐
深入解析Spring Boot与Kafka集成：构建高效消息驱动微服务 Uranus^ Java Spring Boot Kafka 微服务消息队列
深入解析SpringBoot与Kafka集成：构建高效消息驱动微服务引言在现代微服务架构中，消息队列扮演着至关重要的角色，尤其是在处理高并发、异步通信和解耦系统组件时。ApacheKafka作为一款高性能的分布式消息队列系统，被广泛应用于实时数据处理和事件驱动架构中。本文将深入探讨如何在SpringBoot应用中集成Kafka，构建高效的消息驱动微服务。1.Kafka简介ApacheKafka是一
深入解析Spring Boot与Kafka集成：构建高性能消息驱动应用 Uranus^ Java Spring Boot Kafka 消息队列分布式系统
深入解析SpringBoot与Kafka集成：构建高性能消息驱动应用引言在现代分布式系统中，消息队列是实现异步通信和解耦的关键组件之一。ApacheKafka作为一种高性能、分布式的消息队列系统，被广泛应用于大数据处理、实时流处理以及事件驱动的架构中。本文将深入探讨如何在SpringBoot应用中集成Kafka，构建高性能的消息驱动应用。Kafka简介ApacheKafka是一个分布式流处理平台，
Abaqus许可价格高，项目组如何合理调度资源？
在大型制造企业、科研机构或工程服务公司中，Abaqus已成为结构非线性分析与多物理场仿真的首选平台之一。它能够处理复杂接触、塑性变形、大变形、断裂、复合材料等高难度问题，尤其适合航空航天、汽车碰撞、精密工程等领域的计算模拟。但同时，Abaqus的模块价格昂贵、资源调度复杂，特别是在多个项目组并行使用的环境下，频繁出现：仿真任务排队、许可冲突；模块占用严重、使用不透明；项目间“抢资源”，效率低下；如
【Note】《Kafka: The Definitive Guide》第三章： Kafka 生产者深入解析：如何高效写入 Kafka 消息队列 CodeWithMe 读书笔记中间件 kafka 分布式
《Kafka:TheDefinitiveGuide》第三章：Kafka生产者深入解析：如何高效写入Kafka消息队列Kafka已经成为现代分布式系统中不可或缺的核心组件，尤其是在微服务、事件驱动架构与实时流处理领域。作为Kafka使用的第一步，生产者（Producer）负责将消息写入Kafka，这个过程背后有哪些关键机制？如何实现高可靠、高性能的写入？什么是KafkaProducer？KafkaP
从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑许泽宇的技术分享知识图谱科技人工智能
一句话摘要：本文带你用现代NLP和知识图谱技术，把科技公司并购新闻变成结构化的知识大脑，过程全景揭秘，理论与实战齐飞，代码只用伪代码，干货与段子齐发，助你成为AI知识工程老司机！前言：为什么要把新闻变成知识图谱？想象一下，你是个投资分析师，老板让你一周内梳理全球科技并购大事件，找出谁在买谁、花了多少钱、背后有哪些大佬、涉及哪些新技术……你会怎么做？A.手动Ctrl+F，Excel狂敲，熬夜爆肝？B
垂起固定翼无人机应用及技术分析云卓SKYDROID 无人机云卓科技科技科普高科技
一、主要应用行业1.能源基础设施巡检电力巡检：适用于超高压输电线路通道的快速巡查，实时回传数据提升智能运检效率。油田管道监测：利用长航时特性（1.5-2小时）对大范围管道进行隐患排查，减少人力巡查成本。2.测绘与地理信息在山区、丘陵等复杂地形实现高精度航测，克服传统固定翼需跑道的限制。单架次可完成200平方公里区域的测绘任务，效率较旋翼机提升3倍以上。3.森林与生态监管通过热红外载荷监测林火隐患，
无人机RTK技术要点与难点分析云卓SKYDROID 无人机人工智能高科技云卓科技科普
一、RTK技术核心要点1.定位原理与精度提升RTK通过基准站与无人机（移动站）的实时差分计算消除误差。基准站已知精确坐标，将其观测的卫星载波相位数据发送给无人机，无人机通过对比自身接收的卫星信号与基准站数据的相位差，实现厘米级定位（水平1cm+1ppm，垂直2cm+1ppm）。相比普通GPS（米级误差），RTK显著解决了电离层延迟、对流层折射、卫星钟差等误差源。2.系统组成关键双天线设计：部分方案
Kafka 小熊哥^--^ kafka 分布式
一、什么是Kafka？Kafka的主要用途？Kafka是一个分布式流处理平台，是Apache的一个顶级项目，它被设计用于高吞吐量，分布式、持久性的数据流处理。Kafka实现了一套非常高效的一种发布订阅模型，应用场景非常广泛，比如日志聚合（收集日志）、数据流处理、数据仓库集成（传输数据到数据仓库）、应用程序集成（作为消息中间件来实现异步通信）、流媒体处理（列如实时监控，事件驱动的应用程序）二、top
Docker-compose容器编排
⼀、Docker-compose定义1.dockercompose是docker官⽅的开源项⽬，负责实现对docker容器集群的快速编排(容器，依赖，⽹络，挂载。。)2.compose是docker公司推出的⼀个⼯具软件，可以管理多个docker容器组成的应⽤3.需要定义⼀个YAML格式的配置⽂件docker-compose.yml，写好多个容器之间的调⽤关系4.使⽤compose的步骤、5.1.
微信聊天记录监听与转发工具明天过后0122 高效办公微信
以下是基于您需求撰写的《微信聊天记录监听与转发工具需求分析开发文档》：微信聊天记录监听与转发工具需求分析开发文档一、项目概述1.1目标开发基于wxauto的自动化工具，实现：实时监听指定微信聊天窗口（群组/个人）捕获并处理新消息按指定策略转发至目标用户"元宝"确保操作间隔符合10秒限制1.2技术栈核心框架：Python3.8+微信自动化：wxauto_custom(基于wxauto的定制版本)并发
Axure版ArcoDesign 组件库-免费版 AxureMost axure 模板-素材 axure 产品经理
ArcoDesign元件库是字节系基于ByteDesign升级而来的、能力全面的企业级产品设计系统。以下是对它的详细介绍：链接地址特点丰富的组件和样式：包含各种类型的组件，覆盖了多种交互场景，如通用类、布局类、数据展示类、数据输入类、反馈类、导航类等。同时提供丰富的颜色主题配置，支持自定义，包括基础颜色、字体、阴影等，且支持可视化编辑与实时预览。灵活的布局方案：基于模块化设计，支持响应式设计，便于
Android 发展历程
个人学习笔记安卓（android）是基于Linux内核的开源操作系统。主要用于移动设备，如智能手机、平板电脑、电视等，由Google公司及开放手机联盟领导及开发。2005年8月由谷歌收购注资HTC制造第一部Android手机2011年第一季度，android在全球的市场份额超过了塞班，成为全球第一2013年的第四季度，android平台手机的全球市场份额已经达到78.1%。2019年，谷歌官方宣布
Android发展历程雪碧聊技术 Android android 发展历程
目录一.Android发展历程①早期版本（2008–2010）②快速发展期（2011–2013）③设计革新与生态扩展（2014–2017）④AI与智能化时代（2018–2020）⑤近现代版本（2021–至今）⑥未来趋势一.Android发展历程安卓（Android）是一种基于Linux内核的自由及开放源代码的操作系统。主要使用于移动设备，如智能手机和平板电脑，由美国Google公司和开放手机联盟领
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam