东海陈光剑

Lucene 入门教程

了解搜索技术

什么是搜索

简单的说，搜索就是搜寻、查找，在IT行业中就是指用户输入关键字，通过相应的算法，查询并返回用户所需要的信息。

普通的数据库搜索

类似：select * from 表名 where 字段名 like ‘%关键字%’

例如：select * from article where content like ’%here%’

结果: where here shere

新的业务需求

比如，用户在百度文本框中输入，“吃饭睡觉写程序”，会出现的以下结果：

从结果可以看出，百度搜索具备以下明显特点：

1、即使在相关结果数量接近500万时，也能快速得出结果。

2、搜索的结果不仅仅局限于完整的“吃饭睡觉写程序”这一短语，而是将此短语拆分成，“写程序”，“吃饭”，“睡觉”，“程序”等关键字。

3、对拆分后的搜索关键字进行标红显示。

4、…

问题：上述功能，使用大家以前学过的数据库搜索能够方便实现吗？

普通的数据库搜索的缺陷

类似：select * from 表名 where 字段名 like ‘%关键字%’

例如：select * from article where content like ’%here%’

结果: where here shere

1、因为没有通过高效的索引方式，所以查询的速度在大量数据的情况下是很慢。

2、搜索效果比较差，只能对用户输入的完整关键字首尾位进行模糊匹配。用户搜索的结果误多输入一个字符，可能就导致查询出的结果远离用户的预期。

数据的分类

我们生活中的数据总体分为两种：结构化数据和非结构化数据。据IDC的一项调查报告中指出：企业中80%的数据都是非结构化数据，这些数据每年都按指数增长60%。据报道指出:平均只有1%-5%的数据是结构化的数据。

结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。

非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等磁盘上的文件.

非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样，标准也是多样性的，而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术，比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

非结构化数据查询方法

（1）顺序扫描法(Serial Scanning)

所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是相当的慢。

（2）全文检索(Full-text Search)

将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。

例如：字典。字典的拼音表和部首检字表就相当于字典的索引，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释。

这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search)。

虽然创建索引的过程也是非常耗时的，但是索引一旦创建就可以多次使用，全文检索主要处理的是查询，所以耗时间创建索引是值得的。

如何实现全文检索

可以使用Lucene实现全文检索。Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能。

应用场景：对于数据量大、数据结构不固定的数据可采用全文检索方式搜索，比如百度、Google等搜索引擎、论坛站内搜索、电商网站站内搜索等。

Lucene 定义

https://lucene.apache.org/

Lucene 是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。

image

Lucene产生的背景

数据库中的搜索很容易实现，通常都是使用sql语句进行查询，而且能很快的得到查询结果。

为什么数据库搜索很容易？

因为数据库中的数据存储是有规律的，有行有列而且数据格式、数据长度都是固定的。

Lucene执行原理

Lucene索引

1、文档层次结构

索引（Index）：一个索引放在一个文件夹中；
段（Segment）：一个索引中可以有很多段，段与段之间是独立的，添加新的文档可能产生新段，不同的段可以合并成一个新段；
文档（Document）：文档是创建索引的基本单位，不同的文档保存在不同的段中，一个段可以包含多个文档；
域（Field）：一个文档包含不同类型的信息，可以拆分开索引；
词（Term）：词是索引的最小单位，是经过词法分析和语言处理后的数据；
　　
文档是Lucene索引和搜索的原子单位，文档为包含一个或多个域的容器，而域则依次包含“真正的”被搜索内容，域值通过分词技术处理，得到多个词元。如一篇小说信息可以称为一个文档；小说信息又包含多个域，比如标题，作者、简介、最后更新时间等；对标题这一个域采用分词技术，又可以等到一个或多个词元。

2、正向索引与反向索引

正向索引：文档占据了中心的位置，每个文档指向了一个它所包含的索引项的序列。正向信息就是按层次保存了索引一直到词的包含关系：索引 -> 段-> 文档 -> 域 -> 词
反向索引：一种以索引项为中心来组织文档的方式，每个索引项指向一个文档序列，这个序列中的文档都包含该索引项。反向信息保存了词典的倒排表映射：词 -> 文档
　　
Lucene使用到的就是反向索引。

索引和搜索原理

全文索引和搜索流程图：

1、绿色表示索引过程，对要搜索的原始内容进行索引构建一个索引库，索引过程包括：

确定原始内容即要搜索的内容-->采集文档-->创建文档-->分析文档-->索引文档

2、红色表示搜索过程，从索引库中搜索内容，搜索过程包括：

用户通过搜索界面-->创建查询-->执行搜索，从索引库搜索-->渲染搜索结果

2.2 创建索引

对文档索引的过程，将用户要搜索的文档内容进行索引，索引存储在索引库（index）中。

这里我们要搜索的文档是磁盘上的文本文件，根据案例描述：凡是文件名或文件内容包括关键字的文件都要找出来，这里要对文件名和文件内容创建索引。

1) 获取原始文档

原始文档 是指要索引和搜索的内容。原始内容包括互联网上的网页（爬虫）、数据库中的数据（sql查询）、磁盘上的文件（IO流获取）等。

从互联网上、数据库、文件系统中等获取需要搜索的原始信息，这个过程就是信息采集，信息采集的目的是为了对原始内容进行索引。

在Internet上采集信息的软件通常称为爬虫或蜘蛛，也称为网络机器人，爬虫访问互联网上的每一个网页，将获取到的网页内容存储起来。

Lucene不提供信息采集的类库，需要自己编写一个爬虫程序实现信息采集，也可以通过一些开源软件实现信息采集，如下：

Nutch（http://lucene.apache.org/nutch）, Nutch是apache的一个子项目，包括大规模爬虫工具，能够抓取和分辨web网站数据。

jsoup（http://jsoup.org/ ），jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

heritrix（http://sourceforge.net/projects/archive-crawler/files/），Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。

获取磁盘上文件的内容，可以通过文件流来读取文本文件的内容，对于pdf、doc、xls等文件可通过第三方提供的解析工具读取文件内容，比如Apache POI读取doc和xls的文件内容。

2）创建文档对象

获取原始内容的目的是为了索引，在索引前需要将原始内容创建成文档（Document），文档中包括一个一个的域（Field），域中存储内容。

这里我们可以将磁盘上的一个文件当成一个document，Document中包括一些Field（file_name文件名称、file_path文件路径、file_size文件大小、file_content文件内容），如下图：

注意：每个Document可以有多个Field，不同的Document可以有不同的Field，同一个Document可以有相同的Field（域名和域值都相同）

每个文档都有一个唯一的编号，就是文档id。

3）分析文档

将原始内容创建为包含域（Field）的文档（document），需要再对域中的内容进行分析，分析的过程是经过对原始文档提取单词、将字母转为小写、去除标点符号、去除停用词等过程生成最终的语汇单元，可以将语汇单元理解为一个一个的单词。

比如下边的文档经过分析如下：

原文档内容：

Lucene is a Java full-text search engine. Lucene is not a complete

application, but rather a code library and API that can easily be used

to add search capabilities to applications.

分析后得到的语汇单元：

lucene、java、full、search、engine。。。。

每个单词叫做一个Term，不同的域中拆分出来的相同的单词是不同的term。term中包含两部分一部分是文档的域名，另一部分是单词的内容。

例如：文件名中包含apache和文件内容中包含的apache是不同的term。

4）创建索引

对所有文档分析得出的语汇单元进行索引，索引的目的是为了搜索，最终要实现只搜索被索引的语汇单元从而找到Document（文档）。

注意：创建索引是对语汇单元索引，通过词语找文档，这种索引的结构叫倒排索引结构。

传统方法是根据文件找到该文件的内容，在文件内容中匹配搜索关键字，这种方法是顺序扫描方法，数据量大、搜索慢。

倒排索引结构是根据内容（词语）找文档，如下图：

倒排索引结构也叫反向索引结构，包括索引和文档两部分，索引即词汇表，它的规模较小，而文档集合较大。

查询索引

查询索引也是搜索的过程。搜索就是用户输入关键字，从索引（index）中进行搜索的过程。根据关键字搜索索引，根据索引找到对应的文档，从而找到要搜索的内容（这里指磁盘上的文件）。

1）用户查询接口

全文检索系统提供用户搜索的界面供用户提交搜索的关键字，搜索完成展示搜索结果。

Lucene不提供制作用户搜索界面的功能，需要根据自己的需求开发搜索界面。

2）创建查询

用户输入查询关键字执行搜索之前需要先构建一个查询对象，查询对象中可以指定查询要搜索的Field文档域、查询关键字等，查询对象会生成具体的查询语法，

例如：　　语法 “fileName:lucene”表示要搜索Field域的内容为“lucene”的文档

3）执行查询

搜索索引过程：

根据查询语法在倒排索引词典表中分别找出对应搜索词的索引，从而找到索引所链接的文档链表。

比如搜索语法为“fileName:lucene”表示搜索出fileName域中包含Lucene的文档。

搜索过程就是在索引上查找域为fileName，并且关键字为Lucene的term，并根据term找到文档id列表。

4）渲染结果

以一个友好的界面将查询结果展示给用户，用户根据搜索结果找自己想要的信息，为了帮助用户很快找到自己的结果，提供了很多展示的效果，比如搜索结果中将关键字高亮显示，百度提供的快照等。

ElasticSearch vs Lucene

1. 成品与半成品的关系

2. Lucene专注于搜索底层的建设，而ElasticSearch专注于企业应用。

参考资料

https://blog.csdn.net/weixin_42633131/article/details/82873731
https://tool.oschina.net/apidocs/apidoc?api=lucene-3.6.0
https://www.cnblogs.com/wwwggg/p/5588698.html
https://www.cnblogs.com/rodge-run/p/6551152.html

Kotlin开发者社区

专注分享 Java、 Kotlin、Spring/Spring Boot、MySQL、redis、neo4j、NoSQL、Android、JavaScript、React、Node、函数式编程、编程思想、"高可用，高性能，高实时"大型分布式系统架构设计主题。

High availability, high performance, high real-time large-scale distributed system architecture design。

分布式框架：Zookeeper、分布式中间件框架等
分布式存储：GridFS、FastDFS、TFS、MemCache、redis等
分布式数据库：Cobar、tddl、Amoeba、Mycat
云计算、大数据、AI算法
虚拟化、云原生技术
分布式计算框架：MapReduce、Hadoop、Storm、Flink等
分布式通信机制：Dubbo、RPC调用、共享远程数据、消息队列等
消息队列MQ：Kafka、MetaQ，RocketMQ
怎样打造高可用系统：基于硬件、软件中间件、系统架构等一些典型方案的实现：HAProxy、基于Corosync+Pacemaker的高可用集群套件中间件系统
Mycat架构分布式演进
大数据Join背后的难题：数据、网络、内存和计算能力的矛盾和调和
Java分布式系统中的高性能难题：AIO，NIO，Netty还是自己开发框架？
高性能事件派发机制：线程池模型、Disruptor模型等等。。。

合抱之木，生于毫末；九层之台，起于垒土；千里之行，始于足下。不积跬步，无以至千里；不积小流，无以成江河。

第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
C# 开发教程-入门基础天马3798 教程系列整理 c#开发语言
1.C#简介、环境，程序结构2.C#基本语法，变量，控制局域，数据类型，类型转换3.C#数组、循环，Linq4.C#类，封装，方法5.C#枚举、字符串6.C#面相对象，继承，封装，多态7.C#特性、属性、反射、索引器8.C#委托，事件，集合，泛型9.C#匿名方法10.C#多线程更多：JQuery开发教程入门基础Vue开发基础入门教程Vue开发高级学习教程
一文说透 Android 应用架构 MVC、MVP、MVVM 和组件化，Android基础入门教程 Java后时代 2024年程序员学习 android 架构 mvc
然后，就是我们的View层的代码，同样，我对代码做了删减：@Route(path=BaseConstants.EYEPETIZER_MENU)publicclassHomeActivityextendsCommonActivityimplementsHomeContract.IView{//实例化PresenterprivateHomeContract.IPresenterpresenter;{p
感恩日记0103-0513 糊糊陪你瑜伽
一.每日精进：1.学习：《瑜伽之道》2.健身：《艾扬格瑜伽入门教程》第九周第二轮第7遍3.陪家人:今天是打拳日，对打的小哥哥出手很准，悟空也很抗打4.帮朋友：在直播间带大家练习；5.投资：每日定投box二.每日感恩：感恩sssb，所有伟大的传承上师们；感恩爸妈准备午餐，妈下午帮忙接悟空带他去上课；感谢二组给力的组委们，大家齐心协力，打了漂亮杖；感谢团长马倩总能在需要时答疑解惑，还开课组委会，优秀的
第三天旅游线路预览——从景区换乘中心到云霄峰陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第三天：从贾登峪到禾木风景区，晚上住宿贾登峪；从景区换乘中心可以乘车前往云霄峰景区，乘坐索道上山观景；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day3-4
Docker快速入门教程之使用docker部署Nginx详细流程老秦包你会 docker nginx eureka
文章目录前言1.安装Docker2.使用Docker拉取Nginx镜像3.创建并启动Nginx容器4.本地连接测试5.公网远程访问本地Nginx5.1内网穿透工具安装5.2创建远程连接公网地址5.3使用固定公网地址远程访问前言在开发人员的工作中，公网远程访问内网是其必备的技术需求之一。对于运维人员和开发者来说，能够通过公网远程访问内部的服务和应用，能够极大地提升工作效率和便利性。本文将介绍如何利用
C++入门教程：第八篇 - 文件I/O操作 HYP_Coder c++开发语言
C++入门教程：第八篇-文件I/O操作文件I/O（输入/输出）是程序与外部存储设备进行数据交换的关键操作。在C++中，文件I/O操作由标准库提供的流类完成。通过这些流类，程序可以读写文件，处理文件内容。本文将介绍C++中的文件I/O基础，包括如何打开、读写和关闭文件。1.文件流基础C++提供了几种文件流类，用于处理不同类型的文件操作。主要的文件流类包括ifstream（输入文件流）、ofstrea
Python实用技巧: 获取后缀名(扩展名) 或文件名高斯小哥 Python基础【高质量合集】python 开发语言 str 扩展名后缀名
Python实用技巧:获取后缀名(扩展名)或文件名个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、引言二、获取文件名三、获取文件扩展名四、实战案例五、总结六、最后一、引言
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
顶级的python入门教程！小白到大师，从这篇教程开始！马大哈（Python） python pycharm 开发语言学习青少年编程
1.为什么要学习Python？学习Python的原因有很多，以下是几个主要的原因：广泛应用：Python被广泛应用于Web开发、数据科学、人工智能、机器学习、自动化运维、网络爬虫、科学计算、游戏开发等多个领域。掌握Python意味着你可以在这些领域中找到丰富的职业机会。入门简单：Python的语法简洁明了，易于学习和理解，对于编程初学者来说非常友好。它的代码风格一致，可读性强，有助于培养良好的编程
爬虫入门教程：爬虫概述会三十六变的猫爬虫爬虫 python 大数据
在数字化时代，数据已经成为我们生活和工作中不可或缺的一部分。而如何高效、准确地获取这些数据，成为了许多领域面临的共同问题。今天，我们就来一起探讨一下爬虫技术，这个能够自动从互联网上抓取信息的神奇工具。一、什么是爬虫简单来说，爬虫（WebCrawler）是一种按照一定规则，自动抓取互联网信息的程序或者脚本。它通过模拟人类浏览器的行为，向目标网站发送请求，然后解析并提取返回的数据。这些数据可以是网页的
2024年Python最新Python爬虫入门教程30：爬取拉勾网招聘数据信息(1) 2401_84584609 程序员 python 爬虫信息可视化
Python爬虫入门教程23：A站视频的爬取，解密m3u8视频格式Python爬虫入门教程24：下载某网站付费文档保存PDFPython爬虫入门教程25：绕过JS加密参数，实现批量下载抖某音无水印视频内容Python爬虫入门教程26：快手视频网站数据内容下载Python爬虫入门教程27：爬取某电商平台数据内容并做数据可视化Python爬虫入门教程28：爬取微博热搜榜并做动态数据展示Python爬虫
Elasticsearch新手入门教程超级英雄吉姆 java企业应用
Elasticsearch入门一.Elasticsearch介绍Elasticsearch是一个分布式、可扩展、实时的搜索与数据分析引擎。它能从项目一开始就赋予你的数据以搜索、分析和探索的能力，这是通常没有预料到的。它存在还因为原始数据如果只是躺在磁盘里面根本就毫无用处。无论你是需要全文搜索，还是结构化数据的实时统计，或者两者结合，这本指南都能帮助你了解其中最基本的概念，从最基本的操作开始学习El
.NET Core快速入门教程 4、使用VS Code开发.NET Core控制台应用程序 dotNET跨平台
一、前言为什么选择VSCode？VSCode是一款跨平台的代码编辑器，想想他的哥哥VS，并是微软出品的宇宙第一IDE，那作为VS的弟弟，VSCode也不会差，毕竟微软出品。反正ken是这么认为的本篇开发环境？1、操作系统：Windows10X642、SDK：.NETCore2.0Preview3、VSCode：1.14前置知识？请看第2篇教程二、安装&配置1、VSCode下载&安装（1）下载地址：
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
RabbitMQ 入门教程寂然如故 ruby 开发语言后端
引言RabbitMQ是一个开源的消息代理和队列服务器，实现高级消息队列协议(AMQP)0-9-1。它能帮助开发者构建可靠、可扩展的应用程序，通过消息传递来解耦组件。安装与配置安装RabbitMQ1.下载安装包:-[RabbitMQDownloadPage](https://www.rabbitmq.com/download.html)2.安装:-Followtheinstallationinstr
RabbitMQ 入门教程寂然如故 ruby 开发语言后端
介绍RabbitMQ是一个开源的消息代理和队列服务器，实现高级消息队列协议(AMQP)。本教程将引导你完成RabbitMQ的基本设置，并演示如何使用Python来发送和接收消息。环境准备1.安装RabbitMQ-下载并安装RabbitMQ:[https://www.rabbitmq.com/download.html](https://www.rabbitmq.com/download.html)
Python入门教程：随机数random模块的用法程序员晓晓 python 开发语言 Python编程 Python学习技能分享
random是Python的一个内置模块，可以生成随机浮点数、整数、字符串，甚至帮助你随机选择列表序列中的一个元素，打乱一组数据等。以下是这个模块的常用函数及其用法：1.random.random():生成一个[0.0,1.0)之间的随机浮点数，包括0但不包括1。importrandomprint(random.random())2.random.randint(a,b):生成一个[a,b]之间的
OpenglEs之EGL环境搭建 FlyerGo Opengl 音视频 c++opengl
前言前面我们发布了一系列的入门教程，例如C++系列的指针扫盲、多线程的使用等，JNI入门系列，ffmpeg入门系列等，有感兴趣的童鞋们可以关注往回自行查阅。今天我们的主题依然是音视频开发的范畴，做过音视频开发的都知道Opengl也是音视频开发中的一项重要技能，特别是涉及到视频录制、特效处理、画质渲染细分功能。因此后续笔者打算再出一系列的OpenglES的学习笔记，希望能与大家共同温故知新。因为前面
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
YOLOV5入门教程-yolov5s.yaml文件 ustcthebest YOLO linux 运维
一、YAML的定义YAML（YAMLAin'tMarkupLanguage）是一种人类友好的数据序列化格式，用于表示数据结构和配置文件。以下是YAML文件的一些概述信息：可读性强：YAML使用缩进和结构化方式来表示数据，易于阅读和编写。它注重易读性，鼓励使用人类可读的格式。轻量级：YAML是一种轻量级的标记语言，相对于XML和JSON，它更简洁、易理解，适合表示复杂的数据结构。支持数据类型：YAM
通俗易懂版经典的黑客入门教程程序员橙橙网络网络安全 web安全计算机网络安全
给大家的福利基于入门网络安全打造的：黑客&网络安全入门&进阶学习资源包第一节、黑客的种类和行为以我的理解，“黑客”大体上应该分为“正”、“邪”两类，正派黑客依靠自己掌握的知识帮助系统管理员找出系统中的漏洞并加以完善，而邪派黑客则是通过各种黑客技能对系统进行攻击、入侵或者做其他一些有害于网络的事情，因为邪派黑客所从事的事情违背了《黑客守则》，所以他们真正的名字叫“骇客”（Cracker）而非“黑客”
React入门教程：创建你的第一个React应用小于负无穷 react.js 前端前端框架 javascript html5 node.js typescript
React是由Facebook开发的用于构建用户界面的JavaScript库。它以其高效、灵活和组件化的特性受到开发者的广泛欢迎。如果你是前端开发新手，或是从其他框架转向React，这篇文章将引导你创建一个简单的React应用，帮助你快速上手。1.环境准备在开始之前，确保你的开发环境已经安装了以下工具：Node.js和npm：React依赖于Node.js环境，并且npm是Node.js的包管理工
RabbitMQ 入门教程寂然如故 RabbitMQ rabbitmq 分布式
概述RabbitMQ是一个开源的消息代理和队列服务器，实现[AMQP0-9-1]标准。本教程将指导你如何使用Python和RabbitMQ进行消息传递。安装与配置安装RabbitMQ1.Ubuntu:```bashsudoapt-getupdatesudoapt-getinstallrabbitmq-server```2.Windows:-下载安装包并运行。配置-启动管理插件以在浏览器中查看队列状
RabbitMQ 入门教程寂然如故 ruby 开发语言后端
介绍RabbitMQ是一个开源的消息代理和队列服务器，实现高级消息队列协议(AMQP)。它可以在生产者和消费者之间传递消息，并且可以保证消息的传递。本教程将指导你通过简单的步骤来搭建并使用RabbitMQ。安装与配置1.安装RabbitMQLinux```bashsudoapt-getupdatesudoapt-getinstallrabbitmq-server```Windows-下载安装包:h
RabbitMQ 入门教程寂然如故 RabbitMQ ruby 开发语言后端
概述RabbitMQ是一个开源的消息代理和队列服务器，实现了高级消息队列协议(AMQP)。它能够接收、存储和转发消息数据。本教程将引导你完成搭建RabbitMQ环境、编写生产者与消费者程序的过程。安装与配置1.安装RabbitMQLinux```bashsudoapt-getupdatesudoapt-getinstallrabbitmq-server```Windows-下载安装包:https:
感恩日记0067-0407 糊糊陪你瑜伽
一.每日精进：1.读书：《微信互联网平民创业》+二节写作课2.健身：直播一起练《入门教程》第5周的序列第7遍（第二轮）3.陪家人：红豆饼早餐是娃的最爱，连吃了两天了。这娃特专一，吃穿住行一旦爱上就彻底排他了。4.帮朋友：帮助他人需要机缘，也需要余力，最近先做到上好每一节课，做好服务，用专业帮助有缘人。5.投资：每日定投box二.每日感恩：感恩爸妈准备午餐，厨艺有进步；感恩春天的引导，探寻生命密码的
Vue2.0 WYONG_ZQ java
Vue2.0饿了么ElementUI:http://element.eleme.io/#/zh-CN/component/installation?Vue2.0从环境搭建到发布：http://blog.csdn.net/sinat_17775997/article/details/52788908Vue官方教程及api:http://cn.vuejs.org/v2/guide/ES6入门教程：ht
Rust基础 vo很懒 rust 开发语言后端
Rust语法基础本文源自观看B站Rust编程语言入门教程记录下来的重点笔记视频链接：Rust编程语言入门教程（Rust语言/Rust权威指南配套）文章目录Rust语法基础第三章变量与可变性数据类型函数控制流第四章所有权所有权规则、内存与分配所有权与函数引用与借用第五章struct定义和实例化输出格式化struct方法方法调用的运算符关联函数impl块第六章枚举Option枚举Matchiflet第
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号