sl1130398099

全文检索技术 Lucene

1、什么是全文检索，如何实现全文检索
2、Lucene实现全文检索的流程
a) 创建索引
b) 查询索引
3、配置开发环境
4、入门程序
5、分析器的分析过程
a) 测试分析器的分词效果
b) 第三方中文分析器
6、索引库维护
a) 添加文档
b) 删除文档
c) 修改文档
7、索引库查询
a) 使用Query子类查询
b) 使用QueryParser查询

2 什么是全文检索
2.1 数据分类
我们生活中的数据总体分为两种：结构化数据和非结构化数据。
结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。
非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等磁盘上的文件
2.2 结构化数据搜索
常见的结构化数据也就是数据库中的数据。在数据库中搜索很容易实现，通常都是使用sql语句进行查询，而且能很快的得到查询结果。
为什么数据库搜索很容易？
因为数据库中的数据存储是有规律的，有行有列而且数据格式、数据长度都是固定的。
2.3 非结构化数据查询方法
（1）顺序扫描法(Serial Scanning)
所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是相当的慢。
（2）全文检索(Full-text Search)
将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。
例如：字典。字典的拼音表和部首检字表就相当于字典的索引，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释。
这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search)。
虽然创建索引的过程也是非常耗时的，但是索引一旦创建就可以多次使用，全文检索主要处理的是查询，所以耗时间创建索引是值得的。
2.4 如何实现全文检索
可以使用Lucene实现全文检索。Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能。

2.5 全文检索的应用场景
对于数据量大、数据结构不固定的数据可采用全文检索方式搜索，比如百度、Google等搜索引擎、论坛站内搜索、电商网站站内搜索等。

3 Lucene实现全文检索的流程
3.1 索引和搜索流程图

1、绿色表示索引过程，对要搜索的原始内容进行索引构建一个索引库，索引过程包括：
确定原始内容即要搜索的内容采集文档创建文档分析文档索引文档

2、红色表示搜索过程，从索引库中搜索内容，搜索过程包括：
用户通过搜索界面创建查询执行搜索，从索引库搜索渲染搜索结果
3.2 创建索引
对文档索引的过程，将用户要搜索的文档内容进行索引，索引存储在索引库（index）中。
这里我们要搜索的文档是磁盘上的文本文件，根据案例描述：凡是文件名或文件内容包括关键字的文件都要找出来，这里要对文件名和文件内容创建索引。
3.2.1 获得原始文档
原始文档是指要索引和搜索的内容。原始内容包括互联网上的网页、数据库中的数据、磁盘上的文件等。
本案例中的原始内容就是磁盘上的文件，如下图：

从互联网上、数据库、文件系统中等获取需要搜索的原始信息，这个过程就是信息采集，信息采集的目的是为了对原始内容进行索引。
在Internet上采集信息的软件通常称为爬虫或蜘蛛，也称为网络机器人，爬虫访问互联网上的每一个网页，将获取到的网页内容存储起来。
本案例我们要获取磁盘上文件的内容，可以通过文件流来读取文本文件的内容，对于pdf、doc、xls等文件可通过第三方提供的解析工具读取文件内容，比如Apache POI读取doc和xls的文件内容。

3.2.2 创建文档对象
获取原始内容的目的是为了索引，在索引前需要将原始内容创建成文档（Document），文档中包括一个一个的域（Field），域中存储内容。
这里我们可以将磁盘上的一个文件当成一个document，Document中包括一些Field（file_name文件名称、file_path文件路径、file_size文件大小、file_content文件内容），如下图：

注意：每个Document可以有多个Field，不同的Document可以有不同的Field，同一个Document可以有相同的Field（域名和域值都相同）

每个文档都有一个唯一的编号，就是文档id。
3.2.3 分析文档
将原始内容创建为包含域（Field）的文档（document），需要再对域中的内容进行分析，分析的过程是经过对原始文档提取单词、将字母转为小写、去除标点符号、去除停用词等过程生成最终的语汇单元，可以将语汇单元理解为一个一个的单词。

比如下边的文档经过分析如下：
原文档内容：
Lucene is a Java full-text search engine. Lucene is not a complete
application, but rather a code library and API that can easily be used
to add search capabilities to applications.

分析后得到的语汇单元：
lucene、java、full、search、engine。。。。

每个单词叫做一个Term，不同的域中拆分出来的相同的单词是不同的term。term中包含两部分一部分是文档的域名，另一部分是单词的内容。
例如：文件名中包含apache和文件内容中包含的apache是不同的term。
3.2.4 创建索引
对所有文档分析得出的语汇单元进行索引，索引的目的是为了搜索，最终要实现只搜索被索引的语汇单元从而找到Document（文档）。

注意：创建索引是对语汇单元索引，通过词语找文档，这种索引的结构叫倒排索引结构。
传统方法是根据文件找到该文件的内容，在文件内容中匹配搜索关键字，这种方法是顺序扫描方法，数据量大、搜索慢。
倒排索引结构是根据内容（词语）找文档，如下图：

倒排索引结构也叫反向索引结构，包括索引和文档两部分，索引即词汇表，它的规模较小，而文档集合较大。
3.3 查询索引
查询索引也是搜索的过程。搜索就是用户输入关键字，从索引（index）中进行搜索的过程。根据关键字搜索索引，根据索引找到对应的文档，从而找到要搜索的内容（这里指磁盘上的文件）。
3.3.1 用户查询接口
全文检索系统提供用户搜索的界面供用户提交搜索的关键字，搜索完成展示搜索结果。

比如：

Lucene不提供制作用户搜索界面的功能，需要根据自己的需求开发搜索界面。
3.3.2 创建查询
用户输入查询关键字执行搜索之前需要先构建一个查询对象，查询对象中可以指定查询要搜索的Field文档域、查询关键字等，查询对象会生成具体的查询语法，
例如：
语法 “fileName:lucene”表示要搜索Field域的内容为“lucene”的文档

3.3.3 执行查询
搜索索引过程：
根据查询语法在倒排索引词典表中分别找出对应搜索词的索引，从而找到索引所链接的文档链表。
比如搜索语法为“fileName:lucene”表示搜索出fileName域中包含Lucene的文档。
搜索过程就是在索引上查找域为fileName，并且关键字为Lucene的term，并根据term找到文档id列表。

3.3.4 渲染结果
以一个友好的界面将查询结果展示给用户，用户根据搜索结果找自己想要的信息，为了帮助用户很快找到自己的结果，提供了很多展示的效果，比如搜索结果中将关键字高亮显示，百度提供的快照等。

4 配置开发环境
4.1 Lucene下载
Lucene是开发全文检索功能的工具包，从官方网站下载lucene-7.4.0，并解压。

官方网站：http://lucene.apache.org/
版本：lucene-7.4.0
Jdk要求：1.8以上
4.2 使用的jar包
lucene-core-7.4.0.jar

lucene-analyzers-common-7.4.0.jar

5 入门程序
5.1 需求
实现一个文件的搜索功能，通过关键字搜索文件，凡是文件名或文件内容包括关键字的文件都需要找出来。还可以根据中文词语进行查询，并且需要支持多个条件查询。
本案例中的原始内容就是磁盘上的文件，如下图：

5.2 创建索引
5.2.1 实现步骤
第一步：创建一个java工程，并导入jar包。
第二步：创建一个indexwriter对象。
1）指定索引库的存放位置Directory对象
2）指定一个IndexWriterConfig对象。
第二步：创建document对象。
第三步：创建field对象，将field添加到document对象中。
第四步：使用indexwriter对象将document对象写入索引库，此过程进行索引创建。并将索引和document对象写入索引库。
第五步：关闭IndexWriter对象。
5.2.2 代码实现
//创建索引
@Test
public void createIndex() throws Exception {

//指定索引库存放的路径
//D:\temp\index
Directory directory = FSDirectory.open(new File("D:\\temp\\index").toPath());
//索引库还可以存放到内存中
//Directory directory = new RAMDirectory();
//创建indexwriterCofig对象
IndexWriterConfig config = new IndexWriterConfig();
//创建indexwriter对象
IndexWriter indexWriter = new IndexWriter(directory, config);
//原始文档的路径
File dir = new File("D:\\temp\\searchsource");
for (File f : dir.listFiles()) {
    //文件名
    String fileName = f.getName();
    //文件内容
    String fileContent = FileUtils.readFileToString(f);
    //文件路径
    String filePath = f.getPath();
    //文件的大小
    long fileSize  = FileUtils.sizeOf(f);
    //创建文件名域
    //第一个参数：域的名称
    //第二个参数：域的内容
    //第三个参数：是否存储
    Field fileNameField = new TextField("filename", fileName, Field.Store.YES);
    //文件内容域
    Field fileContentField = new TextField("content", fileContent, Field.Store.YES);
    //文件路径域（不分析、不索引、只存储）
    Field filePathField = new TextField("path", filePath, Field.Store.YES);
    //文件大小域
    Field fileSizeField = new TextField("size", fileSize + "", Field.Store.YES);

    //创建document对象
    Document document = new Document();
    document.add(fileNameField);
    document.add(fileContentField);
    document.add(filePathField);
    document.add(fileSizeField);
    //创建索引，并写入索引库
    indexWriter.addDocument(document);
}
//关闭indexwriter
indexWriter.close();

}

5.2.3 使用Luke工具查看索引文件

我们使用的luke的版本是luke-7.4.0，跟lucene的版本对应的。可以打开7.4.0版本的lucene创建的索引库。需要注意的是此版本的Luke是jdk9编译的，所以要想运行此工具还需要jdk9才可以。

5.3 查询索引
5.3.1 实现步骤
第一步：创建一个Directory对象，也就是索引库存放的位置。
第二步：创建一个indexReader对象，需要指定Directory对象。
第三步：创建一个indexsearcher对象，需要指定IndexReader对象
第四步：创建一个TermQuery对象，指定查询的域和查询的关键词。
第五步：执行查询。
第六步：返回查询结果。遍历查询结果并输出。
第七步：关闭IndexReader对象

5.3.2 代码实现
//查询索引库
@Test
public void searchIndex() throws Exception {
//指定索引库存放的路径
//D:\temp\index
Directory directory = FSDirectory.open(new File(“D:\temp\index”).toPath());
//创建indexReader对象
IndexReader indexReader = DirectoryReader.open(directory);
//创建indexsearcher对象
IndexSearcher indexSearcher = new IndexSearcher(indexReader);
//创建查询
Query query = new TermQuery(new Term(“filename”, “apache”));
//执行查询
//第一个参数是查询对象，第二个参数是查询结果返回的最大值
TopDocs topDocs = indexSearcher.search(query, 10);
//查询结果的总条数
System.out.println(“查询结果的总条数：”+ topDocs.totalHits);
//遍历查询结果
//topDocs.scoreDocs存储了document对象的id
for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
//scoreDoc.doc属性就是document对象的id
//根据document的id找到document对象
Document document = indexSearcher.doc(scoreDoc.doc);
System.out.println(document.get(“filename”));
//System.out.println(document.get(“content”));
System.out.println(document.get(“path”));
System.out.println(document.get(“size”));
System.out.println("-------------------------");
}
//关闭indexreader对象
indexReader.close();
}

6 分析器
6.1 分析器的分词效果
//查看标准分析器的分词效果
@Test
public void testTokenStream() throws Exception {
//创建一个标准分析器对象
Analyzer analyzer = new StandardAnalyzer();
//获得tokenStream对象
//第一个参数：域名，可以随便给一个
//第二个参数：要分析的文本内容
TokenStream tokenStream = analyzer.tokenStream(“test”, “The Spring Framework provides a comprehensive programming and configuration model.”);
//添加一个引用，可以获得每个关键词
CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
//添加一个偏移量的引用，记录了关键词的开始位置以及结束位置
OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);
//将指针调整到列表的头部
tokenStream.reset();
//遍历关键词列表，通过incrementToken方法判断列表是否结束
while(tokenStream.incrementToken()) {
//关键词的起始位置
System.out.println(“start->” + offsetAttribute.startOffset());
//取关键词
System.out.println(charTermAttribute);
//结束位置
System.out.println(“end->” + offsetAttribute.endOffset());
}
tokenStream.close();
}

6.2 中文分析器
6.2.1 Lucene自带中文分词器
 StandardAnalyzer：
单字分词：就是按照中文一个字一个字地进行分词。如：“我爱中国”，
效果：“我”、“爱”、“中”、“国”。
 SmartChineseAnalyzer
对中文支持较好，但扩展性差，扩展词库，禁用词库和同义词库等不好处理
6.2.2 IKAnalyzer

使用方法：
第一步：把jar包添加到工程中
第二步：把配置文件和扩展词典和停用词词典添加到classpath下

注意：hotword.dic和ext_stopword.dic文件的格式为UTF-8，注意是无BOM 的UTF-8 编码。
也就是说禁止使用windows记事本编辑扩展词典文件

使用EditPlus.exe保存为无BOM 的UTF-8 编码格式，如下图：

6.3 使用自定义分析器
@Test
public void addDocument() throws Exception {
//索引库存放路径
Directory directory = FSDirectory.open(new File(“D:\temp\index”).toPath());
IndexWriterConfig config = new IndexWriterConfig(new IKAnalyzer());
//创建一个indexwriter对象
IndexWriter indexWriter = new IndexWriter(directory, config);
//…
}

7 索引库的维护
7.1 索引库的添加
7.1.1 Field域的属性
是否分析：是否对域的内容进行分词处理。前提是我们要对域的内容进行查询。
是否索引：将Field分析后的词或整个Field值进行索引，只有索引方可搜索到。
比如：商品名称、商品简介分析后进行索引，订单号、身份证号不用分析但也要索引，这些将来都要作为查询条件。
是否存储：将Field值存储在文档中，存储在文档中的Field才可以从Document中获取
比如：商品名称、订单号，凡是将来要从Document中获取的Field都要存储。

是否存储的标准：是否要将内容展示给用户

7.1.2 添加文档代码实现
//添加索引
@Test
public void addDocument() throws Exception {
//索引库存放路径
Directory directory = FSDirectory.open(new File(“D:\temp\index”).toPath());
IndexWriterConfig config = new IndexWriterConfig(new IKAnalyzer());
//创建一个indexwriter对象
IndexWriter indexWriter = new IndexWriter(directory, config);
//创建一个Document对象
Document document = new Document();
//向document对象中添加域。
//不同的document可以有不同的域，同一个document可以有相同的域。
document.add(new TextField(“filename”, “新添加的文档”, Field.Store.YES));
document.add(new TextField(“content”, “新添加的文档的内容”, Field.Store.NO));
//LongPoint创建索引
document.add(new LongPoint(“size”, 1000l));
//StoreField存储数据
document.add(new StoredField(“size”, 1000l));
//不需要创建索引的就使用StoreField存储
document.add(new StoredField(“path”, “d:/temp/1.txt”));
//添加文档到索引库
indexWriter.addDocument(document);
//关闭indexwriter
indexWriter.close();

}

7.2 索引库删除
7.2.1 删除全部
//删除全部索引
@Test
public void deleteAllIndex() throws Exception {
IndexWriter indexWriter = getIndexWriter();
//删除全部索引
indexWriter.deleteAll();
//关闭indexwriter
indexWriter.close();
}

说明：将索引目录的索引信息全部删除，直接彻底删除，无法恢复。

此方法慎用！！

7.2.2 指定查询条件删除
//根据查询条件删除索引
@Test
public void deleteIndexByQuery() throws Exception {
IndexWriter indexWriter = getIndexWriter();
//创建一个查询条件
Query query = new TermQuery(new Term(“filename”, “apache”));
//根据查询条件删除
indexWriter.deleteDocuments(query);
//关闭indexwriter
indexWriter.close();
}

7.3 索引库的修改
原理就是先删除后添加。
//修改索引库
@Test
public void updateIndex() throws Exception {
IndexWriter indexWriter = getIndexWriter();
//创建一个Document对象
Document document = new Document();
//向document对象中添加域。
//不同的document可以有不同的域，同一个document可以有相同的域。
document.add(new TextField(“filename”, “要更新的文档”, Field.Store.YES));
document.add(new TextField(“content”, " Lucene 简介 Lucene 是一个基于 Java 的全文信息检索工具包," +
“它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。”,
Field.Store.YES));
indexWriter.updateDocument(new Term(“content”, “java”), document);
//关闭indexWriter
indexWriter.close();
}

8 Lucene索引库查询
对要搜索的信息创建Query查询对象，Lucene会根据Query查询对象生成最终的查询语法，类似关系数据库Sql语法一样Lucene也有自己的查询语法，比如：“name:lucene”表示查询Field的name为“lucene”的文档信息。
可通过两种方法创建查询对象：
1）使用Lucene提供Query子类
2）使用QueryParse解析查询表达式
8.1 TermQuery
TermQuery，通过项查询，TermQuery不使用分析器所以建议匹配不分词的Field域查询，比如订单号、分类ID号等。
指定要查询的域和要查询的关键词。
//使用Termquery查询
@Test
public void testTermQuery() throws Exception {
Directory directory = FSDirectory.open(new File(“D:\temp\index”).toPath());
IndexReader indexReader = DirectoryReader.open(directory);
IndexSearcher indexSearcher = new IndexSearcher(indexReader);

//创建查询对象
Query query = new TermQuery(new Term("content", "lucene"));
//执行查询
TopDocs topDocs = indexSearcher.search(query, 10);
//共查询到的document个数
System.out.println("查询结果总数量：" + topDocs.totalHits);
//遍历查询结果
for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
    Document document = indexSearcher.doc(scoreDoc.doc);
    System.out.println(document.get("filename"));
    //System.out.println(document.get("content"));
    System.out.println(document.get("path"));
    System.out.println(document.get("size"));
}
//关闭indexreader
indexSearcher.getIndexReader().close();

}

8.2 数值范围查询
@Test
public void testRangeQuery() throws Exception {
IndexSearcher indexSearcher = getIndexSearcher();
Query query = LongPoint.newRangeQuery(“size”, 0l, 10000l);
printResult(query, indexSearcher);
}

8.3 使用queryparser查询
通过QueryParser也可以创建Query，QueryParser提供一个Parse方法，此方法可以直接根据查询语法来查询。Query对象执行的查询语法可通过System.out.println(query);查询。
需要使用到分析器。建议创建索引时使用的分析器和查询索引时使用的分析器要一致。
需要加入queryParser依赖的jar包。

@Test
public void testQueryParser() throws Exception {
IndexSearcher indexSearcher = getIndexSearcher();
//创建queryparser对象
//第一个参数默认搜索的域
//第二个参数就是分析器对象
QueryParser queryParser = new QueryParser(“content”, new IKAnalyzer());
Query query = queryParser.parse(“Lucene是java开发的”);
//执行查询
printResult(query, indexSearcher);
}

private void printResult(Query query, IndexSearcher indexSearcher) throws Exception {
//执行查询
TopDocs topDocs = indexSearcher.search(query, 10);
//共查询到的document个数
System.out.println(“查询结果总数量：” + topDocs.totalHits);
//遍历查询结果
for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
Document document = indexSearcher.doc(scoreDoc.doc);
System.out.println(document.get(“filename”));
//System.out.println(document.get(“content”));
System.out.println(document.get(“path”));
System.out.println(document.get(“size”));
}
//关闭indexreader
indexSearcher.getIndexReader().close();
}

es笔记-提升性能 actionzh elasticsearch elasticsearch elasticsearch
1.合并请求批量索引，更新，删除多条搜索，多条获取2.优化分段处理刷新和冲刷：刷新会刷新索引快照，使得新建的索引能被搜索到。冲刷将索引的数据从内存写入磁盘合并和合并策略：lucene数据存储在不可变文件中（即分段），会合并分段，使得分段可控，消耗性能，可以限制多久合并一次，分段可以合并到多大等。存储和存储限流：每秒写入字节数3.充分利用缓存过滤器缓存分片查询缓存jvm和操作系统缓存预热器缓存热身4
Elasticsearch 聚合查询的 Java 实现 Leon_Jinhai_Sun elasticsearch java
importco.elastic.clients.elasticsearch._types.aggregations.Aggregation;Mapaggregations=qu.buildAggregations(data.get("aggregations"));这段代码是Java语言编写的，用于构建Elasticsearch聚合查询。Elasticsearch是一个基于Lucene的搜索服务
ES中数据刷新策略refresh 不平衡的叉叉树 java elasticsearch 大数据搜索引擎
在Elasticsearch中，插入数据时的refresh参数控制文档在写入后何时对搜索可见，其行为直接影响数据可见性和系统性能。以下是refresh参数的三个可选值（true、false、wait_for）的详细说明及适用场景：1.refresh=true行为：立即触发一次强制刷新（Refresh），将当前写入操作涉及的数据从内存缓冲区（In-memoryBuffer）刷新到新的LuceneSe
为什么「上下文检索」是提升 RAG 系统问答准确度的关键？后端人工智能数据库
为什么明明答案就在知识库里，但AI却无法准确回答？原因之一是由于RAG系统处理文档的方式。“文档切块”步骤导致丢失语义缺失、语义歧义或全局结构缺失，AI可能只看到了“局部信息”，却忽略了“全局意义”。这正印证了莫拉维克悖论——对人类而言是基于直觉的语义衔接，对AI却是一个需要复杂计算的挑战。针对这一问题，庖丁研究团队推出“上下文检索技术”——突破性地让AI通过结构解析和语义重组跨越文档碎片，让AI
Lucene初探之总体架构 Derrick_gu java Lucene 架构文档对象搜索 Lucene
从总体上来说，Lucene的可以被概括为三点：高效、可扩展的全文检索库；基于Java实现；支持对纯文本文件进行索引可搜索；Lucene的工作流程和架构如下所示：通过该图片，我们可以看出，Lucene的工作流程可以被分为两个部分：索引、搜索。我们可以将这些过程进行抽象组件化：通过上下两个图片的对比，基本上可以直观地了解各个组件的工作：Document代表被索引的各个分散的文档；IndexWirter
数据库高级面试题后端
以下是一些数据库高级面试题及其答案：一、索引设计与优化解释MySQL中的索引类型及其应用场景。答案：主键索引：唯一标识每条记录，适用于主键列。唯一索引：保证索引列的值唯一，适用于需要唯一约束的列。普通索引：加速查询的普通索引，适用于一般的查询操作。联合索引：多个列组成的索引，适用于多个列的查询条件。全文索引：用于查找文本中的关键词，适用于文本搜索。-什么是索引的“最左前缀原则”？请举例说明。答案：
Android中的AtomicLong：原理、使用与实战指南 jiet_h Android 夯实基础 android
本文结合生产环境实战案例，带你彻底搞懂AtomicLong在Android多线程开发中的应用。全文包含大量Kotlin代码示例，建议收藏备用。一、为什么需要AtomicLong？在Android开发中，当多个线程同时操作同一个Long型变量时，你可能会遇到这样的诡异场景：varcounter=0Lfunincrement(){//这个操作在并发场景下会出错！counter++}这个简单的自增操作，
Markdown 基础使用索引 ddxn417 编辑器
功能标识符备注斜体_文字_加粗**文字**标题层级显示，第几级就用几个##标题不能加粗，但可以用_标识符显示为斜体内联链接[链接文本](链接地址)内联链接全局链接，所有的链接标识在文章底部注明地址，只标记一次[显示some文字][链接标识a][显示other][链接标识a][链接标识a]:链接地址在全文多个地方需要显示同一个链接时，只需要在底部标记一次，省时省力内联链接图片![描述性文字](图片地
Go 1.24 新特性一览 go资讯编程语言程序员
Go1.24震撼登场，带来显著性能提升与诸多新功能，如泛型类型别名、优化工具链及标准库增强。可借助os.Root实现安全文件系统操作，运用testing.B.Loop优化基准测试，利用runtime.AddCleanup完善资源管理，还有weak包优化内存、crypto包保障FIPS140-3合规。速升级，提升Go应用效率与安全！文章目录语言特性更新泛型类型别名(GenericTypeAliase
深入检索：专业知识检索的高级算法与架构策略是小旭啊架构
在检索专业知识层需要涵盖更高级的检索技术，包括工程架构和算法策略。一、工程架构工程架构在构建检索系统中决定了系统的可扩展性、高可用性和性能。比如需要考虑的基本点：分布式架构：水平扩展：采用分布式架构，将检索任务分布到多个节点上，实现水平扩展。这可以通过将索引数据分片存储在不同的节点上，并使用分布式文件系统或对象存储来存储大规模的索引数据。任务分配：设计任务调度器，负责将查询请求分配到空闲的节点上进
Elasticsearch平台介绍 yzhujue elasticsearch
1简介Elasticsearch是一个实时分布式搜索和分析引擎。它能以很高的速度处理数据。它用于全文搜索、结构化搜索、分析以及将这三者混合使用。Ø维基百科使用Elasticsearch提供全文搜索并高亮关键字，以及输入实时搜索(search-as-you-type)和搜索纠错(did-you-mean)等搜索建议功能。Ø英国卫报使用Elasticsearch结合用户日志和社交网络数据提供给他们的编
北航计算机2014复试上机题,北航计算机系考研复试上机真题及答余思北航计算机2014复试上机题
北航计算机系考研复试上机真题及答(29页)本资源提供全文预览，点击全文预览即可全文预览,如果喜欢文档就下载吧，查找使用更方便哦！19.90积分Kao400.com出品侵权必究北京航空航天大学计算机系考研复试06-‐12上机真题及答案复试上机指导复试上机指导1.1.本真题只是提供辅助作用，关键还是研友平时动手能力本真题只是提供辅助作用，关键还是研友平时动手能力练练习和对算法、习和对算法、数据结构的理
java 庖丁解牛_“庖丁解牛” 分词器实现 weixin_39813009 java 庖丁解牛
importjava.io.IOException;importjava.io.StringReader;importnet.paoding.analysis.analyzer.PaodingAnalyzer;importorg.apache.lucene.analysis.Analyzer;importorg.apache.lucene.analysis.Token;importorg.apac
王坚院士谈算力革命，“对年轻人要足够地致敬” datawhale
DatawhaleDatawhale分享央视新闻，面对面：王坚院士来源：央视新闻，仅用于学术分享。**Datawhale整理了采访全文，供大家阅读。主持人：作为政协委员，今年您的提案里面会侧重于什么问题？王坚院士：我想我们今天讲的这个技术变革也好，特别是讲到人工智能也好，确实是一个时代的变革，是一个百年未遇的科技变革的时候。所以我今天比较关心的是人工智能+，我们怎么能有一些机制上的创新。王坚，全国
Elasticsearch（一）：安装Elasticsearch + kibana + ik分词器 Gooooa Elasticsearch elasticsearch安装 es安装 ik分词器 kibana安装
原文来源自黑马的课程1.Elasticsearch介绍和安装用户访问我们的首页，一般都会直接搜索来寻找自己想要购买的商品。而商品的数量非常多，而且分类繁杂。如果能正确的显示出用户想要的商品，并进行合理的过滤，尽快促成交易，是搜索系统要研究的核心。面对这样复杂的搜索业务和数据量，使用传统数据库搜索就显得力不从心，一般我们都会使用全文检索技术，比如之前大家学习过的Solr。不过今天，我们要讲的是另一个
如何将 Excel 数据转换为 SQL 脚本：从入门到实战 web15085096641 面试学习路线阿里巴巴 excel sql 数据库
全文目录：开篇语?前言??目录??什么是SQL脚本？??为什么要将Excel转换为SQL脚本？???如何将Excel转换为SQL脚本??方法一：使用在线转换工具??方法二：通过ExcelVBA编写脚本??方法三：利用Python脚本实现转换??实战演示案例??拓展阅读??总结文末开篇语哈喽，各位小伙伴们，你们好呀，我是。运营社区：C站/掘金/腾讯云/阿里云/华为云/51CTO；欢迎大家常来逛逛今天
阿里云Milvus 2.5：支持全文检索，1次查询实现文本+向量双精度匹配人工智能大数据milvus
随着大模型时代带来的各种新型应用探索，结合传统基于文本匹配的精确检索与语义检索所带来的增益日益显著，尤其在一些深度依赖关键字词匹配的场景中，这种需求变得尤为关键。目前，阿里云向量检索服务Milvus版（简称阿里云Milvus）集成开源Milvus2.5版本内核，在支持向量检索的基础上，新增支持原生全文检索、基于特定词汇的精准文本匹配等功能，在RAG、多模态搜索等场景下搜索精度明显提升，使用体验大幅
Lucene硬核解析专题系列（四）：性能优化与调优 yinlongfei_love lucene 性能优化 java
Lucene的高效性不仅源于其底层数据结构和算法，还得益于在实际应用中对性能的精心优化。本篇将从索引合并、内存管理、多线程搜索等方面，揭示Lucene如何应对高负载场景，并提供调优思路，帮助开发者充分发挥其潜力。一、索引合并（MergePolicy）与性能权衡Lucene的索引由多个分段组成，随着数据写入，分段数量增加会导致查询性能下降。索引合并是将小分段合并为大分段的过程，由MergePolic
Lucene硬核解析专题系列（三）：查询解析与执行 yinlongfei_love lucene mybatis 全文检索
Lucene的索引构建为高效搜索奠定了基础，而查询解析与执行则是将用户意图转化为实际结果的关键环节。本篇将从查询的解析开始，逐步深入到查询类型、评分模型和执行流程，揭示Lucene搜索能力的底层原理。一、查询语法与QueryParser的工作原理Lucene的查询过程始于用户输入的搜索字符串，例如“人工智能AND机器学习”。这一字符串需要被解析为Lucene能够理解的结构化对象。QueryPars
使用Apache Lucene构建高效的全文搜索服务忙碌的菠萝 java apache lucene mybatis
使用ApacheLucene构建高效的全文搜索服务在现代应用程序中，全文搜索功能是不可或缺的一部分。无论是电子商务网站、内容管理系统，还是数据分析平台，快速、准确地搜索大量数据是提升用户体验的关键。ApacheLucene是一个强大的全文搜索引擎库，它提供了高效的索引和搜索功能，能够轻松集成到Java应用程序中。本文将介绍如何使用ApacheLucene构建一个高效的全文搜索服务，并通过一个实际的
ES 的分布式架构原理能说一下么（ES 是如何实现分布式的啊）？小新杂谈社后端面试 elasticsearch 分布式架构搜索引擎
面试题ES的分布式架构原理能说一下么（ES是如何实现分布式的啊）？面试官心理分析在搜索这块，lucene是最流行的搜索库。几年前业内一般都问，你了解lucene吗？你知道倒排索引的原理吗？现在早已经out了，因为现在很多项目都是直接用基于lucene的分布式搜索引擎——ElasticSearch，简称为ES。而现在分布式搜索基本已经成为大部分互联网行业的Java系统的标配，其中尤为流行的就是ES，
ElasticSearch是如何实现分布式的？ weixin_30517001 大数据 java 面试
面试题es的分布式架构原理能说一下么（es是如何实现分布式的啊）？面试官心理分析在搜索这块，lucene是最流行的搜索库。几年前业内一般都问，你了解lucene吗？你知道倒排索引的原理吗？现在早已经out了，因为现在很多项目都是直接用基于lucene的分布式搜索引擎——ElasticSearch，简称为es。而现在分布式搜索基本已经成为大部分互联网行业的Java系统的标配，其中尤为流行的就是es，
使用 nodejs 和 ElasticSearch 快速搭建全文检索 dbLenis 数据库 java 编程语言大数据 linux
点击蓝色“有关SQL”关注我哟加个“星标”，天天与10000人一起快乐成长上次群友问我，Python怎么学，我说四个小时足够了，你们不信。这次，我用2个小时，仅仅用Google，快速搭建了一个nodejs+Elasticsearch的小Demo.足可见，在有搜索的年代，快速上手一门技术，已经不是什么难事。1安装1.1下载地址https://nodejs.org/en/download提供windo
MySQL进阶篇 === 索引分类前端贾公子 java 数据库开发语言
目录索引分类思考题语法索引分类与使用总结一、索引类型二、InnoDB存储引擎的索引存储形式三、聚集索引选取规则四、思考题解答五、索引的语法六、案例分析索引分类分类含义特点关键字主键索引针对于表中主键创建的索引默认自动创建，只能有一个PRIMARY唯一索引避免同一个表中某数据列中的值重复可以有多个UNIQUE常规索引快速定位特定数据可以有多个全文索引全文索引查找的是文本中的关键词，而不是比较索引中的
掌握 ElasticSearch 四种match查询的原理与应用全端工程师 elasticsearch elasticsearch django 大数据
文章目录一、引言(Introduction)二、准备工作：创建索引和添加示例数据三、`match`查询四、`match_all`查询五、`multi_match`查询六、`match_phrase`查询七、总结(Conclusion)一、引言(Introduction)在信息爆炸的时代，快速准确地找到所需信息至关重要。全文检索技术应运而生，它允许我们对文本内容进行深入搜索，而不仅仅是简单的关键词匹
Elasticsearch集群部署详解 Jeffrey_Zeng_ elasticsearch linux
文章目录Elasticsearch功能与特性：Elasticsearch单节点安装部署Elasticsearch集群安装部署附件1、安装Java（JDK）2、问题一2、问题二Elasticsearch功能与特性：（1）分布式搜索和分析引擎（2）全文检索，结构化检索，数据分析（3）对海量数据进行近实时的处理分布式：ES自动可以将海量数据分散到多台服务器上存储和检索海量数据的处理：分布式后，可采用大量
MySQL索引全面解析：从原理到实战，一文掌握高效查询的终极秘籍小诸葛IT课堂 mysql 数据库
引言MySQL索引是数据库性能优化的核心武器，但许多开发者对索引的理解仅停留在“加速查询”的层面。你是否遇到过以下问题？明明加了索引，查询依然慢如蜗牛？索引类型那么多，B-Tree、哈希、全文索引到底有什么区别？联合索引的最左前缀原则怎么用？索引失效的坑如何避免？本文将从底层原理出发，结合实战案例，深入剖析MySQL各类索引的设计与优化策略，助你彻底掌握索引的正确打开方式！引言MySQL索引是数据
淘天业务技术2024年度热门文章盘点阿里巴巴淘系技术团队官网博客
1.Agent调研--19类Agent框架对比本文主要探讨了19类Agent框架的对比，介绍了单智能体和多智能体框架的特点与应用，详细分析了几种主流的Agent框架，分别从任务规划、模型选择、执行任务等方面进行了阐述；最后分享了多智能体系统的优点和挑战。阅读全文2.AI助手：淘宝交易研发效率提升50%本文介绍了AI助理在提升交易系统研发效率中的应用。通过智能日志分析、自动化测试数据生成和经验沉淀，
知乎终于想开了！不用登录也能看全文了，网友：早该这样了程序员
最近，不少网友发现，在知乎电脑版网页上阅读回答时，终于不用再被弹窗逼着登录了！这个被吐槽了近一年的“强制登录看全文”政策悄然取消，用户点击“展开阅读全文”后可以直接浏览完整内容，连评论都能看。虽然打开问题页面时还是会弹出登录提示，但随手关掉后就能畅读无阻。知乎的“反复横跳”史2020年：知乎开始试探性要求用户登录，直接打开问题链接会弹窗提示登录。2024年5月：彻底“锁死”PC端，不登录连回答全文
MySQL存储引擎：MyISAM和InnoDB的区别随风飘雁数据库 mysql 数据库
1、MySQL存储引擎的发展MySQL数据库的存储引擎经历了多年的发展，以下是MySQL存储引擎的主要发展历程：MyISAM（默认存储引擎）：MyISAM是MySQL最早的存储引擎，支持表级锁定和高速读取。它是MySQL的默认存储引擎，支持全文索引和压缩表等功能。但是，MyISAM不支持事务处理和外键约束等功能，这使得它的应用受到一定限制。InnoDB：InnoDB是MySQL的另一种存储引擎，支
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

全文检索技术 Lucene

你可能感兴趣的:(全文检索技术 Lucene)