发咪

全文检索

全文检索的概念

索引文件是全文检索系统的主要构成部分(全文检索技术就是围绕着索引文件展开)。索引文件中的数据是有结构的,可以对文本数据做词,字,句,段的解析.索引文件是海量数据.

搜索引擎的结构（搜索系统）

信息采集:收集数据源的所有源数据进行大数据的存储工作
信息整理:源数据海量非结构化(网页),要经过整理的过程输出封装成(索引文件)
搜索服务:应用系统,提供客户使用,调用索引文件的数据返回查询的结果

Lucene

lucene是一个开源的全文检索引擎工具包.早期全文检索所有的具体逻辑原理是通用,但是代码,工具需要自定义开发.Doug Cutting(hadoop)创世.极大提升了全文检索技术开发效率
特点

①：稳定,创建索引性能高(150GB/小时)

②：lucene基于java的技术,栈内存要求小1MB

③：增量索引和批量索引速度一样快

④：索引文件索引数据结构20%

⑤：支持多种主流搜索功能:短语,词项,多域,布尔,模糊,通配查询

3. 倒排索引

document(文档):是索引中一个数据整体的最小单位,可以表示封装源数据的一个整体(一个网页,一个数据库行数据)

field(域属性):在一个document对象中,根据不同的数据来源封装多种不同的数据类型的属性(doc1网页对象,)

词项/分词计算(term/analyzer):数据中(document)存储基本都是文本数据,对于文本数据处理,可以进行分词计算,就是将一份字符串按照要求(字,词,句,段)切分成独立的个体(每个个体成为词项);例如:"中华人民共和国",进行分词计算结果:"中华","中华人","华人","人民","人民共和","人民共和国","共和国","中华人民共和国"

4. lucene的代码实现

①：Lucene分词器

分词计算时,底层处理的计算逻辑对二进制(编解码字符集管理的二进制),不同语言不同环境,不同情况计算的分词逻辑不一样(中文,英文,俄文,法文),lucene面向接口,提供了一个Analyzer的分词计算器接口类,所有要计算分词的实现类必须实现这个接口的定义方法,不同国家,不同团队就可以根据这个接口定义,实现自定义的分词逻辑,出现了非常多的实现类具体代码

例如:

StandardAnalyzer:标准分词器(字/英文词)

SimpleAnalyzer:根据标点符号分词(句)

SmartChineseAnalyzer:智能中文分词器(词)

WhitespaceAnalyzer:根据空格分词(词/句)

IKAnalyzer:IK中文分词器(支持扩展)

②：lucene分词器依赖


	     
          
			org.apache.lucene
			lucene-queryparser
			6.0.0
		 
         
		 
			org.apache.lucene
			lucene-analyzers-smartcn
			6.0.0
		 
         
		 
			org.apache.lucene
			lucene-analyzers-common
			6.0.0
		 
         
		  
			org.apache.lucene
			lucene-core
			6.0.0

举一个例子

package cn.tedu.analyzer;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.core.SimpleAnalyzer;
import org.apache.lucene.analysis.core.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.junit.Test;

import java.io.IOException;
import java.io.StringReader;

public class AnalyzerTest {
    /*
     * 对不同的分词器,实现对同一个文本字符串
     * 做分词器计算,观察计算结果
     * @author admin
     */

    //编写一个方法，传递分词器，和msg字符串进行词项的打印

    public void printTerm(Analyzer analyzer, String msg) throws IOException {
        //获取数据流
        StringReader stringReader = new StringReader(msg);
        //获取分词器的tokenStream（包含的就是分词计算结果的二进制）
        TokenStream tokenStream = analyzer.tokenStream("test", stringReader);
        //将计算结果的指针挪到头部
        tokenStream.reset();
        //获取每个词项的字符串打印出来的char属性
        CharTermAttribute attribute = tokenStream.getAttribute(CharTermAttribute.class);
        while (tokenStream.incrementToken()){
            System.out.println(attribute.toString());
        }
    }
     /*
      给printTerm传递不同的分词器查看结果
     */
     @Test
    public void run() throws IOException {
         //准备不同分词器的实现类
         String msg = "香港警方：将军澳持刀伤人案嫌犯被捕，是香港居民";
         StandardAnalyzer standardAnalyzer = new StandardAnalyzer();
         SimpleAnalyzer simpleAnalyzer = new SimpleAnalyzer();
         WhitespaceAnalyzer whitespaceAnalyzer = new WhitespaceAnalyzer();
         SmartChineseAnalyzer smartChineseAnalyzer = new SmartChineseAnalyzer();
         System.out.println("****标准分词器******");
         printTerm(standardAnalyzer, msg);
         System.out.println("****简单分词器******");
         printTerm(simpleAnalyzer, msg);
         System.out.println("****空格分词器******");
         printTerm(whitespaceAnalyzer, msg);
         System.out.println("****中文分词器******");
         printTerm(smartChineseAnalyzer, msg);
     }

}

上述代码运行结果

****标准分词器******
香
港
警
方
将
军
澳
持
刀
伤
人
案
嫌
犯
被
捕
是
香
港
居
民
****简单分词器******
香港警方
将军澳持刀伤人案嫌犯被捕
是香港居民
****空格分词器******
香港警方：将军澳持刀伤人案嫌犯被捕，是香港居民
****中文分词器******
香港
警方
将军
澳
持
刀
伤
人
案
嫌犯
被捕
是
香港
居民

③：IK分词器

lucene或者全文检索中常用的中文分词器一种,可以实现简单的中文词语的分词计算,也可以根据需求扩展词语(扩展,停用)


        
            cn.tedu
            IKAnalyzer2012_u6
            jar
            system
            E:/IKAnalyzer2012_u6.jar

测试封装实现类

IKAnalyzer6x

package cn.tedu.config;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Tokenizer;

public class IKAnalyzer6x extends Analyzer{
	private boolean useSmart;
	public boolean useSmart(){
		return useSmart;
	}
	public void setUseSmart(boolean useSmart){
		this.useSmart=useSmart;
	}
	public IKAnalyzer6x(){
		this(false);//IK分词器lucene analyzer接口实现类，默认细粒度切分算法
	}
	//重写最新版本createComponents；重载analyzer接口，构造分词组件
	@Override
	protected TokenStreamComponents createComponents(String filedName) {
		Tokenizer _IKTokenizer=new IKTokenizer6x(this.useSmart);
		return new TokenStreamComponents(_IKTokenizer);
	}
	public IKAnalyzer6x(boolean useSmart){
		super();
		this.useSmart=useSmart;
	}
	
}

IKTokenizer6x

package cn.tedu.config;

import java.io.IOException;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;

public class IKTokenizer6x extends Tokenizer{
	//ik分词器实现
	private IKSegmenter _IKImplement;
	//词元文本属性
	private final CharTermAttribute termAtt;
	//词元位移属性
	private final OffsetAttribute offsetAtt;
	//词元分类属性
	private final TypeAttribute typeAtt;
	//记录最后一个词元的结束位置
	private int endPosition;
	//构造函数，实现最新的Tokenizer
	public IKTokenizer6x(boolean useSmart){
		super();
		offsetAtt=addAttribute(OffsetAttribute.class);
		termAtt=addAttribute(CharTermAttribute.class);
		typeAtt=addAttribute(TypeAttribute.class);
		_IKImplement=new IKSegmenter(input, useSmart);
	}

	@Override
	public final boolean incrementToken() throws IOException {
		//清除所有的词元属性
		clearAttributes();
		Lexeme nextLexeme=_IKImplement.next();
		if(nextLexeme!=null){
			//将lexeme转成attributes
			termAtt.append(nextLexeme.getLexemeText());
			termAtt.setLength(nextLexeme.getLength());
			offsetAtt.setOffset(nextLexeme.getBeginPosition(), 
					nextLexeme.getEndPosition());
			//记录分词的最后位置
			endPosition=nextLexeme.getEndPosition();
			typeAtt.setType(nextLexeme.getLexemeText());
			return true;//告知还有下个词元
		}
		return false;//告知词元输出完毕
	}
	
	@Override
	public void reset() throws IOException {
		super.reset();
		_IKImplement.reset(input);
	}
	
	@Override
	public final void end(){
		int finalOffset = correctOffset(this.endPosition);
		offsetAtt.setOffset(finalOffset, finalOffset);
	}

}

测试IK分词器

Lucene创建索引文件：

步骤：

①：指定一个文件夹，存储索引数据

②：生成一个输出对象，writer

指定分词器

指定索引的创建模式（创建，追加，追加_创建）

③：准备封装数据的对象document（手动封装）

数据来源--数据库

数据量----hdfs

④：writer将输出整合到索引文件

package cn.tedu.analyzer;

import cn.tedu.config.IKAnalyzer6x;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.FSDirectory;
import org.junit.Test;
import org.wltea.analyzer.lucene.IKAnalyzer;

import java.io.IOException;
import java.nio.file.Path;
import java.nio.file.Paths;

public class IKAanyzer6x {

    @Test
    public void createIndex() throws IOException {
        //文件夹指向，如果已经存在和不存在
        Path path = Paths.get("d://index01");
        FSDirectory dir = FSDirectory.open(path);
        //写对象writer，需要对对象的写出逻辑做配置
        IndexWriterConfig config = new IndexWriterConfig(new IKAnalyzer6x());
        //配置对象指定创建模式
        /*
          CREATE:创建和覆盖
          APPEND：追加
          CREATE_OR_APPEND：有则追加，无则创建
         */
        config.setOpenMode(IndexWriterConfig.OpenMode.CREATE);
        IndexWriter writer = new IndexWriter(dir, config);
        //手动拼接document数据
        Document doc1 = new Document();
        Document doc2 = new Document();
        //根据数据源封装数据内容
        /*
          store.yes/no的区别
              yes表示在document数据收集之后，是否需要存储到索引文件
              no表示document的当前域数据不存储在索引文件中
          field域类型和使用
          TextField和StringField区别：
              TextField进行索引的分词计算
              StringField不进行分词计算（整体存在，而且没有计算粉刺及，搜不到）
              数字特性的field类型：
              InitPoint
              DoublePoint
              LongPoint
              FloatPoint
              既不计算分词，也不存储数据，只保留当前域的数字特性，如果需要将数据查询，对应存储String、Text类型数据，域名和数字特性的保持一致就可以
         */
        doc1.add(new TextField("title", "娱乐早知道", Field.Store.YES));
        doc1.add(new TextField("publisher", "北京文娱", Field.Store.YES));
        doc1.add(new TextField("content", "马伊琍和文章是否还有感情", Field.Store.YES));
        doc1.add(new TextField("title", "娱乐早知道", Field.Store.YES));
        doc2.add(new TextField("title", "娱乐拔呀拔", Field.Store.YES));
        doc2.add(new TextField("publisher", "上海文娱", Field.Store.YES));
        doc2.add(new TextField("content", "马伊琍和文章分别发博文官宣离婚", Field.Store.YES));
        //writer输出到索引文件
        //writer加上2个doc
        writer.addDocument(doc1);
        writer.addDocument(doc2);
        writer.commit();
    }

 }

测试结果生成Index01索引文件，利用Luke测试

5. lucene的搜索功能

全文检索技术实现创建索引之后,需要在进行查询的使用,lucene提供丰富的查询功能,不同的查询效果需要封装不同的query对象.

①：搜索功能

词项查询:分词结果有的词项查询数据返回,没有的词项查不到数据,最基本的查询方式,其他的查询都是对词项的上层封装查询结果

多域查询:对关键字做解析,对应多个域做词项查询,找到一个存在的就返回.

布尔查询:对多个查询条件作为子条件封装,决定查询的多个条件对应的结果集的关系

范围查询:对数字特性的域做范围搜索,上限下限满足范围的返回doc数据

②：搜索代码的步骤

a：指定索引文件位置

b：生成reader对象，封装一个查询对象search

c：封装查询条件Query

d：遍历查询结果

词项搜索：

词项查询:分词结果有的词项查询数据返回,没有的词项查不到数据,最基本的查询方式,其他的查询都是对词项的上层封装查询结果，并且还会按照搜索结果的docID的大小显示

    //词项搜索
    @Test
    public void termQuery() throws IOException {
        //指定文件夹
        Path path = Paths.get("d://index01");
        FSDirectory dir = FSDirectory.open(path);
        //获取reader
        DirectoryReader reader = DirectoryReader.open(dir);
        //封装搜索对象
        IndexSearcher searcher = new IndexSearcher(reader);
        //封装不同功能的查询条件
        //准备一个词项，定义词项的域名称
        Term term = new Term("content", "文章");
        TermQuery query = new TermQuery(term);
        //获取结果集遍历打印结果数据，获取top10前10条数据
        TopDocs topDocs = searcher.search(query, 10);
        System.out.println("总共搜索到"+topDocs.totalHits+"条");
        //topDoc当中封装了带有评分的结果信息，带有docid的信息数据返回
        ScoreDoc[] scoreDocs = topDocs.scoreDocs;
        //score中除了保存了每个查询结果document的id还有评分
        for (ScoreDoc score:scoreDocs) {
            //将获取的数据打印
            int docId = score.doc;
            System.out.println("当前的docID为"+docId+score.score);
            //通过id获取document数据
            Document document = searcher.doc(docId);
            System.out.println("title"+document.get("title"));
            System.out.println("content"+document.get("content"));
            System.out.println("publisher"+document.get("publisher"));
        }
    }

多域查询

多域查询:对关键字做解析,对应多个域做词项查询,找到一个存在的就返回.

①：先对查询关键字做分词器解析:

②："马伊琍爱文章吗"-->"马,伊,琍,爱,文章,吗"

③：分别和域做两两对象,求最终的并集

④：封装不同功能的查询条件query

⑤：分词器(创建索引使用分词器一致)

   @Test
    public void termQuery1() throws IOException, ParseException {
        //指定文件夹
        Path path = Paths.get("d://index01");
        FSDirectory dir = FSDirectory.open(path);
        //获取reader
        DirectoryReader reader = DirectoryReader.open(dir);
        //封装搜索对象
        IndexSearcher searcher = new IndexSearcher(reader);
        IKAnalyzer6x analyzer6x = new IKAnalyzer6x();
        //准备多个域
        String[] fields = {"title","content","publisher"};
        //包装了分词器的条件字符串解析器parser
        MultiFieldQueryParser multiFieldQueryParser = new MultiFieldQueryParser(fields, analyzer6x);
        //生成查询条件
        Query query = multiFieldQueryParser.parse("文章还爱马伊琍吗");
        TopDocs topDocs = searcher.search(query, 10);
        System.out.println("总共搜索到"+topDocs.totalHits+"条");
        //topDoc当中封装了带有评分的结果信息，带有docid的信息数据返回
        ScoreDoc[] scoreDocs = topDocs.scoreDocs;
        //score中除了保存了每个查询结果document的id还有评分
        for (ScoreDoc score:scoreDocs) {
            //将获取的数据打印
            int docId = score.doc;
            System.out.println("当前的docID为"+docId+score.score);
            //通过id获取document数据
            Document document = searcher.doc(docId);
            System.out.println("title"+document.get("title"));
            System.out.println("content"+document.get("content"));
            System.out.println("publisher"+document.get("publisher"));
        }

    }

多域查询结果：

总共搜索到2条
当前的docID为00.5525621
title娱乐早知道
content马伊琍和文章是否还有感情
publisher北京文娱
当前的docID为10.4504415
title娱乐拔呀拔
content马伊琍和文章分别发博文官宣离婚
publisher上海文娱

布尔查询：

/*
   子条件发生逻辑：
   Occur：MUST：布尔查询结果必须不包含当前条件结果
          MUST_NOT:布尔查询结果必须不包含当前条件结果
          SHOULD：SHOULD如何和MUST同时使用，不起作用
          FILTER：效果和MUST一样，fiter条件查询结果不能参加评分的
 */

 @Test
    public void termQuery2() throws IOException, ParseException {
        //指定文件夹
        Path path = Paths.get("d://index01");
        FSDirectory dir = FSDirectory.open(path);
        //获取reader
        DirectoryReader reader = DirectoryReader.open(dir);
        //封装搜索对象
        IndexSearcher searcher = new IndexSearcher(reader);
        IKAnalyzer6x analyzer6x = new IKAnalyzer6x();
        TermQuery query1 = new TermQuery(new Term("title","马"));
        TermQuery query2 = new TermQuery(new Term("content","马"));
        BooleanClause clause = new BooleanClause(query1, BooleanClause.Occur.MUST_NOT);
        BooleanClause clause1 = new BooleanClause(query2, BooleanClause.Occur.FILTER);
        BooleanQuery query = new BooleanQuery.Builder().add(clause).add(clause1).build();
        TopDocs topDocs = searcher.search(query, 10);
        System.out.println("总共搜索到"+topDocs.totalHits+"条");
        //topDoc当中封装了带有评分的结果信息，带有docid的信息数据返回
        ScoreDoc[] scoreDocs = topDocs.scoreDocs;
        //score中除了保存了每个查询结果document的id还有评分
        for (ScoreDoc score:scoreDocs) {
            //将获取的数据打印
            int docId = score.doc;
            System.out.println("当前的docID为"+docId+score.score);
            //通过id获取document数据
            Document document = searcher.doc(docId);
            System.out.println("title"+document.get("title"));
            System.out.println("content"+document.get("content"));
            System.out.println("publisher"+document.get("publisher"));
        }

    }

查询结果：

总共搜索到2条
当前的docID为00.0
title娱乐早知道
content马伊琍和文章是否还有感情
publisher北京文娱
当前的docID为10.0
title娱乐拔呀拔
content马伊琍和文章分别发博文官宣离婚
publisher上海文娱

范围查询：

加入数据中有浏览次数,可以通过整数值定义这个次数,可以通过范围搜索,搜索一批文章,浏览次数300-6000之间

//封装一个查询views的数据IntPoint

Query query=IntPoint.newRangeQuery("views", 300000, 6000000);

模糊查询：

作用:用关键字查询数据,例如查询trump,tramp,进行模糊匹配.

FuzzyQuery query=new FuzzyQuery(new Term("name","tramp"))

通配符查询

可以使用?代替任意字符,实现词项查询

例如,词项中,"文章","文本"

WildcardQuery query=new WildcardQuery(new Term("name","文?"));

纯前端全文检索的两种实现方案：ElasticLunr.js 和 libsearch 传而习乎前端全文检索 javascript
纯前端全文检索的两种实现方案：ElasticLunr.js和libsearch在前端开发中，实现全文检索功能可以显著提升用户体验，尤其是在处理大量文本数据时。本文将介绍两种流行的纯前端全文检索方案：ElasticLunr.js和libsearch。这两种方案各有特点，适用于不同的场景。1.使用ElasticLunr.js实现纯前端全文检索方案特点基于Lunr.js的扩展：支持字段搜索、查询时加权和
Elasticsearch（ES）详解：从入门到实践坚持蛊 elasticsearch jenkins 大数据
引言简介：Elasticsearch是一个基于Lucene的分布式搜索引擎，具有高效的全文搜索功能，广泛应用于日志分析、搜索引擎、实时数据处理等领域。本文目标：介绍Elasticsearch的基本概念、架构设计、配置优化、常见应用以及实际案例，帮助开发者掌握ES1.Elasticsearch概述Elasticsearch的背景和发展历程核心功能：全文检索、分布式搜索、实时数据分析主要应用场景：日志
doris：Elasticsearch 向阳1218 大数据 doris
ElasticsearchCatalog除了支持自动映射ES元数据外，也可以利用Doris的分布式查询规划能力和ES(Elasticsearch)的全文检索能力相结合，提供更完善的OLAP分析场景解决方案：ES中的多index分布式Join查询。Doris和ES中的表联合查询，更复杂的全文检索过滤。使用限制支持Elasticsearch5.x及以上版本。创建CatalogCREATECATALOG
Lucene初探之总体架构 Derrick_gu java Lucene 架构文档对象搜索 Lucene
从总体上来说，Lucene的可以被概括为三点：高效、可扩展的全文检索库；基于Java实现；支持对纯文本文件进行索引可搜索；Lucene的工作流程和架构如下所示：通过该图片，我们可以看出，Lucene的工作流程可以被分为两个部分：索引、搜索。我们可以将这些过程进行抽象组件化：通过上下两个图片的对比，基本上可以直观地了解各个组件的工作：Document代表被索引的各个分散的文档；IndexWirter
Elasticsearch（一）：安装Elasticsearch + kibana + ik分词器 Gooooa Elasticsearch elasticsearch安装 es安装 ik分词器 kibana安装
原文来源自黑马的课程1.Elasticsearch介绍和安装用户访问我们的首页，一般都会直接搜索来寻找自己想要购买的商品。而商品的数量非常多，而且分类繁杂。如果能正确的显示出用户想要的商品，并进行合理的过滤，尽快促成交易，是搜索系统要研究的核心。面对这样复杂的搜索业务和数据量，使用传统数据库搜索就显得力不从心，一般我们都会使用全文检索技术，比如之前大家学习过的Solr。不过今天，我们要讲的是另一个
阿里云Milvus 2.5：支持全文检索，1次查询实现文本+向量双精度匹配人工智能大数据milvus
随着大模型时代带来的各种新型应用探索，结合传统基于文本匹配的精确检索与语义检索所带来的增益日益显著，尤其在一些深度依赖关键字词匹配的场景中，这种需求变得尤为关键。目前，阿里云向量检索服务Milvus版（简称阿里云Milvus）集成开源Milvus2.5版本内核，在支持向量检索的基础上，新增支持原生全文检索、基于特定词汇的精准文本匹配等功能，在RAG、多模态搜索等场景下搜索精度明显提升，使用体验大幅
使用 nodejs 和 ElasticSearch 快速搭建全文检索 dbLenis 数据库 java 编程语言大数据 linux
点击蓝色“有关SQL”关注我哟加个“星标”，天天与10000人一起快乐成长上次群友问我，Python怎么学，我说四个小时足够了，你们不信。这次，我用2个小时，仅仅用Google，快速搭建了一个nodejs+Elasticsearch的小Demo.足可见，在有搜索的年代，快速上手一门技术，已经不是什么难事。1安装1.1下载地址https://nodejs.org/en/download提供windo
掌握 ElasticSearch 四种match查询的原理与应用全端工程师 elasticsearch elasticsearch django 大数据
文章目录一、引言(Introduction)二、准备工作：创建索引和添加示例数据三、`match`查询四、`match_all`查询五、`multi_match`查询六、`match_phrase`查询七、总结(Conclusion)一、引言(Introduction)在信息爆炸的时代，快速准确地找到所需信息至关重要。全文检索技术应运而生，它允许我们对文本内容进行深入搜索，而不仅仅是简单的关键词匹
Elasticsearch集群部署详解 Jeffrey_Zeng_ elasticsearch linux
文章目录Elasticsearch功能与特性：Elasticsearch单节点安装部署Elasticsearch集群安装部署附件1、安装Java（JDK）2、问题一2、问题二Elasticsearch功能与特性：（1）分布式搜索和分析引擎（2）全文检索，结构化检索，数据分析（3）对海量数据进行近实时的处理分布式：ES自动可以将海量数据分散到多台服务器上存储和检索海量数据的处理：分布式后，可采用大量
Elasticsearch 相关面试题一切顺势而行 elasticsearch
1.Elasticsearch基础Elasticsearch是什么？Elasticsearch是一个分布式搜索引擎，基于Lucene实现。Mapping是什么？ES中有哪些数据类型？Mapping：定义字段的类型和属性。数据类型：text、keyword、integer、float等。2.什么是全文检索？全文检索是一种基于文本内容的检索方式。3.ES支持哪些类型的查询？全文查询：match、que
Elasticsearch（ES）基础查询语法的使用 m0_74825108 面试学习路线阿里巴巴 elasticsearch django python
1.MatchQuery(全文检索查询)用于执行全文检索，适合搜索文本字段。{“query”:{“match”:{“field”:“value”}}}match_phrase：精确匹配短语，适合用于短语搜索。{“query”:{“match_phrase”:{“field”:“text”}}}2.TermQuery(精确匹配查询)用于对某个字段的精确值进行查询，常用于不分词的字段（如ID、标签、关
文档检索服务平台 liupan6889 产品设计全文检索 elasticsearch 全文检索开源软件
文档检索服务平台是基于Elasticsearch的全文检索，包含数据采集、数据清洗、数据转换、数据检索等模块。项目地址：Github、国内Gitee演示地址：http://silianpan.cn/gdss/以下是演示角色和账号（密码同账号）：测试用户：test超级管理员：admin系统架构部分截图登录全文检索文章详情
PHP实现站内搜索的开源利器——WindSearch rock365337 WindSearch php 开源搜索引擎
WindSearch是一个基于中文分词，由纯PHP开发全文检索引擎，可快速搭建PHP站点的站内搜索，他没有任何繁琐的安装配置、不需要维护调优、不占用服务器内存、可与PHP项目完美融合在一起。github地址：https://github.com/rock365/windsearch必须极速安装~使用composer安装：composerrequirerock365/windsearch或使用Git
PHP实现站内搜索的开源利器——WindSearch
WindSearch是一个基于中文分词，由纯PHP开发全文检索引擎，可快速搭建PHP站点的站内搜索，他没有任何繁琐的安装配置、不需要维护调优、不占用服务器内存、可与PHP项目完美融合在一起。github地址：https://github.com/rock365/windsearch必须极速安装~使用composer安装：composerrequirerock365/windsearch或使用Git
PHP搜索引擎WindSearch，新增Faker伪数据生成功能
WindSearch是一个基于中文分词，由纯PHP开发全文检索引擎，可快速搭建PHP站点的站内搜索，他没有任何繁琐的安装配置、不需要维护调优、不占用服务器内存、可与PHP项目完美融合在一起。Faker数据生成安装导入//将WindSearch代码下载到本地，再像下面这样引入require_once'yourdirname/windsearch/vendor/autoload.php';开始生成//
PHP全文检索引擎WindSearch，新增“即用模式”
WindSearch是一个可以跟php项目完美融合的全文检索引擎，它由纯PHP开发，相比ES，WS无内存占用，无需维护，没有任何繁琐的安装配置，同时又拥有强大的索引跟搜索能力，总的来说，ES常用的功能它都有，但WS更轻量，更方便。WindSearch2.0版本新增“即用模式”，简单搜索场景下，导入、搜索等操作，更加简单直接，无需任何配置。即用模式导入、搜索操作的代码示例：导入数据//实例化对象$W
Lucene总体架构 weixin_34332905 java
Lucene总的来说是：•一个高效的，可扩展的，全文检索库。•全部用Java实现，无须配置。•仅支持纯文本文件的索引(Indexing)和搜索(Search)。•不负责由其他格式的文件抽取纯文本文件，或从网络中抓取文件的过程。在Luceneinaction中，Lucene的构架和过程如下图说明Lucene是有索引和搜索的两个过程，包含索引创建，索引，搜索三个要点。让我们更细一些看Lucene的各组
002 使用kibana操作ElasticSearch7.x 陌殇殇 #ElasticSearch java elasticsearch 搜索引擎
文章目录4.使用kibana操作es4.1.文档操作1.put方式发送数据2.post方式发送数据3.查看索引文档GET4.更新文档POST5.删除文档&索引DELETE6.批量添加数据_bulk4.2.QueryDLS(查询领域对象语言)1.url检索数据语法2.查询所有数据3.查询全部数据并排序4.查询全部数据排序并分页5.区间查询6.全文检索match7.短语匹配match_phrase8.
docker pgsql实现pg_jieba全文检索敏捷利齐 SQL docker 全文检索容器
安装pg_jieba分词器安装依赖工具查看docker运行的所有容器dockerps进入pg数据库容器dockerexec-itpostgres4postgisbash安装必要的工具和依赖apt-getinstall-ygitbuild-essentialcmakelibpq-devpostgresql-server-dev-all安装pg_jieba分词gitclonehttps://githu
AI知识库和全文检索的区别 xixingzhe2 AI 人工智能
1、AI知识库的作用AI知识库是基于人工智能技术构建的智能系统，能够理解、推理和生成信息。它的核心作用包括：1.1语义理解自然语言处理（NLP）：AI知识库能够理解用户查询的语义，而不仅仅是关键词匹配。上下文关联：能够结合上下文信息，提供更准确的答案。1.2知识推理逻辑推理：通过知识图谱或预训练模型，AI知识库可以进行逻辑推理，回答复杂问题。多跳推理：能够从多个数据源中提取信息，综合生成答案。1.
Doris实战—构建日志存储与分析平台不二人生 Doris 实战 doris 日志分析
构建日志存储与分析平台日志是系统运行的详细记录，包含各种事件发生的主体、时间、位置、内容等关键信息。出于运维可观测、网络安全监控及业务分析等多重需求，企业通常需要将分散的日志采集起来，进行集中存储、查询和分析，以进一步从日志数据里挖掘出有价值的内容。针对此场景，ApacheDoris提供了相应解决方案，针对日志场景的特点，增加了倒排索引和极速全文检索能力，极致优化写入性能和存储空间，使得用户可以基
PHP网站平替ES的搜索引擎来了，更轻量更方便！ php全文检索站内搜索搜索引擎
Windsearchwindsearch，PHP原生实现的全文检索引擎，无任何复杂的安装配置，开箱即用，可承受百万至千万的数据。零安装配置、零心智负担，拥有强大的算法，包含多种检索模式，集成到PHP项目后，无需维护，一劳永逸。本搜索引擎适合外贸独立站、垂直社区、区域性电商、cms系统、PHP开发工作室、服务器配置一般的网站、需要快速搭建搜索的网站、个人博客等。github地址：https://gi
Lucene搜索引擎原理与代码实例讲解杭州大厂Java程序媛计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
Lucene搜索引擎原理与代码实例讲解关键词：搜索引擎,全文检索,倒排索引,查询优化,索引构建,分词,评分器1.背景介绍1.1问题由来在信息爆炸的互联网时代，如何高效地管理和搜索信息成为了一个严峻的挑战。传统的数据库系统尽管可以处理结构化数据，但在处理非结构化的文本信息时，效率和效果均不尽人意。搜索引擎作为帮助用户快速获取所需信息的重要工具，成为了当下解决信息管理问题的重要手段。Lucene是一个
ES学习二字段类型
1，text当一个字段的内容需要被全文检索时，可以使用text类型，它支持长内容的存储，如文章内容、商品信息等，该类型的字段在保存时会被分词器分析，并拆分成多个词项，然后根据拆分后的词项生成对应的索引。需要注意的是text类型的字段无法进行精确匹配，也不能直接用于排序、聚合，也被称为ananlyzed字符串。2，keywordkeyword类型的字段内容不会被分词器分析、拆分，而是根据原始文本直接
MongoDB 全文检索 lsx202406 开发语言
MongoDB全文检索MongoDB是一个流行的NoSQL数据库，以其灵活的数据模型和强大的查询语言而闻名。在MongoDB中，全文检索是一种功能，允许用户对存储在数据库中的文本数据进行复杂的搜索。全文检索对于构建搜索引擎、内容推荐系统和文本分析工具等应用非常有用。什么是全文检索？全文检索是一种信息检索技术，它允许用户通过搜索关键字或短语来查找文档中的文本。与传统的基于关键字的搜索不同，全文检索考
mysql5.7全文检索方案,深度解析MySQL 5.7之中文全文检索渚熏 mysql5.7全文检索方案
前言其实全文检索在MySQL里面很早就支持了，只不过一直以来只支持英文。缘由是他从来都使用空格来作为分词的分隔符，而对于中文来讲，显然用空格就不合适，需要针对中文语义进行分词。这不，从MySQL5.7开始，MySQL内置了ngram全文检索插件，用来支持中文分词，并且对MyISAM和InnoDB引擎有效。在使用中文检索分词插件ngram之前，先得在MySQL配置文件里面设置他的分词大小，比如，[m
mysql 5.7全文索引_MySql5.7 使用全文索引 wonder-yyc mysql 5.7全文索引
一、ngramandMeCabfull-textparser插件全文检索在MySQL里面很早就支持了，只不过一直以来只支持英文。缘由是他从来都使用空格来作为分词的分隔符，而对于中文来讲，显然用空格就不合适，需要针对中文语义进行分词。但从MySQL5.7开始，MySQL内置了ngram全文检索插件，用来支持中文分词，并且对MyISAM和InnoDB引擎有效。二、必要的参数设置在使用中文检索分词插件n
mysql5.7中文全文检索,让MySQL支持中文全文检索无我的舞者 mysql5.7中文全文检索
因为中文词间并没有明显的区隔，所以中文的分词是按照字典、词库的匹配和词的频度统计，或是基于句法、语法分析的分词，而MySQL并不具备此功能，所以MySQL对中文全文检索的支持几乎为零。目前很多网站和系统都提供了全文搜索功能，用户可以输入词或者语句来定位匹配的记录。在后台，可以使用Select查询中的Like语句来执行这种查询，尽管这种方法可行，但对于全文查找而言，这是一种效率极端低下的方法，尤其在
整合全文检索引擎 Lucene 添加站内搜索子模块七禾页话全文检索 lucene mybatis
整合全文检索引擎Lucene:添加站内搜索子模块1.什么是Lucene?有啥优势？Lucene是一个开源的全文检索引擎库，由Apache基金会维护，官网地址：https://lucene.apache.org/。它提供了丰富的文本处理和搜索功能，允许开发者在应用程序中集成强大的全文检索能力。以下是Lucene的一些主要特点和优势：全文检索：Lucene支持全文检索，可以在大量文本数据中快速而准确地
CaigouSearch 基于ngram分词的轻量PHP全文检索插件 php全文检索模糊搜索
简单易用最关键，菜狗搜索：https://github.com/rock365/caigou这是一个基于ngram分词的PHP模糊搜索插件，且完全免费，对博客等中小型网站来说，绰绰有余，因为它是用PHP开发的，所以能跟PHP项目完美融合。如果你对elasticsearch的语法比较了解，那么你很快就会上手，不了解也没关系，照着文档复制填写就行了，没有任何难度。注意：id字段必须为整型递增安装导入在
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

全文检索

全文检索

Lucene

你可能感兴趣的:(全文检索)