wangkun9999

lucene 全文检索简介

一，信息检索的过程简介

全文检索和数据库应用最大的不同在于：让最相关的头100条结果满足98%以上用户的需求
1，构建文本库
在开发功能前，一个信息检索系统需要做些准备工作，首先，必须要构建一个文本数据库，这个文本数据库用来保存所有用户可能检索的信息。在这些信息的基础上，确定索引中

的文本类型，文本类型是被系统所认可的一种信息格式，这种格式应当具有可识别，冗余程度低的特点。一旦文本模型确定下来后，就不应当对其进行大的行动。
2，建立索引
有了这种文本模型后，就应该根据数据库内的文本建立索引。索引可以大大的提高信息检索的速度。目前，有许多索引的建立方式。采用哪种方式取决于信息检索系统的规模。大型信息检索系统（百度，google这样的搜索）均采用倒排的方式来建立索引。
3，进行搜索
在文档建立索引之后，就可以开始对其进行搜索。这时，通常都是由用户提交一个检索请求，请求将被分析，然后利用文本操作进行处理。对于真实的信息检索系统，在真正处理请求前，还可以对请求进行一些预处理，然后再将请求送到后台，并返回用户需要的信息。
4，对结果进行过滤
通常，在信息检索系统检索到用户需要的信息后，还要做一步操作，就是将信息以一定的规则进行排序或过滤，再返回给用户。这一步实际上关乎到最终用户的体验。

二，Lucene 索引

1，使用索引提高检索速度常用的3种索引方式为
（1）倒排
倒排是一种面向单词的索引机制。通常它由（关键字）和出现情况两部分组成。对于索引中的每个词（关键字），都跟随一个列表（位置表），用来记录单词在所有文档中出现的位置。
倒排的特点：
在倒排索引中，关键字的数量并非随着文本内容的增长也线性增长。这是因为无论多大数量的文本数据库，总能够规范出一个关键字表。这种关键字受到实际语言因素的限制，他的增长率在文本数据库达到一定规模后可以忽略不计。

（2）后缀数组

（3）签名文件

2，索引的Segment

每个segment代表lucene的一个完整索引段，通常，一个索引中，包含有多个segment，每个segment都有一个统一的前缀，这个前缀是根据当前索引的document的数量而确立的，前缀名是document 数量转成36进制后，在前面加上“_”而构成的。

segment的格式
（1）.fnm格式
包含了document中的所有field的名称。
（2）.fdx 和.fdt格式
.fdx 和.fdt是综合使用的两个文件，其中.fdt类型文件用于存储具有store.YES属性的field的数据。而.fdx类型文件则是一个索引，用于存储document在.fdt中的位置。

（3）.tii 与.tis格式
.tis 文件用于存储分词的词条(Term)，而.tii就是它的索引文件，它标明了每个.tis文件的词条的位置。
（4）.cfs复合格式
在indexWriter 中有一个属性：useCompoundFile，它的默认值为True，这个属性的含义是：是否使用复合索引格式来保存索引。索引的内容可能非常大，文件的数量可能非常多，如果遇到这种情况，系统打开文件数量巨大将会极大地耗费系统资源。因此， lucene提供了一种简单文件索引格式，也就是所谓的复合索引格式。

3，索引的优化

（1）合并因子mergeFactor

当mergeFactor取比较小的值时,内存中注入的文档数量少,向磁盘写入segment的操作比较多,故此时将占用较少的内存,但是索引的建立由于i/o操作频繁所以会比较慢.而当mergeFactor取较大的值时,内存中驻留的document数量比较多.向磁盘写入segment的操作较少,故此时将占用较多的内存,但索引的建立速度比较快.

maxMergeDocs
对索引的合并的最多文档数量.
mixMergeDocs(maxBufferedDocs)

（2）索引的合并与索引的优化

FSDirectory 和 RAMDirectory目录文件

FSDirectory 是与文件系统目录有关的，而RAMDirectory则是与内存相关的。
对于lucene 来说，两中目录都可以作为索引的存储路径。在初始化indexwriter的时候需要传入一个directory类型的对象作为参数之一，当indexwriter接收这样的参数时（无论是fsdirectory还是ramdirectory），它都会在指定的位置下将索引进行存储。但是文件系统目录就会直接将索引写到磁盘上。而ramdirectory则是在内存中一个区域，虽然向其中添加document的过程与使用fsdirectory一样，但是由于它是内存中的一块区域，因此如果不将ramdirectory中的内存写入磁盘，当虚拟机退出后，里面的内容也会随之消失。因此，需要将ramdirectory中的内容转到fsdirectory中。

（3）使用indexWriter来合并索引
document可以被放置在 ramdirectory中，使用它的优点就是索引的速度很快。当document被加入到ramdirectory中后， ramdirectory在逻辑上就是一个完整的索引了，它在逻辑上就应当包括如前所说的所有索引格式的文件（但是不能被持久的保存起来）。
indexwriter的addindexs()方法，可以实现索引的合并。addindexs()方法的参数是一个directory类型的数组，因此，可以同时合并多个目录下的索引，只要分别为这些目录创建其对应的directory类型的对象就可以了。

（4）索引的优化
indexwriter的optimize()方法正是为了这个目的而设置的，该方法能够对当前indexwriter所制定的索引目录以及其所使用的缓存目录下的所有segment 进行优化，使所有的segments合并成一个完整的segement，即整个索引目录内出现一种文件前缀。
对于系统的优化会有什么性能上的损失呢？由于优化时需要对已有的索引内的文件进行操作，因此需要耗费更多的内存和磁盘空间，索引优化采用的策略是建立新的segment来取代那些被合并的segements，所以在旧的segement还未被删除之前，索引内的磁盘空间消耗将会非常大，甚至可能使原来索引的两倍。同理，在进行优化时的磁盘i/o也会非常多，所以这是一个耗费资源的过程。

2，索引中删除文档

索引的读取工具IndexReader，IndexReader中的getVersion方法可以查看当前索引的版本，这个version是索引建立时的精确到毫秒的时间，IndexReader的indexReader.numDosc()方法，可以查看当前索引内总共有多少个document，IndexReader.document(int)方法可以从索引中取出相应的document.

（1）使用文档的id号来删除特定文档

在创建索引的过程中 lucene会为每一个加入索引的document赋予一个id号,这个id号将唯一的标识每个文档.reader.deleteDocument(int),int参数为id 号删除完毕后需要执行reader.close()方法关闭.使删除操作写入索引的deletable文件中,如果不关闭怎没有删除掉,实际上lucene的删除机制为回收站机制,删除操作没有真正删除文件,而是做了一标记,可以进行还原;reader.undeleteall()方法可以帮助实现反删除(当使用indexwriter对索引optimize一次时,lucene 为每个document重新分配id,这样那些被标记为已删除的document真正的被物理删除了).

（2）使用field信息来删除批量文档
reader.deleteDocuments(term)该方法是一个能够批量删除索引的方法,它删除索引是按照词条来进行的. term类是用于表示词条的一个工具,它能够将词条表示成(例如: 词条为也就是indexReader就会删除所有在"bookname"这个field中含有"男"这个term的document).

3， lucene的同步问题

writer.lock
出现在向索引中添加文档时,或是将文档从索引中删除时,在indexwriter的close()方法被调用时被释放
commit.lock
主要是与segment合并和读取的操作相关.

indexModifier类

三，lucene 的搜索

1，indexSearcher进行搜索

     （1）indexSearcher的简单使用：
        indexSearcher searcher=new IndexSearcher("索引路径");
        //构建一个term对象
        Term term=new Term("name","女")
        //构建一个query对象
        Query q =new TermQuery (term);
        //检索
        Hits hits=searcher.search(q);
        //显示结果
        for(int i=0;i            system.out.println(hits.doc(i));
        }

上面的例子中介绍了indexsearcher的search方法，search方法是整个检索系统的核心。
indexSearcher有多种重载search方法，这些方法有些在于indexSearcher的父类Search中，有些在本身，Search类实现了一个接口Searchable，该接口提供了可以搜索的功能。

（2）Hits对象是搜索结果的集合主要有下面几个方法 [list=1]

length() ,这个方法记录有多少条结果返回(lazy loading)
doc(n) 返回第n个记录
id(in) 返回第n个记录的Document ID
score(n) 第n个记录的相关度(积分)
由于搜索的结果一般比较大，从性能上考虑，Hits对象并不会真正把所有的结果全部取回，默认情况下是保留前100个记录(对于一般的搜索引擎,100个记录足够了).

hits类，在上面的例子中使用了hits,从Hits的doc(int n)方法来研究Hits的工作原理.
doc(int n)方法用于搜索索引的返回结果中取出相应的文档。参数n代表结果中的第n个文档。而doc(int n)方法的第一步就是使用hitDoc(int n)方法从缓存中取去相应的文档。
在hitDoc(int n)方法中，会先判断当前用户需要取出的文档是不是已经超过了缓存的大小。如果是，则先调用getMoreDocs(int min)方法来扩大缓存，然后再从缓存中返回需要的文档。

     2，搜索结构的评分

    （1）文档的得分算法公式：略
        搜索的结果可以按照分数来排序。

3，lucene内建的query对象
（1）内建的query对象主要包括：
（2）TermQuery词条搜索　
（3） BooleanQuery布尔搜索　
（4）RangeQuery范围搜索　
（5） PrefixQuery前缀搜索　
（6） PhraseQuery短语搜索　
（7）MultiPhraseQuery多短语搜索　
（8）FuzzyQuery模糊搜索　
（9）WildcardQuery通配符搜索　
（10）SpanQuery跨度搜索　
（11）还有第三方提供的Query对象：RegexQuery
上面的这些内建的query对象都是可以用来做根据不同的情况来进行搜索。（具体略）

4，Lucene查询总结：

Lucene面向全文检索的优化在于首次索引检索后，并不把所有的记录（Document）具体内容读取出来，而起只将所有结果中匹配度最高的头100条结果（TopDocs）的ID放到结果集缓存中并返回，这里可以比较一下数据库检索：如果是一个10,000条的数据库检索结果集，数据库是一定要把所有记录内容都取得以后再开始返回给应用结果集的。所以即使检索匹配总数很多，Lucene的结果集占用的内存空间也不会很多。对于一般的模糊检索应用是用不到这么多的结果的，头100条已经可以满足90%以上的检索需求。

如果首批缓存结果数用完后还要读取更后面的结果时Searcher会再次检索并生成一个上次的搜索缓存数大1倍的缓存，并再重新向后抓取。所以如果构造一个Searcher去查1－120条结果，Searcher其实是进行了2次搜索过程：头100条取完后，缓存结果用完，Searcher重新检索再构造一个200条的结果缓存，依此类推，400条缓存，800条缓存。由于每次Searcher对象消失后，这些缓存也访问那不到了，你有可能想将结果记录缓存下来，缓存数尽量保证在100以下以充分利用首次的结果缓存，不让Lucene浪费多次检索，而且可以分级进行结果缓存。

Lucene的另外一个特点是在收集结果的过程中将匹配度低的结果自动过滤掉了。这也是和数据库应用需要将搜索的结果全部返回不同之处.

四，排序、过滤、分页

1，自然排序

相关度排序是一种最简单的排序方式，所谓相关度，其实就是文档的得分。
searcher的explain方法可以每一个文档的得分是怎么样的算出来的，他们的idf,tf,lengthNorm的值得情况。如：searcher.explain(q,hits.id(i).toString());
通过改变boost值来改变文档的得分在进行相关度排序的时候，如果想人为的增加某个文档的相关度，使其在搜索的结构中排在考前的位置上，可以使用boost。
如：索引写入document 的时，在写入之前，使用document方法（document.setBoost(3f)）
原理：在lucene中，文档的boost的值一般情况默认为1.0，但当某个文档的boost值大于1.0后，所有的文档boost值均会除以这个最大值，以此来为每个文档获取一个小于1.0的数作为新的boost值。

2，使用Sort来排序

Sort是lucene自带的一个排序工具，通过它，可以方便地对检索结果进行排序。
Sort所提供的排序功能是以field为基础的，也就是说，最终的排序准则，总是以某个field（或多个）的值为基础，经过这样的处理，最终的排序就转变成对所有文档中同一个field（或多个field）的值的排序。方法：Sort(String field,boolean reverse),field表示参照制定的field排序，第二个参数reverse 表示排序的顺序，升序还是降序（reverse的默认值为false,升序排序）。
SortField是一个包装类型，通过它的包装，可以使Sort类清楚地了解要进行排序的field的各种信息。
构造函数(略)
按文档的内部id号来排序
如：Hits hits=searcher.search(q,Sort.INDEXORDER);
这个内部需要是在建立索引的时候自动创建的。
按一个或多个Field来排序
如：Sort sort=new Sort();//定义一个Sort对象
SortField f=new SortField("bookno",SortField.INT,false);//定义SortField对象，同时是按照bookno升序来排序的。
sort.setSort(f);
//下面就可以查找排序了.

3，搜索的过滤器

lucene 中有两种过滤器,一个是搜索时的过滤器,一个是分析的过滤.
搜索时的过滤是一种减小搜索范围的方式.同时也可以实现一种安全机制,即保护某些文档无法被检索.
搜索时的过滤器来自于一个抽象基类Filter,它定义了过滤器的基本行为
public abstract BitSet bits(IndexReader reader);可以看到,这个方法返回一个bitSet类型的对象,filter是一种过滤行为,这种过滤行为在搜索时的表现就是"视而不见" ,即遇到该文档时,发现它被"过滤"了,于是就忽略它,BitSet是一种"位集合"队列,这个队列中的每个元素都只有两种取值,即true或false，这俩种值代表文档是否被过滤，也就是说，返回结果时，会首先遍历BitSet尽将那些对应值为true的文档返回。在BitSet集合中，将其索引号看作是文档的内部id。
lucene中内置了几个Filter，
RangeFilter(范围过滤，详细略)
QueryFilter(重要)在结果中查询
实际应用：在filter的行为可以看到，它总是在搜索前，首先对索引进行一次遍历，然后返回一个被业务逻辑处理好的BitSet对象，这种做法无可厚非，但是却存在很严重的性能

问题，这相当于对索引进行了两次遍历，这样会降低性能。
CachingWrapppeFilter将一个Filter作为构造函数的参数传入，在需要使用原Filter的地方，将这个CachingWrapppeFilter的对象传入，就可以在原来的filter进行过滤了。
CachingWrapppeFilter的原理: 其中使用了缓存，在调用的时候，查看缓存中是否存在处理的结构，如果存在，则直接取出后返回，如果没有执行被注入的Filter.

4，Lucene翻页

　（1）依赖于session的翻页
是指将搜索的结果存储于session中，用户翻页的时候就从session中取出hits集合，这种方式简单不需要什么算法，一次查询就可以获得结果，但是这样很容易造成服务器的内存溢出。
　（2）多次查询
使用完全无状态保持的开发方式，即用户每次翻页，都对索引进行重新检索，然后取得当前页的结果并返回。
　（3）缓存＋多次查询
使用session方式的查询有内存问题，但是如果采用完全无状态的查询方式，又会出现磁盘i/o太过频繁的问题，以致降低了效率。可以采用在session或者内存中其他空间，另外在缓存一部分结果，比如后5页10页等，这样当进行翻页的时候，就可以从缓存中取出内容，不用重新查索引，如果没有缓存，则重新查询，更新缓存。
（4）缓存+多次查询+数据库
这种方式是在上面的基础上增加的，如果索引的量很大可以考虑把内容多的东西放在数据库中，索引中的id和数据库库中的id同步。

搜索时的过滤器可以自己定义.

5，lucene的分析器

信息检索所要处理的主要对象就是信息，在实际应用中，大部分时候信息是以一种文本的方式呈现的。而信息检索的第一件事，就是要对这种文本进行分析，以便能够继续下面的处理。
（1）分词
分词就是将一段文本拆分成多个词。（需要注意的一点是，在建立索引时使用的分词工具，与在分析用户的检索请求时使用的分词工具应当是同一个）。

（2）分词器的结构
一个标准的分词器是由两部分组成，一部分是分词器，被称为Tokenizer；另一部分是过滤器，被称为TokenFilter。一个分析器往往是由一个分词器和多个过滤器组成。这里所说的过滤器，与前面所说的检索时使用的过滤器完全是不同的两个概念。此处的Filter主要是用于对用户切出来的词进行一些处理，如去掉一些敏感词、转换大小写、转换单复数等。
lucene内部提供了过滤器，StandarFilter,StopFilter,LowerCaseFilter

（待续.........................................）

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
Linux vi常用命令 fengyehongWorld Linux linux
参考资料viコマンド（vimコマンド）リファレンス目录一.保存系命令二.删除系命令三.移动系命令四.复制粘贴系命令一.保存系命令⏹保存并退出:wq⏹强制保存并退出:wq!⏹退出(文件未编辑):q⏹强制退出(忽略已编辑内容):q!⏹另存为:w新文件名二.删除系命令⏹删除当前行dd⏹清空整个文档gg：移动到文档顶部dG：删除到最后一行ggdG三.移动系命令⏹移动到文档顶部gg⏹移动到文档底部#方式1G
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
matlab mle 优化,MLE+: Matlab Toolbox for Integrated Modeling, Control and Optimization for Buildings... Simon Zhong matlab mle 优化
摘要：FollowingunilateralopticnervesectioninadultPVGhoodedrat,theaxonguidancecueephrin-A2isup-regulatedincaudalbutnotrostralsuperiorcolliculus(SC)andtheEphA5receptorisdown-regulatedinaxotomisedretinalgan
Android应用性能优化轻口味 Android
Android手机由于其本身的后台机制和硬件特点，性能上一直被诟病，所以软件开发者对软件本身的性能优化就显得尤为重要；本文将对Android开发过程中性能优化的各个方面做一个回顾与总结。Cache优化ListView缓存：ListView中有一个回收器，Item滑出界面的时候View会回收到这里，需要显示新的Item的时候，就尽量重用回收器里面的View；每次在getView函数中inflate新
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

lucene 全文检索简介

你可能感兴趣的:(lucene,全文检索,文档,数据库,filter,优化)