黄小斜

后端技术杂谈3：Lucene基础原理与实践

一、总论

根据lucene.apache.org/java/docs/i…定义：

Lucene是一个高效的，基于Java的全文检索库。

所以在了解Lucene之前要费一番工夫了解一下全文检索。

那么什么叫做全文检索呢？这要从我们生活中的数据说起。

我们生活中的数据总体分为两种：结构化数据和非结构化数据。

结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。
非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。

当然有的地方还会提到第三种，半结构化数据，如XML，HTML等，当根据需要可按结构化数据来处理，也可抽取出纯文本按非结构化数据来处理。

非结构化数据又一种叫法叫全文数据。

按照数据的分类，搜索也分为两种：

对结构化数据的搜索：如对数据库的搜索，用SQL语句。再如对元数据的搜索，如利用windows搜索对文件名，类型，修改时间进行搜索等。
对非结构化数据的搜索：如利用windows的搜索也可以搜索文件内容，Linux下的grep命令，再如用Google和百度可以搜索大量内容数据。

对非结构化数据也即对全文数据的搜索主要有两种方法：

一种是顺序扫描法(Serial Scanning)：所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是相当的慢。如果你有一个80G硬盘，如果想在上面找到一个内容包含某字符串的文件，不花他几个小时，怕是做不到。Linux下的grep命令也是这一种方式。大家可能觉得这种方法比较原始，但对于小数据量的文件，这种方法还是最直接，最方便的。但是对于大量的文件，这种方法就很慢了。

有人可能会说，对非结构化数据顺序扫描很慢，对结构化数据的搜索却相对较快（由于结构化数据有一定的结构可以采取一定的搜索算法加快速度），那么把我们的非结构化数据想办法弄得有一定结构不就行了吗？

这种想法很天然，却构成了全文检索的基本思路，也即将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。

这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。

这种说法比较抽象，举几个例子就很容易明白，比如字典，字典的拼音表和部首检字表就相当于字典的索引，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释。

这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search)。

下面这幅图来自《Lucene in action》，但却不仅仅描述了Lucene的检索过程，而是描述了全文检索的一般过程。

全文检索大体分两个过程，索引创建(Indexing)和搜索索引(Search)。

索引创建：将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。
搜索索引：就是得到用户的查询请求，搜索创建的索引，然后返回结果的过程。

于是全文检索就存在三个重要问题：

1. 索引里面究竟存些什么？(Index)

2. 如何创建索引？(Indexing)

3. 如何对索引进行搜索？(Search)

下面我们顺序对每个个问题进行研究。

二、索引里面究竟存些什么

索引里面究竟需要存些什么呢？

首先我们来看为什么顺序扫描的速度慢：

其实是由于我们想要搜索的信息和非结构化数据中所存储的信息不一致造成的。

非结构化数据中所存储的信息是每个文件包含哪些字符串，也即已知文件，欲求字符串相对容易，也即是从文件到字符串的映射。而我们想搜索的信息是哪些文件包含此字符串，也即已知字符串，欲求文件，也即从字符串到文件的映射。两者恰恰相反。于是如果索引总能够保存从字符串到文件的映射，则会大大提高搜索速度。

由于从字符串到文件的映射是文件到字符串映射的反向过程，于是保存这种信息的索引称为反向索引。

反向索引的所保存的信息一般如下：

假设我的文档集合里面有100篇文档，为了方便表示，我们为文档编号从1到100，得到下面的结构

左边保存的是一系列字符串，称为词典。

每个字符串都指向包含此字符串的文档(Document)链表，此文档链表称为倒排表(Posting List)。

有了索引，便使保存的信息和要搜索的信息一致，可以大大加快搜索的速度。

比如说，我们要寻找既包含字符串“lucene”又包含字符串“solr”的文档，我们只需要以下几步：

1. 取出包含字符串“lucene”的文档链表。

2. 取出包含字符串“solr”的文档链表。

3. 通过合并链表，找出既包含“lucene”又包含“solr”的文件。

看到这个地方，有人可能会说，全文检索的确加快了搜索的速度，但是多了索引的过程，两者加起来不一定比顺序扫描快多少。的确，加上索引的过程，全文检索不一定比顺序扫描快，尤其是在数据量小的时候更是如此。而对一个很大量的数据创建索引也是一个很慢的过程。

然而两者还是有区别的，顺序扫描是每次都要扫描，而创建索引的过程仅仅需要一次，以后便是一劳永逸的了，每次搜索，创建索引的过程不必经过，仅仅搜索创建好的索引就可以了。

这也是全文搜索相对于顺序扫描的优势之一：一次索引，多次使用。

三、如何创建索引

全文检索的索引创建过程一般有以下几步：

第一步：一些要索引的原文档(Document)。

为了方便说明索引创建过程，这里特意用两个文件为例：

文件一：Students should be allowed to go out with their friends, but not allowed to drink beer.

文件二：My friend Jerry went to school to see his students but found them drunk which is not allowed.

第二步：将原文档传给分次组件(Tokenizer)。

分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize)：

1. 将文档分成一个一个单独的单词。

2. 去除标点符号。

3. 去除停词(Stop word)。

所谓停词(Stop word)就是一种语言中最普通的一些单词，由于没有特别的意义，因而大多数情况下不能成为搜索的关键词，因而创建索引时，这种词会被去掉而减少索引的大小。

英语中挺词(Stop word)如：“the”,“a”，“this”等。

对于每一种语言的分词组件(Tokenizer)，都有一个停词(stop word)集合。

经过分词(Tokenizer)后得到的结果称为词元(Token)。

在我们的例子中，便得到以下词元(Token)：

“Students”，“allowed”，“go”，“their”，“friends”，“allowed”，“drink”，“beer”，“My”，“friend”，“Jerry”，“went”，“school”，“see”，“his”，“students”，“found”，“them”，“drunk”，“allowed”。

第三步：将得到的词元(Token)传给语言处理组件(Linguistic Processor)。

语言处理组件(linguistic processor)主要是对得到的词元(Token)做一些同语言相关的处理。

对于英语，语言处理组件(Linguistic Processor)一般做以下几点：

1. 变为小写(Lowercase)。

2. 将单词缩减为词根形式，如“cars”到“car”等。这种操作称为：stemming。

3. 将单词转变为词根形式，如“drove”到“drive”等。这种操作称为：lemmatization。

Stemming 和 lemmatization的异同：

相同之处：Stemming和lemmatization都要使词汇成为词根形式。
两者的方式不同：
- Stemming采用的是“缩减”的方式：“cars”到“car”，“driving”到“drive”。
- Lemmatization采用的是“转变”的方式：“drove”到“drove”，“driving”到“drive”。
两者的算法不同：
- Stemming主要是采取某种固定的算法来做这种缩减，如去除“s”，去除“ing”加“e”，将“ational”变为“ate”，将“tional”变为“tion”。
- Lemmatization主要是采用保存某种字典的方式做这种转变。比如字典中有“driving”到“drive”，“drove”到“drive”，“am, is, are”到“be”的映射，做转变时，只要查字典就可以了。
Stemming和lemmatization不是互斥关系，是有交集的，有的词利用这两种方式都能达到相同的转换。

语言处理组件(linguistic processor)的结果称为词(Term)。

在我们的例子中，经过语言处理，得到的词(Term)如下：

“student”，“allow”，“go”，“their”，“friend”，“allow”，“drink”，“beer”，“my”，“friend”，“jerry”，“go”，“school”，“see”，“his”，“student”，“find”，“them”，“drink”，“allow”。

也正是因为有语言处理的步骤，才能使搜索drove，而drive也能被搜索出来。

第四步：将得到的词(Term)传给索引组件(Indexer)。

索引组件(Indexer)主要做以下几件事情：

1. 利用得到的词(Term)创建一个字典。

在我们的例子中字典如下：

Term	Document ID
student	1
allow	1
go	1
their	1
friend	1
allow	1
drink	1
beer	1
my	2
friend	2
jerry	2
go	2
school	2
see	2
his	2
student	2
find	2
them	2
drink	2
allow	2

2. 对字典按字母顺序进行排序。

Term	Document ID
allow	1
allow	1
allow	2
beer	1
drink	1
drink	2
find	2
friend	1
friend	2
go	1
go	2
his	2
jerry	2
my	2
school	2
see	2
student	1
student	2
their	1
them	2

3. 合并相同的词(Term)成为文档倒排(Posting List)链表。

在此表中，有几个定义：

Document Frequency 即文档频次，表示总共有多少文件包含此词(Term)。
Frequency 即词频率，表示此文件中包含了几个此词(Term)。

所以对词(Term) “allow”来讲，总共有两篇文档包含此词(Term)，从而词(Term)后面的文档链表总共有两项，第一项表示包含“allow”的第一篇文档，即1号文档，此文档中，“allow”出现了2次，第二项表示包含“allow”的第二个文档，是2号文档，此文档中，“allow”出现了1次。

到此为止，索引已经创建好了，我们可以通过它很快的找到我们想要的文档。

而且在此过程中，我们惊喜地发现，搜索“drive”，“driving”，“drove”，“driven”也能够被搜到。因为在我们的索引中，“driving”，“drove”，“driven”都会经过语言处理而变成“drive”，在搜索时，如果您输入“driving”，输入的查询语句同样经过我们这里的一到三步，从而变为查询“drive”，从而可以搜索到想要的文档。

三、如何对索引进行搜索？

到这里似乎我们可以宣布“我们找到想要的文档了”。

然而事情并没有结束，找到了仅仅是全文检索的一个方面。不是吗？如果仅仅只有一个或十个文档包含我们查询的字符串，我们的确找到了。然而如果结果有一千个，甚至成千上万个呢？那个又是您最想要的文件呢？

打开Google吧，比如说您想在微软找份工作，于是您输入“Microsoft job”，您却发现总共有22600000个结果返回。好大的数字呀，突然发现找不到是一个问题，找到的太多也是一个问题。在如此多的结果中，如何将最相关的放在最前面呢？

当然Google做的很不错，您一下就找到了jobs at Microsoft。想象一下，如果前几个全部是“Microsoft does a good job at software industry…”将是多么可怕的事情呀。

如何像Google一样，在成千上万的搜索结果中，找到和查询语句最相关的呢？

如何判断搜索出的文档和查询语句的相关性呢？

这要回到我们第三个问题：如何对索引进行搜索？

搜索主要分为以下几步：

第一步：用户输入查询语句。

查询语句同我们普通的语言一样，也是有一定语法的。

不同的查询语句有不同的语法，如SQL语句就有一定的语法。

查询语句的语法根据全文检索系统的实现而不同。最基本的有比如：AND, OR, NOT等。

举个例子，用户输入语句：lucene AND learned NOT hadoop。

说明用户想找一个包含lucene和learned然而不包括hadoop的文档。

第二步：对查询语句进行词法分析，语法分析，及语言处理。

由于查询语句有语法，因而也要进行语法分析，语法分析及语言处理。

1. 词法分析主要用来识别单词和关键字。

如上述例子中，经过词法分析，得到单词有lucene，learned，hadoop, 关键字有AND, NOT。

如果在词法分析中发现不合法的关键字，则会出现错误。如lucene AMD learned，其中由于AND拼错，导致AMD作为一个普通的单词参与查询。

2. 语法分析主要是根据查询语句的语法规则来形成一棵语法树。

如果发现查询语句不满足语法规则，则会报错。如lucene NOT AND learned，则会出错。

如上述例子，lucene AND learned NOT hadoop形成的语法树如下：

3. 语言处理同索引过程中的语言处理几乎相同。

如learned变成learn等。

经过第二步，我们得到一棵经过语言处理的语法树。

第三步：搜索索引，得到符合语法树的文档。

此步骤有分几小步：

首先，在反向索引表中，分别找出包含lucene，learn，hadoop的文档链表。
其次，对包含lucene，learn的链表进行合并操作，得到既包含lucene又包含learn的文档链表。
然后，将此链表与hadoop的文档链表进行差操作，去除包含hadoop的文档，从而得到既包含lucene又包含learn而且不包含hadoop的文档链表。
此文档链表就是我们要找的文档。

第四步：根据得到的文档和查询语句的相关性，对结果进行排序。

虽然在上一步，我们得到了想要的文档，然而对于查询结果应该按照与查询语句的相关性进行排序，越相关者越靠前。

如何计算文档和查询语句的相关性呢？

不如我们把查询语句看作一片短小的文档，对文档与文档之间的相关性(relevance)进行打分(scoring)，分数高的相关性好，就应该排在前面。

那么又怎么对文档之间的关系进行打分呢？

这可不是一件容易的事情，首先我们看一看判断人之间的关系吧。

首先看一个人，往往有很多要素，如性格，信仰，爱好，衣着，高矮，胖瘦等等。

其次对于人与人之间的关系，不同的要素重要性不同，性格，信仰，爱好可能重要些，衣着，高矮，胖瘦可能就不那么重要了，所以具有相同或相似性格，信仰，爱好的人比较容易成为好的朋友，然而衣着，高矮，胖瘦不同的人，也可以成为好的朋友。

因而判断人与人之间的关系，首先要找出哪些要素对人与人之间的关系最重要，比如性格，信仰，爱好。其次要判断两个人的这些要素之间的关系，比如一个人性格开朗，另一个人性格外向，一个人信仰佛教，另一个信仰上帝，一个人爱好打篮球，另一个爱好踢足球。我们发现，两个人在性格方面都很积极，信仰方面都很善良，爱好方面都爱运动，因而两个人关系应该会很好。

我们再来看看公司之间的关系吧。

首先看一个公司，有很多人组成，如总经理，经理，首席技术官，普通员工，保安，门卫等。

其次对于公司与公司之间的关系，不同的人重要性不同，总经理，经理，首席技术官可能更重要一些，普通员工，保安，门卫可能较不重要一点。所以如果两个公司总经理，经理，首席技术官之间关系比较好，两个公司容易有比较好的关系。然而一位普通员工就算与另一家公司的一位普通员工有血海深仇，怕也难影响两个公司之间的关系。

因而判断公司与公司之间的关系，首先要找出哪些人对公司与公司之间的关系最重要，比如总经理，经理，首席技术官。其次要判断这些人之间的关系，不如两家公司的总经理曾经是同学，经理是老乡，首席技术官曾是创业伙伴。我们发现，两家公司无论总经理，经理，首席技术官，关系都很好，因而两家公司关系应该会很好。

分析了两种关系，下面看一下如何判断文档之间的关系了。

首先，一个文档有很多词(Term)组成，如search, lucene, full-text, this, a, what等。

其次对于文档之间的关系，不同的Term重要性不同，比如对于本篇文档，search, Lucene, full-text就相对重要一些，this, a , what可能相对不重要一些。所以如果两篇文档都包含search, Lucene，fulltext，这两篇文档的相关性好一些，然而就算一篇文档包含this, a, what，另一篇文档不包含this, a, what，也不能影响两篇文档的相关性。

因而判断文档之间的关系，首先找出哪些词(Term)对文档之间的关系最重要，如search, Lucene, fulltext。然后判断这些词(Term)之间的关系。

找出词(Term)对文档的重要性的过程称为计算词的权重(Term weight)的过程。

计算词的权重(term weight)有两个参数，第一个是词(Term)，第二个是文档(Document)。

词的权重(Term weight)表示此词(Term)在此文档中的重要程度，越重要的词(Term)有越大的权重(Term weight)，因而在计算文档之间的相关性中将发挥更大的作用。

判断词(Term)之间的关系从而得到文档相关性的过程应用一种叫做向量空间模型的算法(Vector Space Model)。

下面仔细分析一下这两个过程：

1. 计算权重(Term weight)的过程。

影响一个词(Term)在一篇文档中的重要性主要有两个因素：

Term Frequency (tf)：即此Term在此文档中出现了多少次。tf 越大说明越重要。
Document Frequency (df)：即有多少文档包含次Term。df 越大说明越不重要。

容易理解吗？词(Term)在文档中出现的次数越多，说明此词(Term)对该文档越重要，如“搜索”这个词，在本文档中出现的次数很多，说明本文档主要就是讲这方面的事的。然而在一篇英语文档中，this出现的次数更多，就说明越重要吗？不是的，这是由第二个因素进行调整，第二个因素说明，有越多的文档包含此词(Term), 说明此词(Term)太普通，不足以区分这些文档，因而重要性越低。

这也如我们程序员所学的技术，对于程序员本身来说，这项技术掌握越深越好（掌握越深说明花时间看的越多，tf越大），找工作时越有竞争力。然而对于所有程序员来说，这项技术懂得的人越少越好（懂得的人少df小），找工作越有竞争力。人的价值在于不可替代性就是这个道理。

道理明白了，我们来看看公式：

这仅仅只term weight计算公式的简单典型实现。实现全文检索系统的人会有自己的实现，Lucene就与此稍有不同。

2. 判断Term之间的关系从而得到文档相关性的过程，也即向量空间模型的算法(VSM)。

我们把文档看作一系列词(Term)，每一个词(Term)都有一个权重(Term weight)，不同的词(Term)根据自己在文档中的权重来影响文档相关性的打分计算。

于是我们把所有此文档中词(term)的权重(term weight) 看作一个向量。

Document = {term1, term2, …… ,term N}

Document Vector = {weight1, weight2, …… ,weight N}

同样我们把查询语句看作一个简单的文档，也用向量来表示。

Query = {term1, term 2, …… , term N}

Query Vector = {weight1, weight2, …… , weight N}

我们把所有搜索出的文档向量及查询向量放到一个N维空间中，每个词(term)是一维。

如图：

我们认为两个向量之间的夹角越小，相关性越大。

所以我们计算夹角的余弦值作为相关性的打分，夹角越小，余弦值越大，打分越高，相关性越大。

有人可能会问，查询语句一般是很短的，包含的词(Term)是很少的，因而查询向量的维数很小，而文档很长，包含词(Term)很多，文档向量维数很大。你的图中两者维数怎么都是N呢？

在这里，既然要放到相同的向量空间，自然维数是相同的，不同时，取二者的并集，如果不含某个词(Term)时，则权重(Term Weight)为0。

Spring Boot 中使用 Java API 调用 lucene

Github 代码

代码我已放到 Github ，导入spring-boot-lucene-demo 项目

github spring-boot-lucene-demo

添加依赖



    org.apache.lucene
    lucene-queryparser
    7.1.0




    org.apache.lucene
    lucene-highlighter
    7.1.0




    org.apache.lucene
    lucene-analyzers-smartcn
    7.1.0




    cn.bestwu
    ik-analyzers
    5.1.0




    com.chenlb.mmseg4j
    mmseg4j-solr
    2.4.0
    
        
            org.apache.solr
            solr-core

配置 lucene

private Directory directory;

private IndexReader indexReader;

private IndexSearcher indexSearcher;

@Before
public void setUp() throws IOException {
    //索引存放的位置，设置在当前目录中
    directory = FSDirectory.open(Paths.get("indexDir/"));

    //创建索引的读取器
    indexReader = DirectoryReader.open(directory);

    //创建一个索引的查找器，来检索索引库
    indexSearcher = new IndexSearcher(indexReader);
}

@After
public void tearDown() throws Exception {
    indexReader.close();
}

**
 * 执行查询，并打印查询到的记录数
 *
 * @param query
 * @throws IOException
 */
public void executeQuery(Query query) throws IOException {

    TopDocs topDocs = indexSearcher.search(query, 100);

    //打印查询到的记录数
    System.out.println("总共查询到" + topDocs.totalHits + "个文档");
    for (ScoreDoc scoreDoc : topDocs.scoreDocs) {

        //取得对应的文档对象
        Document document = indexSearcher.doc(scoreDoc.doc);
        System.out.println("id：" + document.get("id"));
        System.out.println("title：" + document.get("title"));
        System.out.println("content：" + document.get("content"));
    }
}

/**
 * 分词打印
 *
 * @param analyzer
 * @param text
 * @throws IOException
 */
public void printAnalyzerDoc(Analyzer analyzer, String text) throws IOException {

    TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
    CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
    try {
        tokenStream.reset();
        while (tokenStream.incrementToken()) {
            System.out.println(charTermAttribute.toString());
        }
        tokenStream.end();
    } finally {
        tokenStream.close();
        analyzer.close();
    }
}

创建索引

@Test
public void indexWriterTest() throws IOException {
    long start = System.currentTimeMillis();

    //索引存放的位置，设置在当前目录中
    Directory directory = FSDirectory.open(Paths.get("indexDir/"));

    //在 6.6 以上版本中 version 不再是必要的，并且，存在无参构造方法，可以直接使用默认的 StandardAnalyzer 分词器。
    Version version = Version.LUCENE_7_1_0;

    //Analyzer analyzer = new StandardAnalyzer(); // 标准分词器，适用于英文
    //Analyzer analyzer = new SmartChineseAnalyzer();//中文分词
    //Analyzer analyzer = new ComplexAnalyzer();//中文分词
    //Analyzer analyzer = new IKAnalyzer();//中文分词

    Analyzer analyzer = new IKAnalyzer();//中文分词

    //创建索引写入配置
    IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

    //创建索引写入对象
    IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);

    //创建Document对象，存储索引

    Document doc = new Document();

    int id = 1;

    //将字段加入到doc中
    doc.add(new IntPoint("id", id));
    doc.add(new StringField("title", "Spark", Field.Store.YES));
    doc.add(new TextField("content", "Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎", Field.Store.YES));
    doc.add(new StoredField("id", id));

    //将doc对象保存到索引库中
    indexWriter.addDocument(doc);

    indexWriter.commit();
    //关闭流
    indexWriter.close();

    long end = System.currentTimeMillis();
    System.out.println("索引花费了" + (end - start) + " 毫秒");
}

响应

17:58:14.655 [main] DEBUG org.wltea.analyzer.dic.Dictionary - 加载扩展词典：ext.dic
17:58:14.660 [main] DEBUG org.wltea.analyzer.dic.Dictionary - 加载扩展停止词典：stopword.dic
索引花费了879 毫秒

删除文档

@Test
public void deleteDocumentsTest() throws IOException {
    //Analyzer analyzer = new StandardAnalyzer(); // 标准分词器，适用于英文
    //Analyzer analyzer = new SmartChineseAnalyzer();//中文分词
    //Analyzer analyzer = new ComplexAnalyzer();//中文分词
    //Analyzer analyzer = new IKAnalyzer();//中文分词

    Analyzer analyzer = new IKAnalyzer();//中文分词

    //创建索引写入配置
    IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

    //创建索引写入对象
    IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);

    // 删除title中含有关键词“Spark”的文档
    long count = indexWriter.deleteDocuments(new Term("title", "Spark"));

    //  除此之外IndexWriter还提供了以下方法：
    // DeleteDocuments(Query query):根据Query条件来删除单个或多个Document
    // DeleteDocuments(Query[] queries):根据Query条件来删除单个或多个Document
    // DeleteDocuments(Term term):根据Term来删除单个或多个Document
    // DeleteDocuments(Term[] terms):根据Term来删除单个或多个Document
    // DeleteAll():删除所有的Document

    //使用IndexWriter进行Document删除操作时，文档并不会立即被删除，而是把这个删除动作缓存起来，当IndexWriter.Commit()或IndexWriter.Close()时，删除操作才会被真正执行。

    indexWriter.commit();
    indexWriter.close();

    System.out.println("删除完成:" + count);
}

响应

删除完成:1

更新文档

/**
 * 测试更新
 * 实际上就是删除后新增一条
 *
 * @throws IOException
 */
@Test
public void updateDocumentTest() throws IOException {
    //Analyzer analyzer = new StandardAnalyzer(); // 标准分词器，适用于英文
    //Analyzer analyzer = new SmartChineseAnalyzer();//中文分词
    //Analyzer analyzer = new ComplexAnalyzer();//中文分词
    //Analyzer analyzer = new IKAnalyzer();//中文分词

    Analyzer analyzer = new IKAnalyzer();//中文分词

    //创建索引写入配置
    IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

    //创建索引写入对象
    IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);

    Document doc = new Document();

    int id = 1;

    doc.add(new IntPoint("id", id));
    doc.add(new StringField("title", "Spark", Field.Store.YES));
    doc.add(new TextField("content", "Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎", Field.Store.YES));
    doc.add(new StoredField("id", id));

    long count = indexWriter.updateDocument(new Term("id", "1"), doc);
    System.out.println("更新文档:" + count);
    indexWriter.close();
}

响应

更新文档:1

按词条搜索

/**
 * 按词条搜索
 * 
 * TermQuery是最简单、也是最常用的Query。TermQuery可以理解成为“词条搜索”，
 * 在搜索引擎中最基本的搜索就是在索引中搜索某一词条，而TermQuery就是用来完成这项工作的。
 * 在Lucene中词条是最基本的搜索单位，从本质上来讲一个词条其实就是一个名/值对。
 * 只不过这个“名”是字段名，而“值”则表示字段中所包含的某个关键字。
 *
 * @throws IOException
 */
@Test
public void termQueryTest() throws IOException {

    String searchField = "title";
    //这是一个条件查询的api，用于添加条件
    TermQuery query = new TermQuery(new Term(searchField, "Spark"));

    //执行查询，并打印查询到的记录数
    executeQuery(query);
}

响应

总共查询到1个文档
id：1
title：Spark
content：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎!

多条件查询

/**
 * 多条件查询
 *
 * BooleanQuery也是实际开发过程中经常使用的一种Query。
 * 它其实是一个组合的Query，在使用时可以把各种Query对象添加进去并标明它们之间的逻辑关系。
 * BooleanQuery本身来讲是一个布尔子句的容器，它提供了专门的API方法往其中添加子句，
 * 并标明它们之间的关系，以下代码为BooleanQuery提供的用于添加子句的API接口：
 *
 * @throws IOException
 */
@Test
public void BooleanQueryTest() throws IOException {

    String searchField1 = "title";
    String searchField2 = "content";
    Query query1 = new TermQuery(new Term(searchField1, "Spark"));
    Query query2 = new TermQuery(new Term(searchField2, "Apache"));
    BooleanQuery.Builder builder = new BooleanQuery.Builder();

    // BooleanClause用于表示布尔查询子句关系的类，
    // 包 括：
    // BooleanClause.Occur.MUST，
    // BooleanClause.Occur.MUST_NOT，
    // BooleanClause.Occur.SHOULD。
    // 必须包含,不能包含,可以包含三种.有以下6种组合：
    //
    // 1．MUST和MUST：取得连个查询子句的交集。
    // 2．MUST和MUST_NOT：表示查询结果中不能包含MUST_NOT所对应得查询子句的检索结果。
    // 3．SHOULD与MUST_NOT：连用时，功能同MUST和MUST_NOT。
    // 4．SHOULD与MUST连用时，结果为MUST子句的检索结果,但是SHOULD可影响排序。
    // 5．SHOULD与SHOULD：表示“或”关系，最终检索结果为所有检索子句的并集。
    // 6．MUST_NOT和MUST_NOT：无意义，检索无结果。

    builder.add(query1, BooleanClause.Occur.SHOULD);
    builder.add(query2, BooleanClause.Occur.SHOULD);

    BooleanQuery query = builder.build();

    //执行查询，并打印查询到的记录数
    executeQuery(query);
}

响应

总共查询到1个文档
id：1
title：Spark
content：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎!

匹配前缀

/**
 * 匹配前缀
 * 
 * PrefixQuery用于匹配其索引开始以指定的字符串的文档。就是文档中存在xxx%
 * 
 *
 * @throws IOException
 */
@Test
public void prefixQueryTest() throws IOException {
    String searchField = "title";
    Term term = new Term(searchField, "Spar");
    Query query = new PrefixQuery(term);

    //执行查询，并打印查询到的记录数
    executeQuery(query);
}

响应

总共查询到1个文档
id：1
title：Spark
content：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎!

短语搜索

/**
 * 短语搜索
 * 
 * 所谓PhraseQuery，就是通过短语来检索，比如我想查“big car”这个短语，
 * 那么如果待匹配的document的指定项里包含了"big car"这个短语，
 * 这个document就算匹配成功。可如果待匹配的句子里包含的是“big black car”，
 * 那么就无法匹配成功了，如果也想让这个匹配，就需要设定slop，
 * 先给出slop的概念：slop是指两个项的位置之间允许的最大间隔距离
 *
 * @throws IOException
 */
@Test
public void phraseQueryTest() throws IOException {

    String searchField = "content";
    String query1 = "apache";
    String query2 = "spark";

    PhraseQuery.Builder builder = new PhraseQuery.Builder();
    builder.add(new Term(searchField, query1));
    builder.add(new Term(searchField, query2));
    builder.setSlop(0);
    PhraseQuery phraseQuery = builder.build();

    //执行查询，并打印查询到的记录数
    executeQuery(phraseQuery);
}

响应

总共查询到1个文档
id：1
title：Spark
content：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎!

相近词语搜索

/**
 * 相近词语搜索
 * 
 * FuzzyQuery是一种模糊查询，它可以简单地识别两个相近的词语。
 *
 * @throws IOException
 */
@Test
public void fuzzyQueryTest() throws IOException {

    String searchField = "content";
    Term t = new Term(searchField, "大规模");
    Query query = new FuzzyQuery(t);

    //执行查询，并打印查询到的记录数
    executeQuery(query);
}

响应

总共查询到1个文档
id：1
title：Spark
content：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎!

通配符搜索

/**
 * 通配符搜索
 * 
 * Lucene也提供了通配符的查询，这就是WildcardQuery。
 * 通配符“?”代表1个字符，而“*”则代表0至多个字符。
 *
 * @throws IOException
 */
@Test
public void wildcardQueryTest() throws IOException {
    String searchField = "content";
    Term term = new Term(searchField, "大*规模");
    Query query = new WildcardQuery(term);

    //执行查询，并打印查询到的记录数
    executeQuery(query);
}

响应

总共查询到1个文档
id：1
title：Spark
content：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎!

分词查询

/**
 * 分词查询
 *
 * @throws IOException
 * @throws ParseException
 */
@Test
public void queryParserTest() throws IOException, ParseException {
    //Analyzer analyzer = new StandardAnalyzer(); // 标准分词器，适用于英文
    //Analyzer analyzer = new SmartChineseAnalyzer();//中文分词
    //Analyzer analyzer = new ComplexAnalyzer();//中文分词
    //Analyzer analyzer = new IKAnalyzer();//中文分词

    Analyzer analyzer = new IKAnalyzer();//中文分词

    String searchField = "content";

    //指定搜索字段和分析器
    QueryParser parser = new QueryParser(searchField, analyzer);

    //用户输入内容
    Query query = parser.parse("计算引擎");

    //执行查询，并打印查询到的记录数
    executeQuery(query);
}

响应

总共查询到1个文档
id：1
title：Spark
content：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎!

多个 Field 分词查询

/**
 * 多个 Field 分词查询
 *
 * @throws IOException
 * @throws ParseException
 */
@Test
public void multiFieldQueryParserTest() throws IOException, ParseException {
    //Analyzer analyzer = new StandardAnalyzer(); // 标准分词器，适用于英文
    //Analyzer analyzer = new SmartChineseAnalyzer();//中文分词
    //Analyzer analyzer = new ComplexAnalyzer();//中文分词
    //Analyzer analyzer = new IKAnalyzer();//中文分词

    Analyzer analyzer = new IKAnalyzer();//中文分词

    String[] filedStr = new String[]{"title", "content"};

    //指定搜索字段和分析器
    QueryParser queryParser = new MultiFieldQueryParser(filedStr, analyzer);

    //用户输入内容
    Query query = queryParser.parse("Spark");

    //执行查询，并打印查询到的记录数
    executeQuery(query);
}

响应

总共查询到1个文档
id：1
title：Spark
content：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎!

中文分词器

/**
 * IKAnalyzer  中文分词器
 * SmartChineseAnalyzer  smartcn分词器 需要lucene依赖 且和lucene版本同步
 *
 * @throws IOException
 */
@Test
public void AnalyzerTest() throws IOException {
    //Analyzer analyzer = new StandardAnalyzer(); // 标准分词器，适用于英文
    //Analyzer analyzer = new SmartChineseAnalyzer();//中文分词
    //Analyzer analyzer = new ComplexAnalyzer();//中文分词
    //Analyzer analyzer = new IKAnalyzer();//中文分词

    Analyzer analyzer = null;
    String text = "Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎";

    analyzer = new IKAnalyzer();//IKAnalyzer 中文分词
    printAnalyzerDoc(analyzer, text);
    System.out.println();

    analyzer = new ComplexAnalyzer();//MMSeg4j 中文分词
    printAnalyzerDoc(analyzer, text);
    System.out.println();

    analyzer = new SmartChineseAnalyzer();//Lucene 中文分词器
    printAnalyzerDoc(analyzer, text);
}

三种分词响应

apache
spark
专为
大规模
规模
模数
数据处理
数据
处理
而设
设计
快速
通用
计算
引擎

apache
spark
是
专为
大规模
数据处理
而
设计
的
快速
通用
的
计算
引擎

apach
spark
是
专
为
大规模
数据
处理
而
设计
的
快速
通用
的
计算
引擎

高亮处理

/**
 * 高亮处理
 *
 * @throws IOException
 */
@Test
public void HighlighterTest() throws IOException, ParseException, InvalidTokenOffsetsException {
    //Analyzer analyzer = new StandardAnalyzer(); // 标准分词器，适用于英文
    //Analyzer analyzer = new SmartChineseAnalyzer();//中文分词
    //Analyzer analyzer = new ComplexAnalyzer();//中文分词
    //Analyzer analyzer = new IKAnalyzer();//中文分词

    Analyzer analyzer = new IKAnalyzer();//中文分词

    String searchField = "content";
    String text = "Apache Spark 大规模数据处理";

    //指定搜索字段和分析器
    QueryParser parser = new QueryParser(searchField, analyzer);

    //用户输入内容
    Query query = parser.parse(text);

    TopDocs topDocs = indexSearcher.search(query, 100);

    // 关键字高亮显示的html标签，需要导入lucene-highlighter-xxx.jar
    SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("", "");
    Highlighter highlighter = new Highlighter(simpleHTMLFormatter, new QueryScorer(query));

    for (ScoreDoc scoreDoc : topDocs.scoreDocs) {

        //取得对应的文档对象
        Document document = indexSearcher.doc(scoreDoc.doc);

        // 内容增加高亮显示
        TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(document.get("content")));
        String content = highlighter.getBestFragment(tokenStream, document.get("content"));

        System.out.println(content);
    }

}

响应

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎!

代码我已放到 Github ，导入spring-boot-lucene-demo 项目

微信公众号

个人公众号：程序员黄小斜

微信公众号【程序员黄小斜】新生代青年聚集地，程序员成长充电站。作者黄小斜，职业是阿里程序员，身份是斜杠青年，希望和更多的程序员交朋友，一起进步和成长！专注于分享技术、面试、职场等成长干货，这一次，我们一起出发。

关注公众号后回复“2020”领取我这两年整理的学习资料，涵盖自学编程、求职面试、算法刷题、Java技术学习、计算机基础和考研等8000G资料合集。

技术公众号：Java技术江湖

微信公众号【Java技术江湖】一位阿里 Java 工程师的技术小站，专注于 Java 相关技术：SSM、SpringBoot、MySQL、分布式、中间件、集群、Linux、网络、多线程，偶尔讲点Docker、ELK，同时也分享技术干货和学习经验，致力于Java全栈开发！

关注公众号后回复“PDF”即可领取200+页的《Java工程师面试指南》强烈推荐，几乎涵盖所有Java工程师必知必会的知识点。

你可能感兴趣的:(后端技术杂谈,搜索引擎)

CSS性能优化天涯学馆大前端&移动端全栈架构 css 性能优化前端
在构建高性能的网页时，CSS性能优化是一个至关重要的环节。它不仅影响页面的加载速度，还关系到用户体验和搜索引擎优化。下面我们将深入探讨CSS性能优化的各个方面：1.最小化HTTP请求合并CSS文件：将多个CSS文件合并成一个，减少HTTP请求次数，加快页面加载速度。内联CSS：对于小量的CSS，可以直接在HTML中内联，减少HTTP请求。使用数据URI：对于背景图片或图标，可以使用base64编码
搜索引擎快速收录：关键词布局的艺术百度网站快速收录搜索引擎百度快速收录网站快速收录
本文来自：百万收录网原文链接：https://www.baiwanshoulu.com/21.html搜索引擎快速收录中的关键词布局，是一项既精细又富有策略性的工作。以下是对关键词布局艺术的详细阐述：一、关键词布局的重要性关键词布局影响着后期页面是否被收录，以及网站在搜索引擎中的排名。合理的关键词布局能够提升网站的可见性，吸引更多的目标用户，从而实现网站流量的增长。二、关键词布局的原则相关性：关键
从 0 到 1，DEEPseek 大模型瞬间 “霸榜” AI 赛道的秘密羑悻的小杀马特. 人工智能 deepseek AI大模型
大家都知道，科技发展特别快，AI更是突飞猛进。DeepSeek大模型，就像一匹黑马，在AI领域迅速冒尖。它和我们常用的搜索引擎、聊天机器人都有联系，到底有多大能耐？让我们一起揭开它的神秘面纱。deepseek官网传送门：DeepSeek下面就对本文标题来剖析一下：目录一·本篇背景：二.技术实力：突破创新的基石:2.1强大的模型能力:2.1.1高效的训练方法:2.2.2优化的推理速度:三·市场策略：
再见，Elasticsearch ！码农code之路 elasticsearch 大数据搜索引擎全文检索
新一代搜索引擎，是ES的15倍，号称干翻ES！ManticoreSearch是一个使用C++开发的高性能搜索引擎，创建于2017年，其前身是SphinxSearch。ManticoreSearch充分利用了Sphinx，显着改进了它的功能，修复了数百个错误，几乎完全重写了代码并保持开源。这一切使ManticoreSearch成为一个现代，快速，轻量级和功能齐全的数据库，具有出色的全文搜索功能。Ma
OpenAI o1 模型到来后，谈谈提示词工程的未来
编者按：你是否也在思考：当AI模型越来越强大时，我们还需要花时间去学习那些复杂的提示词技巧吗？我们究竟要在提示词工程上投入多少精力？是该深入学习各种高级提示词技术，还是静观其变？本文作者基于对OpenAI最新o1模型的深入观察，为我们揭示了一个重要趋势：就像我们不再需要专门去学习"如何使用搜索引擎"一样，与AI交互也将变得越来越自然和直观。文章不仅分析了提示词技术的发展趋势，更提供了务实的建议：与
java搜索框架_搜索引擎框架介绍 weixin_39568926 java搜索框架
一、搜索引擎基础介绍二、常见搜索引擎框架介绍与比较三、参考文章一、搜索引擎基础介绍1.什么是搜索引擎搜索引擎，通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后，这些结果将
java搜索引擎框架_搜索引擎框架介绍君子Python java搜索引擎框架
原标题：搜索引擎框架介绍一、搜索引擎基础介绍1.什么是搜索引擎搜索引擎，通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后，这些结果将按照与搜索关键词的相关度高低(或与相关
使用DeepSeek批量生成文章，对搜索引擎产生一定影响。木合塔尔麦麦提搜索引擎
使用DeepSeek批量生成文章可以通过API接口或批量任务功能实现。以下是具体步骤和注意事项：---###**一、准备工作**1.**获取API权限**-注册DeepSeek账号并获取API密钥（APIKey）。-阅读API文档，了解支持的模型、参数和调用限制。2.**明确需求**-确定批量生成的文章主题、风格、字数等要求。-准备输入数据（如关键词列表、大纲模板等）。3.**选择工具**-使用编
大数据组件ClickHouse介绍（场景、优劣势、性能）坚持是一种态度大数据开发 ClickHouse 大数据 clickhouse 数据库列式数据库
大数据组件ClickHouse介绍简介使用场景优势与劣势优势劣势性能单个查询吞吐量处理短查询的延时时间处理大量短查询数据写入性能查询性能简介clickhouse是一个高性能的列式存储分析数据库管理系统，由俄罗斯搜索引擎公司yandex开发。clickhouse具有以下特点高性能：clickhouse优化了查询和数据压缩算法，支持多维度数据分析和快速聚合查询。分布式：clickhouse采用共享无状
第5节课：HTML5 新标签——构建更智能的网页结构学问小小谢 HTML学习 html5 前端学习
目录语义化标记的重要性新标签详解````````````实践：使用HTML5新标签构建网页结语随着HTML5的推出，网页开发者们获得了一套新的强大工具——语义标签。这些标签不仅帮助我们更好地组织内容，还使得网页更易于搜索引擎优化（SEO）和辅助技术访问。本节课将深入探讨HTML5中的新语义标签，包括、、、、和，并强调使用这些标签进行语义化标记的重要性。语义化标记的重要性在HTML5之前，我们通常使
利用长尾关键词优化SEO策略提升网站流量的实用建议老陈头聊SEO 其他
内容概要在当今数字营销的环境中，网站流量的获取是一项至关重要的任务。随着搜索引擎优化（SEO）技术的发展，长尾关键词逐渐被越来越多的网站管理员和内容创作者所重视。长尾关键词一般指的是那些较长且具体的搜索词组，虽然搜索量相对较少，但通常具有更高的转化率和更低的竞争度。因此，理解和利用长尾关键词，将为提升网站流量提供了有效手段。“要想在竞争激烈的网络环境中脱颖而出，主动挖掘和应用长尾关键词，将为您带来
新站如何快速获得搜索引擎收录？百度网站快速收录搜索引擎
本文来自：百万收录网原文链接：https://www.baiwanshoulu.com/8.html新站想要快速获得搜索引擎收录，需要采取一系列有针对性的策略。以下是一些具体的建议：一、网站内容优化高质量原创内容：确保网站内容原创、独特且有价值，满足搜索引擎和用户的需求。定期更新内容，保持网站的活跃度和吸引力。关键词布局：在标题、正文、图片alt标签等位置合理分布关键词，提高网页的相关性。避免关键
全面信息收集指南：渗透测试中的关键步骤与技巧 Clockwiseee 信息收集安全 web安全渗透测试漏洞挖掘
文章目录一、什么是信息收集二、信息收集的分类1.服务器相关信息2.网站指纹识别3.Whois及目标背景信息4.子域名及关联资产5.GoogleHacking（搜索引擎利用）6.网站目录和敏感文件7.传输协议与漏洞利用8.第三方依赖与拓展信息三、信息收集的方式1.whois在线查询使用技巧2.在线网站备案查询3.收集子域名3.1网络空间绘测绘测的目的和意义3.2子域名爆破工具四、端口五、查找真实IP
Adobe软件隐藏功能大揭秘：5个冷门小技巧助你效率倍增 shelby_loo adobe
作为设计师和创意工作者，我们对Adobe系列软件的强大功能一定不陌生。但你是否知道，通过申请Edu教育邮箱，学生和教师可以免费或以极低的价格订阅这些软件，享受专业的创作体验呢？这不仅能让你远离破解软件带来的不稳定和安全隐患，还能让你合法地使用正版软件，充分发挥创意。如果你还没有Edu邮箱，也不用担心。网上有很多关于如何申请Edu邮箱的教程和经验分享。你可以通过搜索引擎查找相关信息，或者参考一些知识
NLTK命名实体识别（NER） Mr数据杨 Python 自然语言技术 NLTK 自然语言处理 1024程序员节
命名实体识别（NamedEntityRecognition,NER）是自然语言处理（NLP）中的一项核心技术，旨在从文本中识别出具有特定意义的实体，如人名、地名、组织名等。通过对文本的自动化处理，NER能够帮助计算机理解和组织大量的非结构化数据，为信息抽取、搜索引擎优化、数据分析等领域提供强有力的技术支持。NLTK（NaturalLanguageToolkit）是一个广泛使用的Python库，提供
网站结构优化：加速搜索引擎收录的关键百度网站快速收录搜索引擎
本文来自：百万收录网原文链接：https://www.baiwanshoulu.com/9.html网站结构优化对于加速搜索引擎收录至关重要。以下是一些关键策略，旨在通过优化网站结构来提高搜索引擎的抓取效率和收录速度：一、合理规划网站架构采用扁平化结构：减少网站的层级深度，使搜索引擎爬虫能够更快速地遍历和抓取网站内容。这有助于确保每个页面都能被搜索引擎有效地索引。分类清晰：对于内容丰富的网站，应合
实现网站内容快速被搜索引擎收录的方法百度网站快速收录搜索引擎
本文转自：百万收录网原文链接：https://www.baiwanshoulu.com/6.html实现网站内容快速被搜索引擎收录，是网站运营和推广的重要目标之一。以下是一些有效的方法，可以帮助网站内容更快地被搜索引擎发现和收录：一、确保内容质量与原创性高质量内容：搜索引擎更倾向于收录提供高质量、有价值内容的网站。因此，要确保网站内容独特、有深度，能够满足用户的需求和兴趣。原创性：原创内容是搜索引
FragPipe: 一个强大的蛋白质组学数据分析平台 2401_87189860 数据分析数据挖掘
FragPipe简介FragPipe是一个由Nesvizhskii实验室开发的综合性蛋白质组学数据分析平台。它以MSFragger搜索引擎为核心,集成了多种功能强大的分析工具,为研究人员提供了从原始数据处理到生物学解释的一站式解决方案。FragPipe具有用户友好的Java图形用户界面(GUI),同时也支持命令行模式,可以在Windows、Linux或云环境中运行。FragPipe的主要特点快速高
DeepSeek：突破传统的AI算法与下载排行分析 smart_ljh 行业搜索人工智能 AI
DeepSeek的AI算法突破DeepSeek相较于OpenAI以及其它平台的性能对比DeepSeek的下载排行分析（截止2025/1/28AI人工智能相关DeepSeek甚至一度被推上了搜索）未来发展趋势总结在人工智能技术飞速发展的当下，搜索引擎市场也迎来了新的变革。DeepSeek，作为一款基于深度学习技术和大数据算法的搜索引擎，以其独特的优势在国内外市场上引起了广泛关注。下面介绍一下针对De
自学网络安全，一般人我劝你还是算了吧_白银安卓开发 2401_84281629 程序员 web安全 android 安全
whois信息用来查询域名信息，shodan、zoomeye、fofa等网络空间搜索引擎检索IP、域名、URL等背后的信息，GoogleHacking利用搜索引擎来检索网站内部信息，这些东西都是在网络信息搜集中经常用到的技能。暴力破解在网络攻击中，当扫描到目标开放的服务后，最直接的就是想要登录进去。常见的服务有SSH、RDP、MySQL、Redis、Web表单等等。这个时候，暴力破解通常会派上用场
Google Chrome浏览器设置奶香臭豆腐 edge浏览器
问题描述点击GoogleChrome图标，打开的不是Google浏览器。解决步骤打开谷歌浏览器，单击右上角“自定义及控制”，再单击菜单栏中“设置”选项卡，如下图中的法1。或者，打开谷歌浏览器，在地址栏输入chrome://settings/，如下图中的法2。打开“设置”后，找到“搜索引擎”，把“地址栏中使用的搜索引擎”改成想用的搜索引擎。再点击左边的“启动时”，点击“打开新标签页”即可。三个点的符
知识图谱自动构建工具有哪些 Nate Hillick 知识图谱 neo4j 人工智能
知识图谱的自动构建工具有很多，常见的包括:Neo4j:基于图数据库的知识图谱构建工具Protégé:开源的知识图谱开发平台GoogleKnowledgeGraph:Google搜索引擎的知识图谱构建工具TopBraidComposer:基于SemanticWeb技术的知识图谱构建工具AllegroGraph:高性能图数据库，可用于构建知识图谱这仅仅是其中一部分工具，在市场上还有更多类似的工具。
Python爬虫的一些基本内容、常见步骤以及示例代码 max500600 python python 爬虫开发语言
以下是关于Python爬虫的一些基本内容、常见步骤以及示例代码：一、Python爬虫概述Python爬虫是一种利用Python编程语言编写的程序，用于自动从互联网上获取网页内容以及提取所需信息工具。它可以模拟人类在浏览器上的操作，访问各种网页，并按照特定规则抓取数据，比如抓取新闻标题、商品价格、图片链接等等，广泛应用于数据采集、信息监测、搜索引擎等领域。二、常见步骤1.确定目标和分析网页首先明确你
HTML `＜head＞` 元素详解浪浪山小白兔 html 前端
在HTML文档中，元素是一个非常重要的部分，它包含了文档的元数据（metadata）和其他与文档相关的信息。虽然中的内容不会直接显示在网页上，但它对网页的行为、样式和搜索引擎优化（SEO）有着至关重要的影响。本文将详细介绍元素及其常见子元素的使用方法，并通过丰富的示例帮助你更好地理解和应用。1.元素概述元素是HTML文档的头部部分，位于标签内，标签之前。它主要用于定义文档的元数据、链接外部资源、设
私域流量怎么运营最有效？ git
如何有效运营私域流量？这是许多企业和商家都在思考的问题。在当今的数字化时代，私域流量已经成为了企业和商家发展的重要资产之一。但是，如何才能运营好私域流量呢？下面我们将从多个角度来探讨这个问题。一、什么是私域流量？私域流量是指企业和商家通过自己的网站、APP、微信、小程序等渠道获取的流量。与公域流量（即通过搜索引擎、社交媒体等第三方平台获得的流量）相比，私域流量更加可控，且能够通过精细化的运营实现更
如何让ChatGPT接入互联网？ Tensor维度 AIGC chatgpt langchain AIGC 语言模型
一、前言使用谷歌搜索引擎实现的最终效果：搜索引擎一次返回10条搜索结果数据每条数据标题都带有链接地址，点击可跳转到对应网页；标题之后的内容为LLM模型根据原始网页内容整理之后输出的内容搜索引擎搜索出的内容让ChatGPT整理后返回到Chatbot上上述应用开源地址：https://github.com/hubo0417/EasyGC1、背景前段时间自己基于LangChain+ChatGLM2-6B
网络爬虫相关软件以及论文检索与推荐网站调研 Q7318 网络爬虫网络爬虫搜索引擎
最近接到一个项目，需要做一个基于网络爬虫技术的论文检索与推荐的网站，所以打算先对市面上已有的基于此技术的软件进行一次统计和分析，以备后面查询使用。一.网络爬虫相关软件1.搜索引擎NutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是DougCutting，他同时也是Lucene、Hadoop和Avro开源项
Elasticsearch的经典面试题及详细解答 codeBrute elasticsearch 大数据搜索引擎
以下是一些Elasticsearch的经典面试题及详细解答：一、基础概念与原理什么是Elasticsearch？回答：Elasticsearch是一个基于Lucene的分布式搜索引擎，提供了RESTfulAPI，支持多租户能力。它能够快速、近实时地存储、搜索和分析海量数据，每个字段都被索引并可被搜索。Elasticsearch广泛用于全文搜索、日志分析、实时监控等领域。解释Elasticsearc
ES聚合分析原理与代码实例讲解 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
ES聚合分析原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业级应用需要处理的数据量呈爆炸式增长。如何从海量数据中快速、高效地提取有价值的信息，成为了数据分析和处理领域的重要课题。Elasticsearch（简称ES）作为一种高性能、可扩展的全文搜索引擎，在处理海量数据、进行高效数
Tika（百科介绍）索隆知识介绍 microsoft powerpoint 文档 apache java visio
ApacheTika目录简介支持的文档格式项目历史简介ApacheTika利用现有的解析类库，从不同格式的文档中（例如HTML,PDF,Doc)，侦测和提取出元数据和结构化内容。功能包括：侦测文档的类型，字符编码，语言，等其他现有文档的属性。提取结构化的文字内容。该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。编程语言为Java.支持的文档格式目前支持的文档格式和对应的解析类库如下：
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

						t10	t11
	.477		.477	.176		.176
.176		.477			.954		.176
.176				.176		.176	.176
				.176	.477		.176