达龙猫

Lucene搜索引擎-搜索

文章目录

搜索API详解

IndexReader 索引读取器
IndexSearch 索引搜索器
查询结果

基本查询详解

TermQuery 词项查询
BooleanQuery 布尔查询
PhraseQuery 短语查询
MultiPhraseQuery 多重短语查询
SpanNearQuery 临近查询（跨度查询）
TermRangeQuery 词项范围查询
PrefixQuery, WildcardQuery, RegexpQuery
FuzzyQuery 模糊查询
数值查询

QuerParser查询解析器

QueryParser 传统解析器
MultiFieldQueryParser 传统解析器
StandardQueryParser 新标准解析器
查询解析语法

总结

如果对Lucene不熟悉的，请移步：Lucene搜索引擎-分词器

当分词、索引存储完毕，就可以开始进行搜索了。

先看一段代码：

public class SearchBaseFlow {
    public static void main(String[] args) throws IOException, ParseException {
	// 使用的分词器
	Analyzer analyzer = new IKAnalyzer4Lucene7(true);
	// 索引存储目录
	Directory directory = FSDirectory.open(Paths.get("f:/test/indextest"));
	// 索引读取器
	IndexReader indexReader = DirectoryReader.open(directory);
	// 索引搜索器
	IndexSearcher indexSearcher = new IndexSearcher(indexReader);
	// 要搜索的字段
	String filedName = "name";
	// 查询生成器（解析输入生成Query查询对象）
	QueryParser parser = new QueryParser(filedName, analyzer);
	// 通过parse解析输入（分词），生成query对象
	Query query = parser.parse("Thinkpad");
	// 搜索，得到TopN的结果（结果中有命中总数，topN的scoreDocs（评分文档（文档id，评分）））
	TopDocs topDocs = indexSearcher.search(query, 10);   //前10条

	//获得总命中数
	System.out.println(topDocs.totalHits);

	// 遍历topN结果的scoreDocs,取出文档id对应的文档信息
	for (ScoreDoc sdoc : topDocs.scoreDocs) {
		// 根据文档id取存储的文档
		Document hitDoc = indexSearcher.doc(sdoc.doc);
		// 取文档的字段
		System.out.println(hitDoc.get(filedName));
	}

	// 使用完毕，关闭、释放资源
	indexReader.close();
	directory.close();
    }
}

搜索的核心API：

搜索API详解

IndexReader 索引读取器

open一个读取器，读取的是该时刻点的索引视图。如果后续索引发生改变，需重新open一个读取器。

获得索引读取器的方式：

DirectoryReader.open(IndexWriter indexWriter) 优先使用

DirectoryReader.open(Directory)

DirectoryReader.openIfChanged(DirectoryReader) 共享当前reader资源重新打开一个（当索引变化时）

IndexReader分为两类：

叶子读取器：支持获取stored fields, doc values, terms（词项）, and postings （词项对应的文档）

复合读取器：多个读取器的复合，只可直接用它获取stored fields 。在内部通过CompositeReader.getSequentialSubReaders 得到里面的叶子读取器来获取其他数据

上述代码使用到的DirectoryReader 是复合读取器。

注意：IndexReader是线程安全的

IndexReader主要API：

LeafReader主要API：

IndexSearch 索引搜索器

应用通过调用它的search(Query,int)重载方法在一个IndexReader上实现搜索。

出于性能的考虑，请使用一个IndexSearcher实例，除非索引发生变化。如索引更新了则通过DirectoryReader.openIfChanged(DirectoryReader) 取得新的读取器，再创建新的搜索器。

注意：IndexSearch是线程安全的

查询结果

基本查询详解

常用的查询API如下：

TermQuery 词项查询

词项查询，最基本、最常用的查询，用来查询指定字段包含指定词项的文档。

TermQuery tq = new TermQuery(new Term("fieldName", "term"));
TermQuery tq = new TermQuery(new Term(“name", “thinkpad"));

BooleanQuery 布尔查询

搜索的条件往往是多个的，如要查询名称包含"电脑" 或 "thinkpad"的商品，就需要两个词项查询做或合并。

布尔查询就是用来组合多个子查询的。每个子查询称为布尔字句 BooleanClause，布尔字句自身也可以是组合的。

组合关系支持如下四种：

Occur.SHOULD：或

Occur.MUST：且

Occur.MUST_NOT：且非

Occur.FILTER：同MUST,但该字句不参与评分

布尔查询默认的最大字句数为1024，在将通配符查询这样的查询rewriter为布尔查询时，往往会产生很多的字句，可能抛出TooManyClauses 异常。可通过BooleanQuery.setMaxClauseCount(int)设置最大字句数。

// 布尔查询
Query query1 = new TermQuery(new Term(filedName, "thinkpad"));
Query query2 = new TermQuery(new Term("simpleIntro", "英特尔"));
BooleanQuery.Builder booleanQueryBuilder = new BooleanQuery.Builder();
booleanQueryBuilder.add(query1, Occur.SHOULD);
booleanQueryBuilder.add(query2, Occur.MUST);
BooleanQuery booleanQuery = booleanQueryBuilder.build();

// 可像下一行这样写
// BooleanQuery booleanQuery = new BooleanQuery.Builder()
// 	.add(query1, Occur.SHOULD).add(query2, Occur.MUST).build();

PhraseQuery 短语查询

最常用的查询，匹配特点序列的多个词项。

PhraserQuery使用一个位置移动因子（slop）来决定任意两个词项的位置（词项出现的次序）可最大移动多少个位置来进行匹配，默认为0。有两种方式来构建对象：

直接用构造方法

用里面的Builder来构建

注意：

Builder方式构造中的int 值为词项的位置，后面加入的词项的位置需>=前一词项的位置

所有加入的词项都匹配才算匹配（即使是你在同一位置加入多个词项）

如果需要在同一位置匹配多个同义词中的一个，适合用MultiPhraseQuery

短语查询示例：

PhraseQuery phraseQuery1 = new PhraseQuery("name", "thinkpad", "carbon");
PhraseQuery phraseQuery2 = new PhraseQuery(1, "name", "thinkpad", "carbon");
PhraseQuery phraseQuery3 = new PhraseQuery("name", "笔记本电脑", "联想");
PhraseQuery phraseQuery4 = new PhraseQuery.Builder()
	.add(new Term("name", "笔记本电脑"), 4)
	.add(new Term("name", "联想"), 5).build();
PhraseQuery phraseQuery5 = new PhraseQuery.Builder()
	.add(new Term("name", "笔记本电脑"), 0)
	.add(new Term("name", "联想"), 1).build();

移动因子slop说明：slop是指两个项的位置之间允许的最大间隔距离。

String name = “ThinkPad X1 Carbon 20KH0009CD/25CD 超极本轻薄笔记本电脑联想”;

如果想用 thinkpad carbon 来匹配 name,则需要如何移动才会和name中的ThinkPand [X1] Carbon匹配呢？这种情况比较简单，只要计算两者间的距离，thinkpad向左移动1即可，此时slop=1

如果想用 *carbon thinkpad 来匹配 name,则只需要将carbon向右移动3位即可匹配ThinkPand [X1] Carbon，因此slop=3

MultiPhraseQuery 多重短语查询

短语查询的一种更通用的用法，支持同位置多个词的OR匹配。通过里面的Builder来构建MultiPhraseQuery

示例：

// 多重短语查询
Term[] terms = new Term[2];
terms[0] = new Term("name", "笔记本");
terms[1] = new Term("name", "笔记本电脑");
Term t = new Term("name", "联想");
MultiPhraseQuery multiPhraseQuery = new MultiPhraseQuery.Builder()
	.add(terms).add(t).build();

// 对比 PhraseQuery在同位置加入多个词 ，同位置的多个词都需匹配，所以查不出
PhraseQuery pquery = new PhraseQuery.Builder()
	.add(terms[0], 0).add(terms[1], 0).add(t, 1).build();

SpanNearQuery 临近查询（跨度查询）

用于更复杂的短语查询，可以指定词间位置的最大间隔跨度。

通过组合一系列的SpanQuery 实例来进行查询，可以指定是否按顺序匹配、slop、gap。

示例：

// SpanNearQuery 临近查询
SpanTermQuery tq1 = new SpanTermQuery(new Term("name", "thinkpad"));
SpanTermQuery tq2 = new SpanTermQuery(new Term("name", "carbon"));
SpanNearQuery spanNearQuery = new SpanNearQuery(new SpanQuery[] { tq1, tq2 }, 1, true);

// SpanNearQuery 临近查询 gap slop 使用
SpanNearQuery.Builder spanNearQueryBuilder = SpanNearQuery.newOrderedNearQuery("name");
spanNearQueryBuilder.addClause(tq1).addGap(0).setSlop(1).addClause(tq2);
SpanNearQuery spanNearQuery5 = spanNearQueryBuilder.build();

TermRangeQuery 词项范围查询

用于查询包含某个范围内的词项的文档，如以字母开头a到c的词项。词项在反向索引中是排序的，只需指定的开始词项、结束词项，就可以查询该范围的词项。

如果是做数值的范围查询则用 PointRangeQuery

参数说明：

field：字段

lowerTerm：下边界词

upperTerm：上边界词

includeLower：是否包含下边界

includeUpper：是否包含上边界

示例：

// TermRangeQuery 词项范围查询
TermRangeQuery termRangeQuery = TermRangeQuery.newStringRange("name", "carbon", "张三", false, true);

PrefixQuery, WildcardQuery, RegexpQuery

PrefixQuery 前缀查询
查询包含以xxx为前缀的词项的文档，是通配符查询，如 app，实际是 app*
WildcardQuery 通配符查询
*表示0个或多个字符，?表示1个字符，\是转义符。通配符查询可能会比较慢，不可以通配符开头（那样就是所有词项了）
RegexpQuery 正则表达式查询
词项符合某正则表达式

这三种查询可能会比较慢，使用时要谨慎

示例：

// PrefixQuery 前缀查询
PrefixQuery prefixQuery = new PrefixQuery(new Term("name", "think"));

// WildcardQuery 通配符查询
WildcardQuery wildcardQuery = new WildcardQuery(new Term("name", "think*"));

// WildcardQuery 通配符查询
WildcardQuery wildcardQuery2 = new WildcardQuery(new Term("name", "厉害了???"));

// RegexpQuery 正则表达式查询
RegexpQuery regexpQuery = new RegexpQuery(new Term("name", "厉害.{4}"));

FuzzyQuery 模糊查询

简单地与索引词项进行相近匹配，允许最大2个不同字符。常用于拼写错误的容错：如把 “thinkpad” 拼成 “thinkppd”或 “thinkd”，使用FuzzyQuery 仍可搜索到正确的结果。

示例：

// FuzzyQuery 模糊查询
FuzzyQuery fuzzyQuery = new FuzzyQuery(new Term("name", "thind"));

FuzzyQuery fuzzyQuery2 = new FuzzyQuery(new Term("name", "thinkd"), 2);

FuzzyQuery fuzzyQuery3 = new FuzzyQuery(new Term("name", "thinkpaddd"));

FuzzyQuery fuzzyQuery4 = new FuzzyQuery(new Term("name", "thinkdaddd"));

数值查询

前提：查询的数值字段必须索引。

通过 IntPoint, LongPoint, FloatPoint, or DoublePoint 中的方法构建对应的查询。
以IntPoint为例：

示例：

// 精确值查询
Query exactQuery = IntPoint.newExactQuery("price", 1999900);

// 数值范围查询
Query pointRangeQuery = IntPoint.newRangeQuery("price", 499900,1000000);

// 集合查询
Query setQuery = IntPoint.newSetQuery("price", 1999900, 1000000, 2000000);

QuerParser查询解析器

用户的查询需求是多变的，我们无法事先知道，也就无法事先编写好构建查询的代码。不同的查询需求只是不同字段的不同基本查询的组合。

比如需求如下：

(name:“联想笔记本电脑” OR simpleIntro :“联想笔记本电脑”) AND type:电脑 AND price:[800000 TO 1000000]

用户的查询需求被很好的描述出来了，我们的搜索程序中得能解读这个描述，并把它转为对应的查询组合。这就是 QueryParser包的功能。

核心API：

Lucene QueryPaser包中提供了两类查询解析器：

传统的解析器：QueryParser、MultiFieldQueryParser

基于新的 flexible 框架的解析器：StandardQueryParser

QueryParser 传统解析器

单默认字段

// 使用的分词器
Analyzer analyzer = new IKAnalyzer4Lucene7(true);
// 要搜索的默认字段
String defaultFiledName = "name";
// 查询生成器（解析输入生成Query查询对象）
QueryParser parser = new QueryParser(defaultFiledName, analyzer);
// 通过parse解析输入，生成query对象
Query query1 = parser.parse(
		"(name:\"联想笔记本电脑\" OR simpleIntro:英特尔) AND type:电脑 AND price:999900");

MultiFieldQueryParser 传统解析器

多默认字段

// 传统查询解析器-多默认字段
String[] multiDefaultFields = { "name", "type", "simpleIntro" };
MultiFieldQueryParser multiFieldQueryParser = new MultiFieldQueryParser(multiDefaultFields, analyzer);
// 设置默认的组合操作，默认是 OR
multiFieldQueryParser.setDefaultOperator(Operator.OR);
Query query4 = multiFieldQueryParser.parse("笔记本电脑 AND price:1999900");

StandardQueryParser 新标准解析器

StandardQueryParser queryParserHelper = new StandardQueryParser(analyzer);
// 设置默认字段
// queryParserHelper.setMultiFields(CharSequence[] fields);
// queryParserHelper.setPhraseSlop(8);
// Query query = queryParserHelper.parse("a AND b", "defaultField");
Query query5 = queryParserHelper.parse(
	"(\"联想笔记本电脑\" OR simpleIntro:英特尔) AND type:电脑 AND price:1999900","name");

查询解析语法

Term词项

单个词项的表示：电脑
短语的表示：“联想笔记本电脑”
Field字段

示例1： name:“联想笔记本电脑” AND type:电脑
如果name是默认字段，则可写成： “联想笔记本电脑” AND type:电脑
示例2：type:电脑计算机手机
只有第一个是type的值，后两个则是使用默认字段。
Term Modifiers 词项修饰符

通配符
- ? 单个字符
- 0个或多个字符
- 示例：te?t test* te*t
- 注意：通配符不可用在开头。
模糊查询
- 示例： roam~
- 模糊查询最大支持两个不同字符。
- 示例： roam~1
正则表达式
- /xxxx/
- 示例：/[mb]oat/
临近查询
- 短语后加~移动值
- 示例：“jakarta apache”~10
范围查询
- mod_date:[20020101 TO 20030101] 包含边界值
- title:{Aida TO Carmen} 不包含边界值
词项加权
- 使该词项的相关性更高，通过 ^数值来指定加权因子，默认加权因子值是1
- 示例：如要搜索包含 jakarta apache 的文章，jakarta更相关，则：jakarta^4 apache
- 短语也可以： “jakarta apache”^4 “Apache Lucene”
布尔操作符

Lucene支持的布尔操作： AND, “+”, OR, NOT ,"-"
OR：“jakarta apache” jakarta 等同于 “jakarta apache” OR jakarta
AND：“jakarta apache” AND “Apache Lucene”
+：表示必须包含，+jakarta lucene
NOT：非，“jakarta apache” NOT “Apache Lucene”，NOT不能单独使用，如NOT "Apache Lucene"是不行的
-：同NOT，“jakarta apache” - “Apache Lucene”
组合

字句组合：(jakarta OR apache) AND website
字段组合：title:(+return +“pink panther”)
转义 \

对语法字符： + - && || ! ( ) { } [ ] ^ “ ~ * ? : \ / 进行转义。
如要查询包含 (1+1):2，则使用转义(1+1):2

总结

查询字符串应是由人输入的，而不应是你编程产生。如果你为了用查询解析器，而在你的应用中编程产生查询字符串，不可取，更应该直接使用基本查询API;

未分词的字段，应直接使用基本查询API加入到查询中，而不应使用查询解析器；

对于普通文本字段，使用查询解析器，而其他值字段：如时间、数值，则应使用基本查询API

算法在各领域的广泛应用：100 个实例全解析软件职业规划 AI&模型算法
一、互联网与信息技术领域搜索引擎算法：如谷歌的PageRank算法，用于根据网页的重要性和相关性对搜索结果进行排序，帮助用户快速找到所需信息。推荐系统算法：例如亚马逊和Netflix使用的协同过滤算法。根据用户的历史行为（购买、观看记录等）和其他相似用户的偏好，为用户推荐可能感兴趣的产品或内容。社交网络分析算法：用于分析社交网络中的用户关系，如Facebook通过算法发现用户的好友推荐、社区划分等
springboot 整合 elk （Elasticsearch+Logstash+Kibana）高大王竟然被注册 spring 运维
Elasticsearch是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。Logstash是一个完全开源的工具，他可以对你的日志进行收集、过滤，并将其存储供以后使用（如，搜索）。Kibana也是一个开源和免费的工具，它Kibana可以为Logstash和ElasticSearch提供的日志分析友好的Web界
信息检索系统评估指标的层级分析：从单点精确度到整体性能度量人工智能深度学习llm检索系统
在构建搜索引擎系统时，有效的评估机制是保证系统质量的关键环节。当用户输入查询词如"machinelearningtutorialspython"，系统返回结果列表后，如何客观评估这些结果的相关性和有效性？这正是信息检索评估指标的核心价值所在。分析用户与搜索引擎的交互模式，我们可以观察到以下行为特征：用户主要关注结果列表的前几项对顶部结果的关注度显著高于底部结果用户基于多次搜索体验形成对搜索系统整体
泛目录程序：站群策略在SEO优化中的优势与应用奥顺互联_老张站群 php 数据库缓存搜索引擎
泛目录程序案例：站群策略在SEO优化中的优势与应用引言在当今竞争激烈的互联网环境中，搜索引擎优化（SEO）已成为企业提升在线可见性和流量的关键策略。泛目录和站群作为SEO优化中的两种重要策略，近年来备受关注。本文将通过具体案例，深入探讨这两种策略在SEO优化中的优势与应用。一、泛目录的定义与优势1.1泛目录的定义泛目录是指通过创建大量内容相关、结构相似的目录页面，覆盖广泛的搜索关键词，从而提升网站
SEO 优化前端岳大宝前端核心知识总结前端 html
以下是SEO（搜索引擎优化）的基础知识点梳理，从前端技术、内容策略到搜索引擎原理，覆盖核心优化方向：一、SEO基础概念定义与目标SEO是通过优化网站结构、内容和技术，提升网站在搜索引擎自然搜索结果中的排名，吸引更多免费流量。核心目标：满足用户搜索意图，同时符合搜索引擎爬虫的抓取规则。搜索引擎工作原理爬取（Crawling）：搜索引擎蜘蛛（如Googlebot）抓取网页内容。索引（Indexing）
HTML标记语言＜head＞中的几个元素 2301_79698214 html 前端
在HTML文档中，部分包含了文档的元数据（metadata），这对于网页的正确显示和搜索引擎优化（SEO）非常重要。部分通常包含以下几个重要的元素：：定义了网页的标题，这个标题会显示在浏览器的标题栏或页面的标签上。例如：我的网页：用于定义网页的元数据，如字符集、页面描述、关键词、作者、视口设置等。例如：：用于链接外部资源，如CSS文件、图标（favicon）等。例如：：用于直接在文档中嵌入CSS样
文件关键字搜索技术要点与实战体制教科书
本文还有配套的精品资源，点击获取简介：在IT行业中，能够通过输入关键字高效定位和管理大量文档是一项重要的技能。此功能通常集成于文件管理软件、搜索引擎或脚本程序中。技术实现包括文件系统API、文本搜索算法和文件过滤规则。本文将详细介绍这些技术要点，例如使用文件系统API遍历文件、采用高效文本搜索算法（如Boyer-Moore）以及应用文件过滤规则（包括类型筛选和正则表达式匹配）。特殊文件格式如Out
Python 爬虫基础教程盛子涵666 python 爬虫开发语言
爬虫的背景与应用诞生爬虫（WebCrawling）是自动化程序，用于从互联网上获取信息。爬虫的基本任务是自动访问网站，通过抓取网页内容并提取有用数据来构建数据库、索引或者进行进一步的数据分析。爬虫通常会模拟浏览器的行为，以避免被服务器识别为机器人，并且能够在大规模范围内高效地抓取信息。爬虫技术最早由搜索引擎开发者提出，目的是自动收集网页信息并将其索引，便于用户搜索时快速检索相关内容。随着互联网的快
爬虫的精准识别：基于 User-Agent 的正则实现 Small踢倒coffee_氕氘氚经验分享笔记
##摘要随着互联网技术的飞速发展，网络爬虫在数据采集、搜索引擎优化等领域的应用日益广泛。然而，恶意爬虫的存在也给网站安全和数据隐私带来了严重威胁。因此，精准识别爬虫行为成为网络安全领域的重要课题。本文提出了一种基于User-Agent正则表达式的爬虫识别方法，通过分析User-Agent字符串的特征，构建正则表达式规则，实现对爬虫的精准识别。实验结果表明，该方法具有较高的识别准确率和较低的误报率，
Java线程协作式中断机制超人汪小建(seaboat) 线程协作式中断机制 jvm
跟着作者的65节课彻底搞懂Java并发原理专栏，一步步彻底搞懂Java并发原理。作者简介：笔名seaboat，擅长工程算法、人工智能算法、自然语言处理、计算机视觉、架构、分布式、高并发、大数据和搜索引擎等方面的技术，大多数编程语言都会使用，但更擅长Java、Python和C++。平时喜欢看书写作、运动、画画。崇尚技术自由，崇尚思想自由。出版书籍：《Tomcat内核设计剖析》、《图解数据结构与算法》
美司法部考虑分拆谷歌：美国司法部在谷歌垄断在线搜索市场后，正在考虑的惩罚谷歌选择中，包括将谷歌分拆这种罕见的举措。百态老人笔记
1.案件背景与起因1.1美国司法部对谷歌提起诉讼美国司法部对谷歌提起诉讼的背景是该公司在在线搜索市场的主导地位引起了反垄断的担忧。司法部认为谷歌通过排他性协议和财务激励手段，限制了其他搜索引擎的发展空间，从而损害了市场竞争。诉讼时间：诉讼始于2020年，由美国司法部联合52个州及司法辖区的检察长共同发起。诉讼焦点：主要聚焦于谷歌与设备制造商、无线服务商等签订的独家协议，这些协议使谷歌搜索成为默认选
AI编程方法第二弹：边提问边调整 leeshuqing AI编程 AI编程
AI编程的提问词非常类似于传统搜索引擎中的检索词，虽然采取了自然语言表示，但是在获取结果的策略上却很一致。因为用户在一开始可能并不非常清楚AI编程工具如何理解用户的提问，因此输出结果可能并不能完全满足用户要求，此时用户可以不断的根据生成结果，动态的灵活的调整提问，使之不断趋近于自己满意的结果。比如，对于“Python”等任意英文单词，允许用户指定总宽度后，通过自动填充空格，使之总宽度尽可能等于该宽
网站外链影响网站排名吗为什么霏霏看世界搜索引擎百度百度小程序百度云算法
权重传递：搜索引擎认为，如果一个网站被其他高质量、权威的网站所链接，就像是获得了这些网站的“信任投票”。高质量的外链能够将一部分权重传递给目标网站，提升其在搜索引擎眼中的重要性和可信度，从而有助于提高排名。例如，在学术领域，一篇论文被众多知名学术期刊引用，那么这篇论文的学术价值和影响力就会被认可，类似地，网站获得权威网站的外链，也会被搜索引擎认为更有价值。www.czyhjy.cn增加爬行入口：搜
【爬虫实战】python入门爬取猫眼电影排行进击的C语言爬虫自动化网络
爬虫爬虫概述应用场景：1、抓取特定网站或应用的内容，提取出有价值的信息。2、模拟用户在浏览器或应用中的操作，实现自动化流程。爬虫是什么专业术语：网络爬虫（又称网页蜘蛛、网络机器人）网络爬虫是一种自动按照特定规则抓取网页信息的程序或脚本。爬虫起源随着网络的迅猛发展，万维网成为海量信息的载体，如何有效地提取和利用这些信息成为一项巨大挑战。搜索引擎如Yahoo、Google、百度等，作为帮助人们检索信息
分布式系统架构设计原理与实战：理解并使用分布式搜索引擎 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍在当代互联网时代，随着互联网的迅速发展、信息量的爆炸性增长，人们对获取新信息的渠道越来越多，需要快速而准确地检索信息。基于这一需求，许多网站都提供搜索功能。目前，搜索引擎服务主要由传统的基于数据库检索技术向云端托管的检索服务器和搜索引擎框架组成。由于传统的基于数据库检索方式具有很高的查询效率，因此可以满足一般用户的搜索需求；但是，对于一些高级的功能要求或是特
MindSearch: 革新人工智能搜索引擎的未来 2401_87189860 人工智能搜索引擎
MindSearch:革新人工智能搜索引擎的未来在人工智能和大语言模型快速发展的今天,搜索引擎领域正迎来新的变革。由上海人工智能实验室开发的MindSearch项目,正是这场变革中的佼佼者。MindSearch是一个开源的AI搜索引擎框架,它通过模仿人类思维过程,为用户提供深度的AI搜索能力。本文将深入探讨MindSearch的特点、工作原理以及它对未来搜索技术的影响。MindSearch的核心特
Scira：极简AI驱动搜索引擎开源项目精选人工智能
Scira（原名MiniPerplx）是一款极简的AI驱动搜索引擎，可帮助您在互联网上查找信息。它由VercelAISDK提供支持，并可使用Grok2.0等模型进行搜索。Stars数7,186Forks数845主要特点AI驱动的智能搜索：借助Anthropic的模型，快速获取问题的答案，让搜索变得更加智能化。网页搜索：使用Tavily的API来进行高效的网页搜索，无需额外的插件即可快速得到网页内容
9.3 智谱AI大模型生态爆发！中文准确率89.2%+代码生成67.3%，全面碾压GPT-4！少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力人工智能语言模型 gpt
智谱AI大模型生态爆发！中文准确率89.2%+代码生成67.3%，全面碾压GPT-4！1.WebGLM：联网检索增强大模型智谱AI于2022年推出的WebGLM是基于GLM-10B打造的检索增强生成（RAG）模型，其创新性地将大语言模型与搜索引擎深度整合，构建了独特的四阶段处理架构：
使用OpenAI API实现自然语言处理应用 shuoac 自然语言处理人工智能 python
使用OpenAIAPI实现自然语言处理应用技术背景介绍随着人工智能技术的不断发展，自然语言处理（NLP）在各种应用中的地位越来越重要。从自动文本生成、聊天机器人到智能搜索引擎，NLP技术的应用场景非常广泛。而OpenAI提供的API使得开发者可以轻松地将先进的NLP模型集成到他们的应用中。核心原理解析OpenAI的API基于强大的GPT（GenerativePre-trainedTransform
使用Vespa进行高级检索与向量数据库管理 scaFHIO 数据库 python
技术背景介绍在现代信息检索领域，为了提供精准且高效的搜索体验，往往需要结合使用向量搜索（ANN）、词法搜索以及结构化数据搜索。Vespa作为一个功能完备的搜索引擎与向量数据库，为我们提供了一站式的解决方案。本文将详细介绍如何使用Vespa进行高级检索，并通过代码示例展示其实际应用。核心原理解析Vespa具备以下核心功能：向量搜索（ANN）：基于向量空间的近似最近邻搜索，提高了高维数据检索的效率。词
selectdataset 发布2024最热门Top100数据集数据集
遇见数据集索引了国内外的大部分网站。首页有最新的数据集推荐：GitHub、HuggingFace、arXiv这些热门站点，都属于日级别的更新。这个站点是从搜索引擎方面去监控最新的数据集，大家如果有关注某个一个特点领域或话题的更新，可以关注这个站点：遇见数据集-让每个数据集都被发现，让每一次遇见都有价值。遇见数据集，领先的千万级数据集搜索引擎，实时追踪全球数据集，助力把握数据要素市场。https:/
Elasticsearch（ES）详解：从入门到实践坚持蛊 elasticsearch jenkins 大数据
引言简介：Elasticsearch是一个基于Lucene的分布式搜索引擎，具有高效的全文搜索功能，广泛应用于日志分析、搜索引擎、实时数据处理等领域。本文目标：介绍Elasticsearch的基本概念、架构设计、配置优化、常见应用以及实际案例，帮助开发者掌握ES1.Elasticsearch概述Elasticsearch的背景和发展历程核心功能：全文检索、分布式搜索、实时数据分析主要应用场景：日志
Shodan的概述与安装耶耶Norsea Shodan 安全 web安全 python
一、Shodan简述Shodan是一个独特的网络搜索引擎，它专门针对互联网上的设备进行不间断扫描，并将扫描结果存储起来，供用户检索。这使得Shodan能够快速搜索到网络中的各种设备和服务，例如Web服务器、路由器、摄像头、物联网设备等，甚至包括某些已知漏洞的暴露设备。Shodan的主要用途：设备搜索：通过Shodan，你可以搜索到全球范围内连接到互联网的各种设备，如企业服务器、摄像头、智能家居设备
Elasticsearch 入门教学：从零开始掌握分布式搜索引擎格子先生Lab 搜索引擎 elasticsearch 分布式
引言Elasticsearch是一个开源的分布式搜索引擎，基于ApacheLucene构建，能够实现近乎实时的数据搜索和分析。它广泛应用于日志分析、全文搜索、数据可视化等场景。本文将带你从零开始学习Elasticsearch，掌握其基本概念、安装配置、数据操作及搜索功能。1.Elasticsearch简介1.1什么是Elasticsearch？Elasticsearch是一个分布式的RESTful
程序员必看！DeepSeek隐藏用法大揭秘：从代码优化到多模态开发，这些技巧让你少熬三夜班后端
最近在程序员圈子里，有个同事老张的故事特别火。他原本每周要花20小时写接口文档，自从用上DeepSeek的代码补全功能，现在喝着咖啡看AI自动生成Swagger注释——这让我想起刚入行时，为了调通一个正则表达式熬夜到凌晨三点的自己。今天咱们不聊那些官方说明书，就说点真正能让键盘冒火星的实战技巧。藏在代码补全里的"作弊码"很多人以为DeepSeek就是个加强版搜索引擎，其实它对代码的理解远超想象。比
基于Linux环境部署和使用ElasticSearch搜索引擎探模之翼数据库搜索引擎 linux elasticsearch 向量数据库多模态检索
目录一.Elasticsearch基础介绍二.Docker部署单节点ElasticSearch1.环境配置2.创建数据目录3.创建ES自定义配置文件4.启动ElasticSearch服务5.验证服务三.DockerCompose部署单节点ElasticSearch1.环境配置2.创建docker-compose.yml3.创建配置文件elasticsearch.yml4.启动ElasticSear
程序员如何利用 AI 辅助编程，提升效率并摆脱 996 fxrz12 AI 人工智能
——从AI编程助手到高效提示词技巧在过去，程序员遇到问题时，会优先选择Google、StackOverflow、必应、百度等搜索引擎。然而，AI的崛起正在改变这一模式。越来越多的IT人开始直接向AI询问问题，而不再只是搜索代码片段。如何有效地向AI提问，写出精准的Prompt（提示词），决定了AI能否真正成为你的高效助手。本文将探讨如何利用AI提升编程效率，并深入讲解如何向AI提问，以便获得最佳答
SEO完全指南：从原理到实战的搜索引擎优化手册前端seo
1.什么是SEO？1.1定义解析SEO（搜索引擎优化）是通过技术手段和内容策略提升网站在搜索引擎自然搜索结果中排名的过程。它融合了：️技术优化（网站架构/加载速度）内容优化（高质量原创内容）用户体验优化（导航/界面设计）外部优化（高质量外链建设）1.2SEO的多层次目标SEO的目标远不止提高排名和流量:提高质量流量:不仅是增加访问量,更重要的是吸引真正对你的产品或服务感兴趣的用户。提升转化率:通过
基于java的搜索引擎系统设计与实现助力毕业搜索引擎 java 数据库
基于java的搜索引擎系统设计与实现I.引言A.研究背景和动机基于Java的搜索引擎系统设计与实现的研究背景和动机是构建一个高效、准确、安全的搜索引擎系统。随着互联网的普及，搜索引擎已经成为了人们获取信息的主要方式之一。但是，现有的搜索引擎系统还存在一些问题，比如搜索结果的准确性、搜索速度的快慢、搜索结果的可靠性等。为了解决这些问题，需要开发一个高效、准确、安全的搜索引擎系统。本文将介绍基于Jav
程序员如何用DeepSeek提升开发效率？这些隐藏技巧让你少走弯路后端
昨天凌晨三点，我盯着屏幕上死活调不通的接口文档，咖啡杯在桌角堆成金字塔。就在即将砸键盘的前一刻，突然想起同事老王推荐的DeepSeek。没想到这个看似普通的工具，竟让我半小时就定位到了跨域请求的配置错误。看着窗外泛起鱼肚白的天际线，突然意识到——程序员与Bug的战争，可能就差一个好工具的距离。很多新手容易把DeepSeek当作高级版搜索引擎，其实它的代码理解能力堪比资深架构师。上周帮实习生小张排查
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end