zhangzujun

使用hibernate search和solr简化企业级搜索

最近刚忙完一个电影网站，其中的全文搜索的功能我就是用Solr完成的，在此将我在开发中遇到的问题以及怎样解决问题的经验拿出来与大家分享。

    我们这个网站有一个站内搜索的功能，例如站内新闻，输入关键字去搜索。数据库里有上万条数据，如果去挨个like，效率会很低，经领导指点，说可以试一试 HibernateSearch和Apache solr结合mmseg4j分词进行全文检索，于是我就开始我的Solr之旅。
    一开始在网上搜了很多例子拿来入门，首先是分词，mmseg4j是用来分词的，常用的分词分析器有三种：MaxWordAnalyzer（最大分词），SimpleAnalyzer（简单的），ComplexAnalyzer（复杂的），最开始我用的是ComplexAnalyzer，看上去很不错，后来遇到了个小问题，例如“吴宇森吃羊肉串”，经过ComplexAnalyzer分分词后，用Solr去搜“吴宇森”会返回想要的结果，但是“吴宇”去搜什么也没返回。这是一个让人很头疼的问题，于是我试验了MaxWordAnalyzer，发现“吴宇”，“吴宇森”都能返回正确的结果，这才是我们想要的。
    一段测试例子，大家可以拿去试一下MaxWordAnalyzer，SimpleAnalyzer，ComplexAnalyzer之间的区别。

Java代码

import java.io.IOException;
import junit.framework.TestCase;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;
import com.chenlb.mmseg4j.analysis.MaxWordAnalyzer;
public class LuceneUseSimpleAnalyzerTest extends TestCase {
Directory dir;
Analyzer analyzer;
@Override
protected void setUp() throws Exception {
String txt = "吴宇森吃羊肉串";
//analyzer = new SimpleAnalyzer();
//analyzer = new ComplexAnalyzer();
//分词分析器
analyzer = new MaxWordAnalyzer();
//内存索引对象
dir = new RAMDirectory();
IndexWriter iw = new IndexWriter(dir, analyzer);
Document doc = new Document();
//Field.Store.YES表示在索引里将整条数据存储
doc.add(new Field("txt", txt, Field.Store.YES, Field.Index.ANALYZED));
iw.addDocument(doc);
iw.commit();
iw.optimize();
iw.close();
}
public void testSearch() {
try {
//实例化搜索器
IndexSearcher searcher = new IndexSearcher(dir);
//构造Query对象
QueryParser qp = new QueryParser("txt", analyzer);
Query q = qp.parse("吴宇森");
System.out.println(q);
//搜索相似度最高的10条
TopDocs tds = searcher.search(q, 10);
//命中的个数
System.out.println("======size:" + tds.totalHits + "========");
//输出返回结果
for (ScoreDoc sd : tds.scoreDocs) {
System.out.println(sd.score);
System.out.println(searcher.doc(sd.doc).get("txt"));
}
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (ParseException e) {
e.printStackTrace();
}
}
}

import java.io.IOException;

import junit.framework.TestCase;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;

import com.chenlb.mmseg4j.analysis.MaxWordAnalyzer;

public class LuceneUseSimpleAnalyzerTest extends TestCase {

	Directory dir;
	Analyzer analyzer;

	@Override
	protected void setUp() throws Exception {
		String txt = "吴宇森吃羊肉串";
		//analyzer = new SimpleAnalyzer();   
		//analyzer = new ComplexAnalyzer();
		//分词分析器
		analyzer = new MaxWordAnalyzer();
		//内存索引对象
		dir = new RAMDirectory();
		IndexWriter iw = new IndexWriter(dir, analyzer);
		Document doc = new Document();
		//Field.Store.YES表示在索引里将整条数据存储
		doc.add(new Field("txt", txt, Field.Store.YES, Field.Index.ANALYZED));
		iw.addDocument(doc);
		iw.commit();
		iw.optimize();
		iw.close();
	}

	public void testSearch() {
		try {
			//实例化搜索器
			IndexSearcher searcher = new IndexSearcher(dir);
			//构造Query对象
			QueryParser qp = new QueryParser("txt", analyzer);
			Query q = qp.parse("吴宇森"); 
			System.out.println(q);
			//搜索相似度最高的10条
			TopDocs tds = searcher.search(q, 10);
			//命中的个数
			System.out.println("======size:" + tds.totalHits + "========");
			//输出返回结果
			for (ScoreDoc sd : tds.scoreDocs) {
				System.out.println(sd.score);
				System.out.println(searcher.doc(sd.doc).get("txt"));
			}
		} catch (CorruptIndexException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} catch (ParseException e) {
			e.printStackTrace();
		}
	}

}

可见mmseg4j是以非常灵活的分词工具而且分词速度也很快，2.5M的长篇小说用Complex模式是5.3秒左右，用Simple模式是2.9秒左右，好的，分词搞定了。再提一点，如何将mmseg4j应用到我们的Entity上的，我用的是元数据声明的方式：

Java代码

@Field(name = "newsTitle", store = Store.YES, index = Index.TOKENIZED, analyzer = @Analyzer(impl = MaxWordAnalyzer.class))
private String title;
@Field(name = "newsSummary", store = Store.YES, index = Index.TOKENIZED, analyzer = @Analyzer(impl = MaxWordAnalyzer.class))
private String summary;
@Field(name = "newsPublishedTime", store = Store.YES, index = Index.TOKENIZED, analyzer = @Analyzer(impl = MaxWordAnalyzer.class))
private Date publishedTime;

@Field(name = "newsTitle", store = Store.YES, index = Index.TOKENIZED, analyzer = @Analyzer(impl = MaxWordAnalyzer.class)) 
private String title;
	
@Field(name = "newsSummary", store = Store.YES, index = Index.TOKENIZED, analyzer = @Analyzer(impl = MaxWordAnalyzer.class)) 
private String summary;
	
@Field(name = "newsPublishedTime", store = Store.YES, index = Index.TOKENIZED, analyzer = @Analyzer(impl = MaxWordAnalyzer.class))
private Date publishedTime;

这里面的name = "newTitle"，name = "newsSummry"，是生成索引的名称，同时还要在Solr的schema.xml里定义与之相对应的field：

Xml代码

<field name="newsTitle" type="textMax" indexed="true" stored="true"/>
<field name="newsSummary" type="textMax" indexed="true" stored="true"/>
<field name="newsPublishedTime" type="date" indexed="true" stored="true" default="NOW" multiValued="false"/>

<field name="newsTitle" type="textMax" indexed="true" stored="true"/>
<field name="newsSummary" type="textMax" indexed="true" stored="true"/>
<field name="newsPublishedTime" type="date" indexed="true" stored="true" default="NOW" multiValued="false"/>

说到这，再提一下如何将集合建立索引以及配置，例如OneToMany，首先在一的一端进行声明：

Java代码

@IndexedEmbedded
private Set<PlotKeyword> plotKeywords = new HashSet<PlotKeyword>(); //关键词联想

@IndexedEmbedded
private Set<PlotKeyword> plotKeywords = new HashSet<PlotKeyword>(); //关键词联想

然后在多的一端指定到底是哪一个字段建立索引：

Java代码

@Field(store = Store.YES, index = Index.TOKENIZED, analyzer = @Analyzer(impl = MaxWordAnalyzer.class))
private String summary;

@Field(store = Store.YES, index = Index.TOKENIZED, analyzer = @Analyzer(impl = MaxWordAnalyzer.class))
private String summary;

在这里你可以不给你的索引字段加name，默认会在索引库里有name="plotKeywords.summary"这样一个索引名称，同时也不要忘记在Solr的schema.xml里定义与之相对应的field：

Xml代码

<field name="plotKeywords.summary" type="textMax" indexed="true" stored="true"/>

<field name="plotKeywords.summary" type="textMax" indexed="true" stored="true"/>

type="textMax" ，对应schema.xml里的：

Xml代码

<fieldType name="textMax" class="solr.TextField" positionIncrementGap="100" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="D:/data/dict"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

<fieldType name="textMax" class="solr.TextField" positionIncrementGap="100" >  
	<analyzer>  
	        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="D:/data/dict"/>  
	        <filter class="solr.LowerCaseFilterFactory"/>  
	</analyzer>  
</fieldType>

dicPath="D:/data/dict"是词库的路径，如果我们用的是MaxWordAnalyzer进行的分词，那么为了保证Solr能搜到我们想要的结果，必须在schema.xml里配置上面一段fieldType，指定mode="max-word"，这样Solr就会按照最大分词去给我们返回与之相对应的结果，“吴宇”，“吴宇森”，都会返回结果。

如何将Solr集成到我们的项目中呢？很简单，就拿Tomcat举例，解压Solr，将..\apache-solr-1.3.0\example \solr 文件夹拷贝到Tmocat的bin文件夹下，配置schema.xml上面提到了，还有索引库路径，在solrconfig.xml里配置：

Xml代码

<dataDir>${solr.data.dir:D:/data/index}</dataDir>

<dataDir>${solr.data.dir:D:/data/index}</dataDir>

然后在web.xml里面配置Solr的SolrDispatchFilter：

Xml代码

<filter>
<filter-name>SolrRequestFilter</filter-name>
<filter-class>org.apache.solr.servlet.SolrDispatchFilter</filter-class>
</filter>
<filter-mapping>
<filter-name>SolrRequestFilter</filter-name>
<url-pattern>/*</url-pattern>
</filter-mapping>

<filter>
     <filter-name>SolrRequestFilter</filter-name>
     <filter-class>org.apache.solr.servlet.SolrDispatchFilter</filter-class>
</filter>

<filter-mapping>
     <filter-name>SolrRequestFilter</filter-name>
     <url-pattern>/*</url-pattern>
</filter-mapping>

在这里就不提引入的第三方jar文件，可以参考Solr文档。要注意的是HibernateSearch结合mmseg4j分词时候，我们用到了自己的词库，需要指定一个虚拟机参数：-Dmmseg.dic.path=d:/data/dict，在这里我们将分词用到的词库放到了d:/data /dict，有可能词库过大造成虚拟机内存溢出，还要加参数： -Xmx256m -Xmx512m。就这样Solr就集成到我们的项目中了，而且HibernateSearch帮我们管理了索引库，增加，删除，还有修改没有个被索引的字段，HibernateSearch都会帮我们同步索引库。

Solr的查询语法很灵活，大家可以参考官方文档，在这里我要提一下查询or和and，Solr默认的配置是or，在schema.xml里：

Xml代码

<solrQueryParser defaultOperator="OR"/>

<!-- SolrQueryParser configuration: defaultOperator="AND|OR" -->
 <solrQueryParser defaultOperator="OR"/>

如果想用到and，还有一种方式在Url里指定参数fq，过滤条件，例如：q=kaka&fq=age:[15 to 20],搜索条件是kaka，并且age是15到20岁之间。

Solr支持很多种查询输出格式，用参数wt指定，有xml, json, php, phps，我这里用到了json。一段JavaScript供大家参考：

Js代码

$.ajax({
type: "post",//使用post方法访问后台
dataType: "json",//返回json格式的数据
url: "/select/",//要访问的后台地址
data: "q=" + keywords + "&start=" + 0 + "&rows=" + 5 + "&indent=" + "on" + "&wt=" + "json" + "&sort=" + "newsPublishedTime asc",//要发送的数据
success: function(j) {//msg为返回的数据，在这里做数据绑定
var docs = j.response.docs;
for (var i=0; i<docs.length; i++) {
var date = docs[i].newsPublishedTime;
var title = docs[i].newsTitle;
var summary = docs[i].newsSummary;
}
}
});

$.ajax({
     type: "post",//使用post方法访问后台
    dataType: "json",//返回json格式的数据
    url: "/select/",//要访问的后台地址
    data: "q=" + keywords + "&start=" + 0 + "&rows=" + 5 + "&indent=" + "on" + "&wt=" + "json" + "&sort=" + "newsPublishedTime asc",//要发送的数据
    success: function(j) {//msg为返回的数据，在这里做数据绑定
         var docs = j.response.docs;
              for (var i=0; i<docs.length; i++) {
                     var date = docs[i].newsPublishedTime;
                     var title = docs[i].newsTitle;
                     var summary = docs[i].newsSummary;
              }
       }
});

一切都顺利进行，但是马上就遇到了一个新问题，重建索引后Solr也必须重新拿启动，要么Solr不会用最新的索引库，Solr有自己的缓存，这个很让让人头疼，如果删除一条数据，HibernateSearch会帮我们同步索引库，但是Solr的缓存还是缓存之前没有删除的数据。我试图通过配置文件不用 Solr的缓存，但是没有效果，根据官方文档上说的意思是：Solr的缓存是干不掉的。这绝对不是我们想要的结果，但是最后还是解决了，在 sorlconfig.xml里配置：

Xml代码

<requestHandler name="/update" class="solr.XmlUpdateRequestHandler" />

<requestHandler name="/update" class="solr.XmlUpdateRequestHandler" />

然后访问/update?commit=true,Solr就会放弃之前的缓存，去重新检索我们的索引库建立新的缓存，这正是我们想要的结果。

力扣 hot100 Day24
240.搜索二维矩阵II编写一个高效的算法来搜索mxn矩阵matrix中的一个目标值target。该矩阵具有以下特性：每行的元素从左到右升序排列。每列的元素从上到下升序排列。//看提示写的classSolution{public:boolsearchMatrix(vector>&matrix,inttarget){intm=matrix.size(),n=matrix[0].size();intr
告别迷茫：测试新人入职第一年的生存与进阶指南 996小白的进阶路软件测试测试新人职业规划自动化测试避坑指南
摘要：恭喜你踏入软件测试的行列！初入职场，面对全新的环境、海量的业务知识和技术术语，你是否感到一丝兴奋，又夹杂着些许迷茫？本文将为你梳理入职后黄金6-12个月的学习路线图，并点出那些常见的“坑”，助你平稳度过新手期，快速成长为团队中不可或缺的一员。前言“你好，我是新来的测试工程师。”当你向团队成员说出这句话时，一个充满挑战与机遇的职业生涯就此展开。测试工作绝非大家刻板印象中的“点点点”，它是一门需
windows安装ELK
ELK是什么？ELK是Elasticsearch、Logstash和Kibana三款开源软件的组合，主要用于日志收集、存储、分析和可视化。三款软件版本必须保持一致三款软件下载地址通过网盘分享的文件：elasticsearch-9.0.3-windows-x86_64.zip等3个文件链接:https://pan.baidu.com/s/16Y7T6TYIZZ4uAou4ZeoQ4w?pwd=e8x
Java 领域 Hibernate 的事务传播行为详解 Java大师兄学大数据AI应用开发 java hibernate 开发语言 ai
Java领域Hibernate的事务传播行为详解关键词：Hibernate、事务传播、Spring事务、PROPAGATION_REQUIRED、PROPAGATION_REQUIRES_NEW、事务隔离级别、数据库事务摘要：本文将深入探讨Hibernate框架中的事务传播行为机制。我们将从基础概念出发，详细解析七种标准的事务传播行为类型，包括REQUIRED、SUPPORTS、MANDATORY
ES中聚合查询之date_histogram查询出现key_as_string 和 key含义 gjh1208 #ES elasticsearch java
ES中聚合查询之date_histogram查询出现key_as_string和key含义DSL语句#实例GET/capture_features_202407/_search{"query":{"bool":{"must":[{"terms":{"plateNo":["汉A00001"]}},{"range":{"absTime":{"gte":"2024-07-1700:00:00","lt"
01.SpringBoot集成持久层框架MyBatis详细指南全栈凯哥全栈项目 spring boot mybatis 后端
文章目录1.MyBatis简介1.1什么是MyBatis？1.2MyBatis的核心特点1.3MyBatisvsJPA/Hibernate1.3.1MyBatis的优势1.3.2JPA/Hibernate的优势1.4MyBatis核心组件1.4.1SqlSessionFactory1.4.2SqlSession1.4.3Mapper接口1.4.4Configuration2.SpringBoot集
MyBatis初识：为什么选择它？双力臂404 mybatis基础 mybatis 开发语言
前言在Java持久层框架的江湖中，MyBatis像一位特立独行的侠客——它既不像JDBC那样需要开发者赤手空拳打天下，也不似Hibernate般用ORM大法将SQL完全封装。这种"中间派"的定位，恰恰解决了开发者在两个极端之间的长期困扰。JDBC的"三座大山"//典型JDBC代码片段Connectionconn=null;PreparedStatementps=null;ResultSetrs=n
什么是神经网络架构搜索（NAS, Neural Architecture Search），如何写对应的python程序代码呢小桥流水---人工智能算法深度学习 Python程序代码神经网络架构 python
一、什么是神经网络架构搜索（NAS,NeuralArchitectureSearch）神经网络架构搜索（NAS,NeuralArchitectureSearch）是一种用于自动化设计神经网络架构的技术。传统的神经网络模型架构设计通常依赖于专家经验和大量试错，而NAS通过算法自动搜索网络架构，以发现最适合特定任务的神经网络设计。NAS可以极大地减少人工调参的时间和精力，并且在某些情况下能够找到比手工
推荐一个纯绿色无广告的H5游戏站 Think_2013 Web前端游戏娱乐游戏
纯绿色，连内嵌广告都已经去掉了，上班摸鱼最佳适合小伙伴偶尔娱乐一下Cubes2048-Free2048CubeGameOnline|Cubes2048由两个经典游戏贪吃蛇+2048改编融合而来贪吃蛇不用多说，大家都知道2048曾经也是风靡全球，简单但是又不简单的玩法吸引了很多用户主打休闲娱乐，同学们别上头哈点开即玩：Cubes2048-Free2048CubeGameOnline|Cubes204
解决 Spring Boot 对 Elasticsearch 字段没有小驼峰映射的问题大只鹅 spring boot elasticsearch 后端
场景重现在使用MyBatis/Mybatis-Plus框架对MySQL操作时习惯了字段名小驼峰映射，然而在操作Elasticsearch时发现字段名没有小驼峰映射。解决方法1.使用`ObjectMapper`手动转换：这是最直接也最常用的方法。在SpringBoot应用中使用`ObjectMapper`将从Elasticsearch获取的数据进行转换，将下划线命名转换为小驼峰命名。importco
Python 爬虫实战 | 国家医保一个不务正业的程序猿 Python 爬虫实战 python
一、国家医保1、目标网站网址：https://fuwu.nhsa.gov.cn/nationalHallSt/#/search/drug-directory目标数据：获取药品信息2、网站特点服务端返回加密数据，客户端发送请求携带的载荷也是加密的3、定位解密入口可以通过关键字encData来确定解密位置，但是，请求载荷也有这个关键字，直接搜关键字存在混淆，需要确认清楚是发送请求还是解析响应的逻辑。该
新华妙笔：AI智能写作助手，让高效写作触手可及东风西巷 AI写作 android 软件需求智能手机
在当今快节奏的时代，无论是职场人士、学生还是创作者，都面临着大量的写作任务。从工作总结、调研报告到公文写作、商业文案，高效且高质量的写作能力成为了提升个人竞争力的关键。然而，写作不仅需要丰富的知识储备和扎实的文字功底，还需要大量的时间和精力去打磨。为了帮助用户更高效地完成写作任务，新华妙笔APP应运而生。它是一款功能强大的AI智能写作助手，依托自然语言处理（NLP）和大数据分析技术，能够快速生成各
ELK日志分析系统搭建奔跑吧邓邓子高效运维 elk elasticsearch
目录一、ELK是什么？ElasticsearchLogstashKibana二、搭建ELK1.安装Elasticsearch2.安装Logstash3.安装Kibana三、配置实例1.将某个服务器某个目录下的日志收集到系统分析展示（1）修改logstash-sample.conf配置（2）配置Kibana一、ELK是什么？ELK是三个开源项目的首字母缩写，这三个项目分别是：Elasticsearc
按月设置索引名的完整指南：Elasticsearch日期索引实践少林码僧 elasticsearch jenkins 大数据
按月设置索引名的完整指南：Elasticsearch日期索引实践在时序数据场景中，按月设置索引名（如logs-2024-01）是优化查询效率、降低管理成本的关键策略。以下是三种实现方案及详细步骤：方案一：索引模板+日期数学表达式（推荐）原理：利用ES内置的日期数学表达式动态生成索引名，无需额外工具操作步骤：创建索引模板PUT_index_template/monthly_logs{"index_p
Elasticsearch索引模板：自动化索引管理搜索引擎技术搜索引擎实战 elasticsearch 自动化 jenkins ai
Elasticsearch索引模板：自动化索引管理关键词：Elasticsearch、索引模板、自动化管理、索引映射、索引设置、生命周期管理、数据建模摘要：本文深入解析Elasticsearch索引模板的核心原理与实践方法，通过系统化的步骤演示如何利用索引模板实现索引的自动化创建与统一管理。内容涵盖模板结构设计、映射与设置配置、动态字段处理、优先级策略、实战案例及最佳实践，帮助读者掌握高效管理大规
[探索Tavily Search API：为AI代理提供实时准确搜索的利器]
探索TavilySearchAPI：为AI代理提供实时准确搜索的利器引言在现代AI应用程序中，实时和准确的数据获取对AI代理（如大型语言模型）是至关重要的。TavilySearchAPI是一种专为AI代理设计的搜索引擎，提供实时、准确和事实性的搜索结果。本篇文章将详细介绍TavilySearchAPI的功能、集成方法与使用示例。主要内容TavilySearchAPI概述TavilySearchAP
【教程4＞第7章＞第26节】基于FPGA的RS(204,188)译码verilog实现10——RS译码模块整体实现与性能仿真评估 fpga和matlab #第7章·通信—信道编译码 fpga开发 RS verilog RS译码教程4
本课程学习成果预览目录1.软件版本2.RS译码模块整体实现介绍2.1伴随式计算（SyndromeCalculation）2.2擦除位置处理（ErasureHandling）2.3多项式乘法（PolynomialMultiplication）2.4欧几里得算法（EuclideanAlgorithm）2.5钱搜索（ChienSearch）3.RS译码模块整体FPGA实现4.RS译码仿真测试5.视频操作
超强文档搜索引擎AnyTXT Searcher本地搭建：实现高效文档管理辽宁统招专升本&单招升学肖老师 ChatGPT 人工智能技术指导搜索引擎
在数字化时代，文档管理成为了企业和个人不可或缺的一部分。如何快速、准确地找到所需的文档，成为了文档管理的关键。为此，强大的文档搜索引擎成为了必需品。然而，对于一些企业和个人而言，使用云端搜索引擎可能存在安全和隐私问题。此时，在本地搭建超强的文档搜索引擎成为了更好的选择。本文将介绍一款超强的文档搜索引擎——AnyTXTSearcher，并探讨如何在本地进行搭建。AnyTXTSearcher是一款功能
RediSearch 字段类型与配置选项 Hello.Reader 缓存技术人工智能数据库 redis lua 数据库缓存
1.数值字段（NUMERIC）用途：存储整数或浮点数，可进行范围查询与排序。选项：SORTABLE：允许用SORTBY排序NOINDEX：不参与索引，仅供返回定义语法FT.CREATEidxONHASHPREFIX1prod:SCHEMApriceNUMERIC[SORTABLE][NOINDEX]查询示例#查找price在200到300之间的文档FT.SEARCHidx"@price:[2003
精准定义 RediSearch 索引 Schema Hello.Reader 数据库缓存技术人工智能 django python 后端
一、Schema基础概念索引（Index）：对Redis中的Hash或JSON文档进行反向索引，以支持全文、标签、数值、地理、向量等多种查询模式。Schema：定义索引结构，包括哪些字段（fields/attributes）、字段类型、是否可排序、权重（relevanceweight）、过滤条件等。在执行FT.CREATE时，必须指定：数据类型：ONHASH或ONJSONKey前缀（可选）：PRE
论文检索相关网站
在B站或是别的地方搜索到查阅论文，检索资料的网站，方便自己下次查找论文1.中国知网检索-中国知网(cnki.net)2.Scopus.Scopuspreview-Scopus-欢迎使用Scopus3.谷歌学术evtol多旋翼-Google学术搜索4.WebofScienceDocumentSearch-AllDatabases(webofscience.com)5.IEEE工程IEEE-搜索结果6
一款功能强大的本地数据全文搜索引擎Anytxt Searcher AitTech 搜索引擎
AnytxtSearcher是一款功能强大的本地数据全文搜索引擎，它类似于本地磁盘的Google搜索引擎，是理想的桌面内容搜索工具。以下是关于AnytxtSearcher的详细介绍及使用方法：AnytxtSearcher是什么？AnytxtSearcher内置了一个功能强大的文档解析引擎，该引擎无需安装任何其他软件即可提取常用文档的文本，并结合内置的高速索引系统来存储文本的元数据。用户可以使用An
AnyTXT Searcher - 本地文档全文搜索的终极利器软件菜园子电脑人工智能服务器 ocr 娱乐
软件概述AnyTXTSearcher是一款功能强大的本地文档搜索工具，凭借其高效的文档解析引擎和智能索引系统，为用户提供了极速精准的全文搜索体验。虽然近期因系统问题无法进行完整测试，但其强大的功能特性已足够令人印象深刻。核心优势全格式支持支持超过15种常见文档格式的全文索引：Office系列：doc/docx/xls/xlsx/ppt/pptxWPS系列：wps/et/dps电子书：mobi/ep
抓大鹅教程电脑端秒通关…… 小黄编程快乐屋其他
大家好，我是小黄。最近抓大鹅小程序游戏很火，抓大鹅小游戏是由青岛蓝飞互娱科技股份有限公司开发并推出的一款休闲益智类三消游戏。在游戏中，玩家需要在特定的“购物篮子”背景下，找到三个相同的物品并将其消除。游戏的玩法简单有趣，因此风靡网络。玩法跟之前的羊了个羊类似。最近小黄也试着玩了一下，发现小黄实力有点差，不是在看广告就是在看广告的路上。越消除越觉得气人。所以，小黄给他上点科技，在进行科技之前我们需要
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？ SeaTunnel bug SeaTunnel 开源数据集成大数据
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
Elasticsearch性能调优金字塔：从分片与副本策略构建海量日志分析平台 lingRJ777 Java技术栈应用 java backend elasticsearch spring boot microservices elk
Elasticsearch性能调优金字塔：从分片与副本策略构建海量日志分析平台引言在当前的微服务架构体系中，一个复杂的业务流程往往会横跨数十甚至上百个服务。当线上出现问题时，如何从每天产生的TB级海量日志中快速定位根源，成为衡量系统可观测性的关键。传统的日志聚合方案在面对如此巨大的数据量时，普遍会遇到两大核心挑战：高并发写入瓶颈：数千个服务实例同时产生大量日志，要求日志系统具备极高的写入吞吐能力，
application.yml 文件配置解析前端小努力 spring boot
application.yml文件配置解析application.yml文件是SpringBoot应用程序中用于配置各种属性的主要文件之一。它可以配置的内容非常广泛，包括但不限于以下几类：服务器配置端口号服务器地址会话管理SSL配置数据源配置数据库URL用户名和密码JDBC驱动类名连接池配置JPA和Hibernate配置DDL自动更新策略SQL显示方言配置日志配置日志级别日志文件路径安全性配置基本
Elasticsearch分组后排序，并查询组数量 Gzzz__ Elasticsearch elasticsearch java 大数据
项目场景：Elasticsearch分组后，根据分组后的数量排序，并查询分组后的组数量，通过DSL和javaAPI两种方式解决方案：示例：在单据表中，查询2022-01-19当天每个人提交的单据数量，从高到低排序，并查询提交过单据的总人数。期望实现的SQLselectId,count(Id)ascfromuserbillwheretype='bill'andcreateTime>='2022-01
两个Adobe高效技巧与设计师创意思维的进阶指南 reddingtons adobe illustrator photoshop 人工智能 AfterEffects 设计师设计规范
作为一名在全球多个城市旅居十年的职业设计师，我依托英国ParvisSchoolofEconomicsandMusic提供的Adobe正版教育订阅，积累了丰富的设计经验。今天，我想以更贴近你的视角，分享两个Adobe系列软件的实用技巧，以及一个激发创意的工作方法。这些技巧和方法不仅来自我的实践，还融入了全球顶尖设计师和多媒体创作者的智慧，希望能为你的设计之路点亮一盏灯。主体：高效技巧与职场故事技巧一
写代码写到 60 岁：我是如何重新定义技术人生的十步杀一人_千里不留行程序人生
我44岁，写了10年Java，现在在新西兰职场从头来过。曾经我也焦虑：“是不是到了这个年龄就该转管理？”但现在我清楚地知道，我依然热爱写代码，而且我可以一直写下去，只要我用对了方法、站稳了定位。我不想当CTO，我只想踏实交付系统这几年，我不断在Java、C#、React、.NET、前端、后端、移动端、AI等各种技术栈之间“穿梭”，有些是项目需要，有些是自学试验。有人问我：你到底擅长哪个领域？我的回
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

使用hibernate search和solr简化企业级搜索

你可能感兴趣的:(Hibernate,职场,search,休闲)