入门->放弃

Lucene相关学习笔记

一.Lucene概述

LOGO：

Lucene是一套用于全文检索和搜寻的开源程序库，由Apache软件基金会支持和提供
Lucene提供了一个简单却强大的应用程序接口（API），能够做全文索引和搜寻，在Java开发环境里Lucene是一个成熟的免费开放源代码工具
Lucene并不是现成的搜索引擎产品，但可以用来制作搜索引擎产品
官网：http://lucene.apache.org/

1.1 什么是全文检索？

计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式

何为全文检索？举个例子，比如现在要在一个文件中查找某个字符串，最直接的想法就是从头开始检索，查到了就OK，这种对于小数据量的文件来说，很实用，但是对于大数据量的文件来说，就有点吃力了。或者说找包含某个字符串的文件，也是这样，如果在一个拥有几十个 G 的硬盘中找那效率可想而知，是很低的。

文件中的数据是属于非结构化数据，也就是说它没有什么结构可言，要解决上面提到的效率问题，首先我们得将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对这些有一定结构的数据进行搜索，从而达到搜索相对较快的目的。这就叫全文搜索。即先建立索引，再对索引进行搜索的过程。

总结：对文档（数据）中每一个词都做索引。

1.2 Lucene 建立索引的方式

那么 Lucene 中是如何建立索引的呢？假设现在有两篇文章，内容如下：

文章1的内容为：Tom lives in Guangzhou, I live in Guangzhou too.
文章2的内容为：He once lived in Shanghai.

首先第一步是将文档传给分词组件（Tokenizer），分词组件会将文档分成一个个单词，并去除标点符号和停词。所谓的停词指的是没有特别意义的词，比如英文中的 a，the，too 等。经过分词后，得到词元（Token）。如下：

文章1经过分词后的结果：[Tom] [lives] [Guangzhou] [I] [live] [Guangzhou]
文章2经过分词后的结果：[He] [lives] [Shanghai]

然后将词元传给语言处理组件（Linguistic Processor），对于英语，语言处理组件一般会将字母变为小写，将单词缩减为词根形式，如 ”lives” 到 ”live” 等，将单词转变为词根形式，如 ”drove” 到 ”drive” 等。然后得到词（Term）。如下：

文章1经过处理后的结果：[tom] [live] [guangzhou] [i] [live] [guangzhou]
文章2经过处理后的结果：[he] [live] [shanghai]

最后将得到的词传给索引组件（Indexer），索引组件经过处理，得到下面的索引结构：

关键词	文章号[出现频率]	出现位置
guangzhou	1[2]	3,6
he	2[1]	1
i	1[1]	4
live	1[2],2[1]	2,5,2
shanghai	2[1]	3
tom	1[1]	1

以上就是Lucene 索引结构中最核心的部分。它的关键字是按字符顺序排列的，因此 Lucene 可以用二元搜索算法快速定位关键词。实现时 Lucene 将上面三列分别作为词典文件（Term Dictionary）、频率文件（frequencies）和位置文件（positions）保存。其中词典文件不仅保存有每个关键词，还保留了指向频率文件和位置文件的指针，通过指针可以找到该关键字的频率信息和位置信息。
搜索的过程是先对词典二元查找、找到该词，通过指向频率文件的指针读出所有文章号，然后返回结果，然后就可以在具体的文章中根据出现位置找到该词了。所以 Lucene 在第一次建立索引的时候可能会比较慢，但是以后就不需要每次都建立索引了，就快了。

理解了 Lucene 的分词原理，接下来我们在 Spring Boot 中集成 Lucene 并实现索引和搜索的功能。

1.3 Lucene与Solr的关系

Lucene：底层的API，工具包
Solr：基于Lucene开发的企业级的搜索引擎产品

二.Spring Boot 中集成 Lucence

2.1 依赖导入


 		<!--thymeleaf 模板 这里导入模板是因为后面测试需要用到-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-thymeleaf</artifactId>
        </dependency>
		<!-- Lucence核心包 -->
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-core</artifactId>
            <version>4.10.2</version>
        </dependency>

        <!-- Lucene查询解析包 -->
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-queryparser</artifactId>
            <version>4.10.2</version>
        </dependency>

        <!-- 常规的分词（英文） -->
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-analyzers-common</artifactId>
            <version>4.10.2</version>
        </dependency>

        <!--支持分词高亮  -->
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-highlighter</artifactId>
            <version>4.10.2</version>
        </dependency>

        <!--支持中文分词  -->
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-analyzers-smartcn</artifactId>
            <version>4.10.2</version>
        </dependency>

        <!--引入IK分词器 -->
        <dependency>
            <groupId>com.janeluo</groupId>
            <artifactId>ikanalyzer</artifactId>
            <version>2012_u6</version>
        </dependency>

2.2 创建索引

/**
     * 新建索引库
     * @param location 索引库位置
     * @throws IOException
     */
    public static void createIndex(String location) throws IOException {

        long startTime = System.currentTimeMillis();

        //创建目录对象 指定索引库的存放位置
        Directory dir = FSDirectory.open(new File(location));

        //创建默认分词器对象
        //Analyzer analyzer = new StandardAnalyzer();

        //IK中文分词器
        Analyzer analyzer = new IKAnalyzer();

        //创建索引配置对象
        IndexWriterConfig config = new IndexWriterConfig(Version.LATEST, analyzer);

        //设置打开模式,默认为Append(追加索引) Create(覆盖索引)
        //config.setOpenMode(IndexWriterConfig.OpenMode.CREATE);

        //创建索引写入器对象
        IndexWriter indexWriter = new IndexWriter(dir, config);

        //创建文档对象
        Document document1 = new Document();

        //StringField等会创建索引，但是不会被分词。如果不分词，会造成整个字段作为一个词条，除非用户完全匹配，否则搜索不到
        document1.add(new StringField("id", "11", Field.Store.YES)); //YES表示存储到文档列表,NO表示不存储

        //TextField即创建索引，又会被分词。
        document1.add(new TextField("title", "我靠,碉堡了哈", Field.Store.YES));

        //向索引库写入文档对象
        //indexWriter.addDocument(document);
        Document document2 = new Document();
        document2.add(new StringField("id", "12", Field.Store.YES)); //YES表示存储到文档列表,NO表示不存储
        document2.add(new TextField("title", "hello,传智播客", Field.Store.YES));

        //批量写入文档
        List<Document> docs = new ArrayList<>();

        for (int i = 0; i < 10; i++) {
            Document document3 = new Document();
            LongField id = new LongField("id", i, Field.Store.YES);//YES表示存储到文档列表,NO表示不存储
            TextField title = new TextField("title", "hello,传智播客" + i, Field.Store.YES);
            if (i==3){
                //为该条数据增加权重,加上权重后查询时就会按权重出现在最前面(类似于百度的竞价排名)
                title.setBoost(100f);
            }
            document3.add(id);
            document3.add(title);
            docs.add(document3);
        }
        docs.add(document1);
        docs.add(document2);
        indexWriter.addDocuments(docs);

        //提交
        indexWriter.commit();
        //关闭
        indexWriter.close();

        long endTime = System.currentTimeMillis();

        log.info("创建索引共耗时{}ms", endTime - startTime);
    }
    
	public static void main(String[] args) throws Exception{
        //createIndex(LOCATION); //新建索引
        queryIndex(LOCATION, "传智播客", "title"); //查询索引数据
        //updateIndex(LOCATION); //更新索引
        //deleteIndex(LOCATION); //删除索引
    }

创建好索引后,就可以直接查看索引了,为了方便,我们这里先直接用索引查看工具查看

2.3 索引查看工具

注: lukeall的版本一定要和maven坐标的版本一致,否则将打不开查看工具,会报错

问题1：如何确定一个字段是否需要存储？
如果一个字段要显示到最终的结果中，那么一定要存储，否则就不存储
问题2：如何确定一个字段是否需要创建索引？
如果要根据这个字段进行搜索，那么这个字段就必须创建索引。
问题3：如何确定一个字段是否需要分词？
前提是这个字段首先要创建索引。然后如果这个字段的值是不可分割的，那么就不需要分词。例如：ID

2.4 Analyzer分词器

因为Lucene默认的分词器是不支持中文分词的,所以我们这里要引入第3方的IK分词器

		//创建默认分词器对象
        //Analyzer analyzer = new StandardAnalyzer();

        //用IK中文分词器替换掉默认分词器即可
        Analyzer analyzer = new IKAnalyzer();

中文分词更专业：

2.4.1 自定义词库

扩展词典（新创建词功能）：有些词IK分词器不识别例如：“蓝瘦”,“香菇”
停用词典（停用某些词功能）：有些词不需要建立索引例如：“哦”，“啊”，“的”

IK分词器的词库有限，新增加的词条可以通过配置文件添加到IK的词库中，也可以把一些不用的词条去除：

xml配置文件:


  
<properties>  
	<comment>IK Analyzer 扩展配置comment>
	
	<entry key="ext_dict">IK/ext.dic;entry>
	
	
	
properties>

新建扩展词典ext.dic 和停用词典stopword.dic

这样就加入了我们新的词，被停用的词语没有被分词

2.5. 查询索引数据

 /**
     * 查询索引
     *
     * @param location    索引库位置
     * @param searchWord  检索词
     * @param searchFiled 需要检索的字段
     * @throws IOException
     */
    public static List<String> queryIndex(String location, String searchWord, String searchFiled) throws IOException,
        ParseException, InvalidTokenOffsetsException {

        // 实际上Lucene本身不支持分页。因此我们需要自己进行逻辑分页。我们要准备分页参数：
        int pageNum = 1;// 当前页码
        int pageSize = 1;// 每页条数
        int start = (pageNum - 1) * pageSize;// 当前页的起始条数
        int end = start + pageSize;// 当前页的结束条数（不能包含）

        // 初始化索引库对象
        Directory directory = FSDirectory.open(new File(location));

        // 索引读取工具
        IndexReader indexReader = DirectoryReader.open(directory);
        // 索引搜索对象
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);

        IKAnalyzer analyzer = new IKAnalyzer();
        // 1.普通查询解析器对象
        QueryParser parser = new QueryParser(searchFiled, analyzer);

        //2.多字段查询解析器(可以根据多个字段查询)
        //MultiFieldQueryParser parser = new MultiFieldQueryParser(new String[]{"id","title"},new IKAnalyzer());
        // 创建查询对象
        Query query = parser.parse(searchWord);

        // 格式化器
        SimpleHTMLFormatter formatter = new SimpleHTMLFormatter("", "");
        QueryScorer scorer = new QueryScorer(query);

        //根据这个得分计算出一个片段
        Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);

        // 准备高亮工具
        Highlighter highlighter = new Highlighter(formatter, scorer);

        //设置一下要显示的片段
        highlighter.setTextFragmenter(fragmenter);

        //3.词条查询(只能查询一个词，例如可以查询"谷歌"，不能查询"谷歌地图",这是2个词)
        //Query query = new TermQuery(new Term(searchFiled, searchWord));

        //4.通配符
        //?：通配一个字符
        //*：通配多个字符
        //Query query = new WildcardQuery(new Term(searchFiled, "*"+searchWord+"*"));

        //5.模糊查询
        //Query query = new FuzzyQuery(new Term(searchFiled, searchWord), 2);//允许写错的最大编辑距离

        //6.数值范围查询(查询非String类型的数据或者说是一些继承Numeric类的对象的查询)
        //Query query = NumericRangeQuery.newLongRange("id", 2L, 9L, true, true);

        //7.组合查询
        // 交集：Occur.MUST + Occur.MUST
        // 并集：Occur.SHOULD + Occur.SHOULD
        // 非：Occur.MUST_NOT
        //BooleanQuery query = new BooleanQuery();
        //Query query1 = NumericRangeQuery.newLongRange("id", 2L, 4L, true, true);
        //Query query2 = NumericRangeQuery.newLongRange("id", 0L, 3L, true, true);
        //query.add(query1, BooleanClause.Occur.SHOULD);
        //query.add(query2, BooleanClause.Occur.SHOULD);

        // 创建排序对象,需要排序字段SortField，参数：字段的名称、字段的类型、是否反转如果是false，升序。true降序
        Sort sort = new Sort(new SortField("id", SortField.Type.LONG, false));

        // 执行搜索操作，返回值topDocs包含命中数，得分文档
        TopDocs topDocs = indexSearcher.search(query, end, sort);//MAX_VALUE:返回排名靠前的多少条字段 sort:排序
        // 打印命中数
        System.out.println("一共命中：" + topDocs.totalHits + "条数据");
        // 获得得分文档数组对象，得分文档对象包含得分和文档编号
        ScoreDoc[] scoreDocs = topDocs.scoreDocs;
        List<String> list=new ArrayList<>();
        for (int i = start; i < end; i++) {
            ScoreDoc scoreDoc = scoreDocs[i];
            System.out.println("得分：" + scoreDoc.score);
            // 文档的编号
            int doc = scoreDoc.doc;
            System.out.println("编号：" + doc);
            // 获取文档对象，通过索引读取工具
            Document document = indexReader.document(doc);
            System.out.println("id:" + document.get("id"));
            String title = document.get(searchFiled);
            if (title!=null){
                 //高亮显示
                TokenStream tokenStream = analyzer.tokenStream(searchFiled, new StringReader(title));
                String heightTitle = highlighter.getBestFragment(tokenStream, title);
                 //将查询到的数据放入list返回
                list.add(heightTitle);
                System.out.println(String.format("高亮显示后的{%s}为{%s}", searchFiled, heightTitle));
            }
        }
        indexReader.close();
        return list;
    }

2.6 修改更新索引

 /**
     * 更新索引
     *
     * @param location
     * @throws IOException
     * @throws ParseException
     */
    public static void updateIndex(String location) throws IOException,
        ParseException {
        // 创建文档对象
        Document document = new Document();
        document.add(new StringField("id", "9", Field.Store.YES));
        document.add(new TextField("title", "谷歌地图之父跳槽FaceBook", Field.Store.YES));

        // 索引库对象
        Directory directory = FSDirectory.open(new File(location));
        // 索引写入器配置对象
        IndexWriterConfig conf = new IndexWriterConfig(Version.LATEST, new IKAnalyzer());
        // 索引写入器对象
        IndexWriter indexWriter = new IndexWriter(directory, conf);

        // 执行更新操作(将查询到碉堡所有的数据全部更新为document)
        indexWriter.updateDocument(new Term("title", "碉堡"), document);
        // 提交
        indexWriter.commit();
        // 关闭
        indexWriter.close();

    }

2.7 删除索引

/**
     * 删除索引
     *
     * @param location
     * @throws IOException
     * @throws ParseException
     */
    public static void deleteIndex(String location) throws IOException,
        ParseException {
        // 创建目录对象
        Directory directory = FSDirectory.open(new File(location));
        // 创建索引写入器配置对象
        IndexWriterConfig conf = new IndexWriterConfig(Version.LATEST, new IKAnalyzer());
        // 创建索引写入器对象
        IndexWriter indexWriter = new IndexWriter(directory, conf);

        // 执行删除操作(根据词条)，要求id字段必须是字符串类型
        // indexWriter.deleteDocuments(new Term("id", "5"));
        // 根据查询条件删除
        // indexWriter.deleteDocuments(NumericRangeQuery.newLongRange("id", 2l, 4l, true, false));
        // 删除所有
        indexWriter.deleteAll();

        // 提交
        indexWriter.commit();
        // 关闭
        indexWriter.close();

    }

2.8 高亮显示测试

准备thyleaf模板页面result.html


<html lang="en" xmlns:th="http://www.w3.org/1999/xhtml">
<head>
  <meta charset="UTF-8">
  <title>Titletitle>
head>
<body>
<div th:each="desc : ${list}">
  <div th:utext="${desc}">div>
div>
body>
html>

准备后端controller

	@GetMapping("/lucene")
    public String test(Model model) throws ParseException, InvalidTokenOffsetsException, IOException {

        String indexDir="D:\\index";

        List<String> list = IndexUtil.queryIndex(indexDir, "南京文化", "title");
        model.addAttribute("list",list);
        return "result";
    }

测试结果

注:模板文件必须要放到resources/templates目录下

spring boot项目只有src目录，没有webapp目录，由于我们应用了Web模块，因此产生了 static目录与templates目录，前者用于存放静态资源，如图片、CSS、JavaScript等；后者用于存放Web页面的模板文件。

2018-04-08 viper44
科技就是将复杂的事情简单化，所以智能手机的出现显著降低了我们学习的难度，只要善于使用搜索引擎，几乎能够获得所有的知识，而我们利用这些工具的姿势，会反过来决定我们未来的走向，所以一定不能做伸手党，能查到东西尽量自己去搜索，网上有很多现成的成功，我们要善于搜索，把节约的时间拿去干别的事生活中会面临很多突发状况，要如何才能从容面对呢，培养急智的最简单的方法就是列举出所有可能出现的问题，并对它们制定一些相
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
InnoDB引擎行存储结构
InnoDB引擎行存储结构文章目录InnoDB引擎行存储结构1.存储引擎2.InnoDB页的概念3.InnoDB行格式3.1指定行格式3.2COMPACT格式3.3REDUNDANT行格式3.4溢出列3.5DYNAMIC行格式和COMPRESSED行格式1.存储引擎[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y7BY5kOU-1643188470321)(C:\U
400多个免费在线编程与计算机科学课程 zhufafa 基础理论课程理论计算机基础免费
来源：medium作者：DhawalShah五年前，麻省理工学院和斯坦福大学等学校首先向公众开放免费的在线课程。如今，全球有700多所学校创造了数以千计的免费在线课程。从入门到精通系列，是作者通过ClassCentral的课程数据库整理的400多个免费在线课程的简介和链接（来源于ClassCentral，一个在线课程搜索引擎），根据课程难度分为入门、进阶和高阶三大类，每门课程还有星级评分（统计自C
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。 zzywxc787 人工智能
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。以下是具体变革方向及实际影响：1.实验设计智能化：告别“猜猜看”传统痛点：依赖经验选择测试变量（如按钮颜色、文案），忽略潜在高价值组合。AI解决方案：多臂老虎机算法（MAB）：动态分配流量至表现最优的变体（如：80%流量给当前最优，20%探索新选项），减少流量浪费高达70%（Netflix案例）
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
UnrealEngine5游戏引擎实践（C++) KENYCHEN奉孝 C++服务器 c++游戏引擎
目录目录目录UnrealEngine是什么？UnrealEngine5简介核心技术特性应用场景扩展兼容性与生态系统UnrealEngine安装下载EpicGamesLauncher启动UnrealEngine选择安装版本和路径选择组件开始安装验证安装配置项目模板（可选）更新和插件管理UE游戏引擎动作捕捉与动画系统程序化生成与AI技术物理与破坏系统音频与本地化技术性能优化导入静态网格体材质实例创建与
NodeJS VM2沙箱逃逸漏洞分析【CVE-2023-29199】 R3s3arcm NodeJS漏洞分析 node.js 安全安全威胁分析
NodeJSVM2沙箱逃逸漏洞分析【CVE-2023-29199】简介Node.js是一个基于V8引擎的开源、跨平台的JavaScript运行环境，它可以在多个操作系统上运行，包括Windows、macOS和Linux等。Node.js提供了一个运行在服务器端的JavaScript环境，使得开发者可以编写并发的、高效的服务器端应用程序。Node.js使用事件驱动、非阻塞I/O模型来支持并发运行。它
在ARM46+KylinOS下安装配置Docker的详细步骤 Q_Daniooi docker 容器运维
目录一、安装前准备（一）环境检查（二）依赖准备二、Docker安装步骤（一）添加Docker官方源（以Debian分支银河麒麟为例，RPM系类似调整）（二）安装Docker引擎（三）启动与基础配置三、Docker优化配置（可选但推荐）（一）镜像加速（二）存储驱动优化四、注意事项（一）系统兼容性（二）网络与镜像源（三）权限与安全（四）ARM架构特殊点五、经常遇见的问题及解决方法六、学习经验分享一、前
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
【Rust日报】使用Rust开发分布式系统的经验教训
Fjall-一个安全Rust的KV存储引擎Fjall是一个可嵌入的基于LSM的forbid-unsafeRust键值存储引擎。它的目标是成为一个可靠且可预测但性能优异的通用KV存储引擎，适用于小型数据集，尤其是大于内存大小的数据集。我刚刚发布了1.0版本，该版本稳定了其数据格式，适用于所有未来的1.x.x版本。它的设计受到了LevelDB/RocksDB架构的重大影响，并且通常具有相似的性能。它具
node.js、npm是什么？服务器脚本语言有哪些？
文章目录1.node和nodejs有区别吗:2.Node.js是什么3.NPM4.安装Node.js和npm5.使用appium之前为什么安装node.js？6.Vue.js一定要安装node.js吗？7.开发环境：1.node和nodejs有区别吗:node和nodejs之间没有区别，node全称就是nodejs。nodejs是一个基于ChromeV8引擎的JavaScript运行环境，一个让J
Cursor 使用教程：自定义AI规则引擎-贴合企业规范的代码生成程序员岳彬全栈开发人工智能开发语言 AI编程后端 java ai
文章目录一、引言二、CursorAI核心功能与入门实践2.1快速上手：生成基础代码结构2.2规则引擎配置：统一企业开发规范三、自定义规则引擎核心技术解析3.1领域特定语言（DSL）设计3.2MyBatis-PlusCRUD规则实现3.2.1实体类生成规则3.2.2Mapper接口生成规则3.3异常处理规则设计3.3.1全局异常处理器生成3.3.2业务异常重试规则四、企业级实践：MyBatis-Pl
Gemini CLI 文件发现引擎深度解析：从模式匹配到智能搜索的架构演进步子哥智能涌现架构人工智能
前言在现代AI开发工具中，如何快速、准确地找到相关文件是一个基础而又重要的能力。今天我们将深入解析GeminiCLI中的GlobTool类——一个看似简单的文件搜索工具，实际上却承载着复杂的模式匹配、智能排序、Git集成等多重职责，展现了如何将传统的文件搜索演进为AI时代的智能文件发现系统。GlobTool的设计哲学核心设计理念GlobTool的设计体现了智能化文件发现¹的核心理念。它不仅仅是一个
始终追赶技术潮流，YashanDB如何保持竞争力？数据库
在现代数据管理领域，优化查询速度是提高数据库性能和用户体验的关键问题。数据库的查询效率直接影响业务响应速度和系统吞吐量，进而决定了应用的竞争力。YashanDB通过先进的架构设计、丰富的存储引擎、多样化的部署模式及完善的事务和并发控制机制，持续解决查询优化等核心技术难题，确保其在激烈的数据库技术竞争中保持领先优势。多样化部署架构保障性能与可扩展性YashanDB支持单机（主备）、分布式集群和共享集
异步技术：Web 性能优化的核心引擎 weixin_47233946 编程前端性能优化
异步技术：Web性能优化的核心引擎引言：当「等待」成为性能瓶颈当用户访问一个传统同步加载的新闻门户网站时，主线程在解析到时突然停止渲染，页面停留在白屏状态长达2秒——这正是GoogleLighthouse性能检测中常见的"BlockingTime"警告。这种阻塞式加载方式正是现代Web性能优化需要解决的痛点。一、异步的本质与技术演进1.1从同步到异步的范式转换同步加载如同单行道依次通行的汽车，每个
自定义属性报价系统设计方案 buyue__ C++算法设计数据结构
一、系统架构设计1.核心模块划分属性配置引擎：支持无限级分类与继承机制，通过attr_forprice字段标识影响价格的属性动态定价模块：采用CPQ(配置-定价-报价)模式，内置差异化定价策略与审批流程产品建模中心：建立多层级SKU档案，支持材料/工艺等200+参数的自由组合2.数据库设计CREATETABLE`prod_class_attr`(`attr_forprice`tinyint(4)D
千亿级消息引擎 Apache Pulsar 深度剖析：架构原理、设计哲学与实战实践北漂老男人 Pulsar apache 架构学习方法运维
千亿级消息引擎ApachePulsar深度剖析：架构原理、设计哲学与实战实践Pulsar不止是消息队列，更是下一代云原生流平台。本文将深入剖析其底层架构、核心特性、关键差异、源码细节、调优技巧与企业级实践路径，力求做到“知其然，知其所以然”。一、架构哲学：分层解耦+IO隔离1.1三层架构模型（Broker+BookKeeper+ZooKeeper）Pulsar基于分布式系统经典设计范式：计算与存储
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
Flowable24服务任务脚本任务-----------持续更新中
服务任务（ServiceTask）服务任务是BPMN2.0规范中的核心元素之一，在Flowable工作流引擎中扮演着至关重要的角色。它代表了流程中一个由系统自动执行的步骤，用于与外部世界进行交互，而无需人工干预。可以把它理解为流程中的“机器人”，专门负责执行后台代码、调用外部服务或执行任何自动化任务。1.核心概念与用途是什么？服务任务是一个自动化的活动，当流程执行到该节点时，Flowable引擎会
Dify小白入门指南：通过官方文档学习工作流编排和API调用伟大无须多言学习 dify ai
Dify小白入门指南：通过官方文档学习工作流编排和API调用一、Dify平台简介与核心功能Dify是一个开源的LLM应用开发平台，被设计为一个"生成式AI应用创新引擎"，它提供了从Agent构建到AI工作流编排、RAG检索、模型管理等全方位能力，帮助用户轻松构建和运营生成式AI原生应用。作为一个强大的LLMOps平台，Dify已成为众多开发者构建AI应用的首选工具，尤其适合想要快速开发AI应用但缺
AI+低代码双引擎驱动：重构智能业务系统的产品逻辑
低代码与AI融合的架构重构将低代码技术深度融入产品体系，形成"可视化编排+AI增强"的双引擎架构，彻底重构传统业务系统的开发与交付模式。新架构在保留原有AI能力的基础上，通过低代码平台实现业务逻辑的可视化定义、参数配置的图形化操作和AI服务的拖拽式编排。重构后的产品逻辑全景图┌─────────────────────────────────────────────────────────────
聚合分销系统开发实战：覆盖短剧/小说/外卖/电商/网盘/APP拉新的CPS+CPA双模式技术架构解析 v_qutudy 聚合分销聚合cps+cpa app拉新项目
一、系统架构设计：微服务与中台化双引擎1.1分布式微服务架构采用SpringCloudAlibaba框架构建，将系统拆分为8大核心服务：mermaidgraphTDA[用户中心]-->B[订单服务]A-->C[结算服务]D[内容中台]-->E[短剧服务]D-->F[小说服务]G[生活服务]-->H[外卖接口]G-->I[电商接口]J[网盘服务]-->K[拉新模块]关键技术选型：注册中心：Nacos
ClamAV 和 FreshClam：Linux 服务器上的开源杀毒解决方案
ClamAV和FreshClam：Linux服务器上的开源杀毒解决方案1.概述ClamAV是一款开源的防病毒引擎，专为Linux服务器设计，用于检测恶意软件、病毒、木马和其他安全威胁。它广泛应用于邮件服务器、文件存储系统和Web服务器，提供高效的病毒扫描功能。主要特点：免费开源：可自由使用和修改，适合企业和个人用户。多平台支持：支持Linux、Windows和macOS（但主要用于Linux）。命
【FR801xH】富芮坤FR801xH之全功能按键案例沧海一笑-dj 物联网专栏富芮坤 FR801xH 按键单击双击长按超长按
00.目录文章目录00.目录01.FR801xH概述02.FR801xH功能框图03.Button模块概述04.Button模块核心设计思想05.Button模块系统架构概览06.Button模块数据结构详解07.状态机引擎解析08.定时器系统设计09.事件处理流程10.程序实现参考源码11.测试示例12.附录01.FR801xH概述FR801xH系列芯片是面向SOC（片上系统），易于快速开发的低
RapidRAW RAW 图像编辑器罗光记百度数据库 facebook segmentfault 经验分享
RapidRAW是一款现代化的高性能AdobeLightroom替代品。它体积轻巧（不足30MB），适用于Windows、macOS和Linux，提供功能丰富、美观的编辑体验。一款美观、无损且GPU加速的RAW图像编辑器，在构建时充分考虑了性能。主要特点核心编辑引擎GPU加速处理：所有图像调整均使用自定义WGSL着色器在GPU上处理，以获得快速反馈。蒙版：利用AI主体和前景检测功能，即时创建精准蒙
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

Lucene相关学习笔记

一.Lucene概述

二.Spring Boot 中集成 Lucence

你可能感兴趣的:(全文检索引擎)