zhouth94

系统学习Lucene全文检索技术（四）

一、索引维护

1、需求

管理人员通过电商系统更改图书信息，这时更新的是关系数据库，如果使用lucene搜索图书信息，需要
在数据库表book信息变化时及时更新lucene索引库。

管理人员对数据库中的数据改变时，不仅仅是操作数据库中的数据，还需要把数据库中最新的数据同步到索引库；同步到索引库之后，消费者搜索查询到的数据才是最新的。

2、添加索引

调用 indexWriter.addDocument（doc）添加索引。

入门程序的创建索引

//7.写入文档到索引库
        for (Document doc : documents) {
            writer.addDocument(doc);
        }

3、修改索引

（1）

 /**
     * 索引库修改操作
     * @throws IOException
     */
    @Test
    public void updateIndexTest() throws IOException {
        //需要更新的文档内容（也就是数据库的一条数据）
        Document document = new Document();

        document.add(new StringField("id", "100000003145", Field.Store.YES ));

        document.add(new TextField("name", "xxxxName", Field.Store.YES ));

        document.add(new IntPoint("price", 123));
        document.add(new StoredField("price", 123));

        document.add(new StringField("categoryName", "xxxx", Field.Store.YES ));
        document.add(new StringField("brandName", "BrandName", Field.Store.YES ));

        //3.创建分词器：把文档对象中的内容提取出来，进行切分词 => 把一句一句话，切分成一个一个词 => 把词组成索引 => 查询的时候，可以通过索引，找到文档对象
        //3.1 StandardAnalyzer 标准分词器，对英文分词效果好；对中文是单个字分词，也就是一个字默认是一个词
        Analyzer analyzer = new StandardAnalyzer();
        //4.创建Directory目录对象 => 目录对象表示索引库的位置(存到硬盘的哪个位置)
        Directory directory = FSDirectory.open(Paths.get("D:/ORACLE/JAVA26/lucene-dir"));
        //5.创建IndexWriterConfig对象（输出流初始化对象），这个对象中指定切分词使用的分词器
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        //6.创建IndexWriter输出流对象，指定输出的目录位置和使用的config初始化对象
        writer = new IndexWriter(directory, config);
        //7.修改文档到索引库 第一个参数：修改条件；第二个参数：修改成的内容对象
        writer.updateDocument(new Term("id", "100000003145"), document);

    }

（2）修改之后的数据文档已经不存在于原来的索引处

原因：会根据下面的查询条件，把需要修改的文档查找到并且删除；删除之后，在文档集合的最后会添加一条数据，也就是待更新的文档。

//7.修改文档到索引库 第一个参数：修改条件；第二个参数：修改成的内容对象
writer.updateDocument(new Term("id", "100000003145"), document);

4、删除索引

4.1 删除指定索引

   /**
     * 测试根据条件删除
     * @throws IOException
     */
    @Test
    public void deleteIndexTest() throws IOException {

        //3.创建分词器：把文档对象中的内容提取出来，进行切分词 => 把一句一句话，切分成一个一个词 => 把词组成索引 => 查询的时候，可以通过索引，找到文档对象
        //3.1 StandardAnalyzer 标准分词器，对英文分词效果好；对中文是单个字分词，也就是一个字默认是一个词
        Analyzer analyzer = new StandardAnalyzer();
        //4.创建Directory目录对象 => 目录对象表示索引库的位置(存到硬盘的哪个位置)
        Directory directory = FSDirectory.open(Paths.get("D:/ORACLE/JAVA26/lucene-dir"));
        //5.创建IndexWriterConfig对象（输出流初始化对象），这个对象中指定切分词使用的分词器
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        //6.创建IndexWriter输出流对象，指定输出的目录位置和使用的config初始化对象
        writer = new IndexWriter(directory, config);
        //7.根据条件删除
        writer.deleteDocuments(new Term("id", "100000003145"));
    }

二、分词器

1、分词理解

（1）

在对Document中的内容进行索引之前，需要使用分词器进行分词，分词的目的是为了搜索。分词的主
要过程就是先分词后过滤。

索引：会将文档（数据）中域值部分提取出来（一句一句话），进行切分词（单个的词） => 做成索引，相当于目录。

搜索：会将用户输入的关键词再次使用分词器进行切分词 => 单个的词，拿这些词和索引进行对比，匹配到相同的词，之后，通过索引再快速查找到文档（一条数据）。

过滤：包括去除标点符号过滤、去除停用词过滤（的、是、a、an、the等）、大写转小写、词的
形还原（复数形式转成单数形参、过去式转成现在式。。。）等。
大写字母在Lucene中，作为查询语法的关键字使用

（2）

什么是停用词？停用词是为节省存储空间和提高搜索效率，搜索引擎在索引页面或处理搜索请求时会自
动忽略某些字或词，这些字或词即被称为Stop Words(停用词)。比如语气助词、副词、介词、连接词
等，通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见
的“的”、“在”、“是”、“啊”等。

对于分词来说，不同的语言，分词规则不同。Lucene作为一个工具包提供不同国家的分词器

2、Analyzer分词器使用时机

2.1 索引时使用Analyzer

输入关键字进行搜索，当需要让该关键字与文档域内容所包含的词进行匹配时需要对文档域内容进行分
析，需要经过Analyzer分析器处理生成语汇单元（Token）。分析器分析的对象是文档中的Field域。当
Field的属性tokenized（是否分词）为true时会对Field值进行分析，如下图4：

2.2 搜索时使用Analyzer

对搜索关键字进行分析和索引分析一样，使用Analyzer对搜索关键字进行分析、分词处理，使用分析后
每个词语进行搜索。比如：搜索关键字：spring web ，经过分析器进行分词，得出：spring web拿词
去索引词典表查找，找到索引链接到Document，解析Document内容。
对于匹配整体Field域的查询可以在搜索时不分析，比如根据订单号、身份证号查询等。
注意：搜索使用的分析器要和索引使用的分析器一致。

3、Lucene原生分词器

3.1 StandardAnalyzer

特点：可以对英文进行分词，对中文是单字分词，也就是一个字认为是一个词。

Tokenizer就是分词器，负责将reader转换为语汇单元即进行分词处理，Lucene提供了很多的分词器，
也可以使用第三方的分词，比如IKAnalyzer一个中文分词器。

TokenFilter是分词过滤器，负责对语汇单元进行过滤，TokenFilter可以是一个过滤器链儿，Lucene提
供了很多的分词器过滤器，比如大小写转换、去除停用词等。

3.2 WhitespaceAnalyzer

仅仅是去掉了空格，没有其他任何操作，不支持中文。

（1）

   @Test
    public void testWhitespaceAnalyzer() throws Exception{
        //1.采集对象
        List skuList = skuDao.querySkuList();
        //2.创建文档对象集合
        List documents = new ArrayList<>(); //并不是数据表中所有的属性都要放入到文档中，需要哪些字段才放
        for (Sku sku : skuList) {
            //2.1 创建一个文档对象
            Document document = new Document();
            //2.2 创建域对象，并放入文档对象中
            /**
             * 是否分词
             * 是否索引
             * 是否存储：是，因为在业务上有重要作用，存储后，才可以获取到id
             */
            document.add(new StringField("id", sku.getId(), Field.Store.YES));

            document.add(new TextField("name", sku.getName(), Field.Store.YES));

            document.add(new IntPoint("price", sku.getPrice()));
            document.add(new StoredField("price", sku.getPrice()));

            document.add(new StoredField("image", sku.getImage()));

            document.add(new StringField("categoryName", sku.getCategoryName(), Field.Store.YES));
            document.add(new StringField("brandName", sku.getBrandName(), Field.Store.YES));
            document.add(new TextField("spec", sku.getSpec(), Field.Store.YES));

            documents.add(document);
        }
        // 3. 创建分词器,分析文档，对文档进行分词
        Analyzer analyzer = new WhitespaceAnalyzer();
        // 4. 创建Directory对象,声明索引库的位置
        Directory directory = FSDirectory.open(Paths.get("D:/ORACLE/JAVA26/lucene-dir"));
        // 5. 创建IndexWriteConfig对象，写入索引需要的配置
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        // 6.创建IndexWriter写入对象
        writer = new IndexWriter(directory, config);
        // 7.写入到索引库，通过IndexWriter添加文档对象document
        for (Document doc : documents) {
            writer.addDocument(doc);
        }
        // 8.释放资源
    }

（2）

4、第三方中文分词器

4.1 第三方中文分词器简介

paoding：庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0，且

最新提交的代码在 2008-06-03，在svn中最新也是2010年提交，已经过时，不予考虑。

mmseg4j：最新版已从 https://code.google.com/p/mmseg4j/ 移至 https://github.com/chenlb/

mmseg4j-solr，支持Lucene 4.10，且在github中最新提交代码是2014年6月，从09年～14年一
共有：18个版本，也就是一年几乎有3个大小版本，有较大的活跃度，用了mmseg算法。

IK-analyzer：最新版在https://code.google.com/p/ik-analyzer/上，支持Lucene 4.10从2006年

12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主
体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用
分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了
简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。但是也就是
2012年12月后没有在更新。

ansj_seg：最新版本在 https://github.com/NLPchina/ansj_seg tags仅有1.1版本，从2012年到

2014年更新了大小6次，但是作者本人在2014年10月10日说明：“可能我以后没有精力来维护
ansj_seg了”，现在由”nlp_china”管理。2014年11月有更新。并未说明是否支持Lucene，是一个
由CRF（条件随机场）算法所做的分词算法。

imdict-chinese-analyzer：最新版在 https://code.google.com/p/imdict-chinese-analyzer/ ，最

新更新也在2009年5月，下载源码，不支持Lucene 4.10 。是利用HMM（隐马尔科夫链）算法。

Jcseg：最新版本在git.oschina.net/lionsoul/jcseg，支持Lucene 4.10，作者有较高的活跃度。利

用mmseg算法。

4.2 使用中文分词器IKAnalyzer

IKAnalyzer继承Lucene的Analyzer抽象类，使用IKAnalyzer和Lucene自带的分析器方法一样，将
Analyzer测试代码改为IKAnalyzer测试中文分词效果。

如果使用中文分词器ik-analyzer，就需要在索引和搜索程序中使用一致的分词器：IK-analyzer。
(1). 添加依赖, pom.xml中加入依赖


        
            org.wltea.ik-analyzer
            ik-analyzer
            8.1.0

(2)它包含两种词典

（3）扩展中文词库

如果想配置扩展词和停用词，就创建扩展词的文件和停用词的文件。
从ikanalyzer包中拷贝配置文件（可到我的资源上传查找相关配置文件：https://mp.csdn.net/console/upDetailed）

（4）导入中文分词词典及配置文件

IKAnalyzer.cfg.xml




    IK Analyzer 扩展配置
    
    ext.dic;

    
    stopword.dic;

停用词典stopword.dic作用 :

停用词典中的词例如: a, an, the, 的, 地, 得等词汇, 凡是出现在停用词典中的字或者词, 在切分词的时候
会被过滤掉.

扩展词典ext.dic作用 :

扩展词典中的词例如: 传智播客, 黑马程序员, 贵州茅台等专有名词, 在汉语中一些公司名称, 行业名称, 分
类, 品牌等不是汉语中的词汇, 是专有名词. 这些分词器默认不识别, 所以需要放入扩展词典中, 效果是被
强制分成一个词.

（5）测试

   /**
     *测试中文分词器IKAnalyzer
     * @throws Exception
     */
    @Test
    public void TestIKAnalyzer() throws Exception{
        // 1. 创建分词器,分析文档，对文档进行分词
        Analyzer analyzer = new IKAnalyzer();
        // 2. 创建Directory对象,声明索引库的位置
        Directory directory = FSDirectory.open(Paths.get("D:/ORACLE/JAVA26/lucene-dir"));
        // 3. 创建IndexWriteConfig对象，写入索引需要的配置
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        // 4.创建IndexWriter写入对象
        writer = new IndexWriter(directory, config);
        // 5.写入到索引库，通过IndexWriter添加文档对象document
        Document doc = new Document();
        doc.add(new TextField("name", "vivo X23 8GB+128GB 幻夜蓝,东华 大学水滴屏全面屏,游戏手机.移 动联通电信全网通4G手机 东华", Field.Store.YES));
        writer.addDocument(doc);
        // 6.释放资源
    }

Milvus学习整理 louisliao_1981 milvus 学习
Milvus学习整理一、度量类型(metric_type)二、向量字段和适用场景介绍三、索引字段介绍（一）、概述总结（二）、详细说明四、简单代码示例（一）、建立集合和索引示例（二）、搜索示例（三）、参考文档五、数据搜索(一)、基础搜索参数说明(二)、范围搜索1.概述总结2.详细说明(三)、全文搜索(BM25)1.概述2.使用全文搜索步骤(四)、其他搜索一、度量类型(metric_type)相似度量
Go 1.24 新特性一览 go资讯编程语言程序员
Go1.24震撼登场，带来显著性能提升与诸多新功能，如泛型类型别名、优化工具链及标准库增强。可借助os.Root实现安全文件系统操作，运用testing.B.Loop优化基准测试，利用runtime.AddCleanup完善资源管理，还有weak包优化内存、crypto包保障FIPS140-3合规。速升级，提升Go应用效率与安全！文章目录语言特性更新泛型类型别名(GenericTypeAliase
sql2019安装重启计算机失败,SQL SERVER 2019安装失败小蛋子儿哦
Detailedresults:Feature:全文和语义提取搜索Status:失败Reasonforfailure:该功能的某个依赖项出错，导致该功能的安装过程失败。NextStep:使用以下信息解决错误，卸载此功能，然后再次运行安装过程。Componentname:SQLServer数据库引擎服务实例功能Componenterrorcode:0x80004005Errordescription
将MySQL数据同步到Elasticsearch作为全文检索数据的实战指南格子先生Lab 全文检索 mysql elasticsearch
在现代应用中，全文检索是一个非常重要的功能，尤其是在处理大量数据时。Elasticsearch是一个强大的分布式搜索引擎，能够快速地进行全文检索、分析和可视化。而MySQL作为传统的关系型数据库，虽然能够处理结构化数据，但在全文检索方面的性能不如Elasticsearch。因此，将MySQL中的数据同步到Elasticsearch中，可以充分发挥两者的优势。本文将介绍如何将MySQL中的数据同步到
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
新建react native项目都失败，创建出来的都是.xcodeproj，而不是.xcworkspace，如何解决？？ bug菌¹ 全栈Bug调优(实战版)react native react.js javascript
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案1.确保正确设置代理源（如果你在国内）2.手动安装CocoaPods依赖3.检查你的Ruby和CocoaPods环境4.尝试清理并重建项目5.查
基于知识图谱的个性化智能教学推荐系统(文档+源码) 「已注销」 python 知识图谱人工智能 python pygame pyqt dash
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
MySQL 8.0 特性的高频面试题及核心知识点 dblens 数据库管理和开发工具 mysql mysql 数据库面试题
1.索引原理与MySQL8.0新特性答案：自适应哈希索引：MySQL8.0自动在频繁查询的索引上构建哈希索引，加速等值查询（如WHEREid=1）。全文索引优化：支持布尔模式（MATCH()AGAINST()）和自然语言模式，且索引更新更高效。InnoDB页压缩：支持ZSTD压缩算法，减少存储空间和I/O开销。虚拟列索引：可对虚拟列（ComputedColumns）创建索引，减少存储冗余。2.事务
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
java中如何根据已有word文件快速生成目录和页码？ bug菌¹ 全栈Bug调优(实战版)java word python 生成目录生成页码文件操作
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案优化基于Docx4j的TOC生成性能问题及日志警告解决方案**1.性能优化****1.1避免使用FOP渲染获取页码****1.2使用更高效的文档
Rocky Linux安装部署Elasticsearch（ELK日志服务器）_rockylinux elk 2401_83739411 程序员服务器 linux elasticsearch
一、Elasticsearch的简介Elasticsearch是一个强大的开源搜索和分析引擎，可用于实时处理和查询大量数据。它具有高性能、可扩展性和分布式特性，支持全文搜索、聚合分析、地理空间搜索等功能，是构建实时应用和大规模数据分析平台的首选工具。二、RockyLinux系统安装链接：VMwareWorkstation下载安装（含秘钥）链接：VMwareWorkstation创建虚拟机链接：Ro
密码安全：如何识别强弱密码，并打造铁壁防线！喵手零基础学Java 安全 php 开发语言
全文目录：开篇语前言：一场关于密码的角力赛目录密码的弱点：为什么弱密码是个大问题如何定义强密码？强密码的特点：举个例子：如何识别密码强弱？简单技巧帮你判断1.**密码长度：是否足够长？**示例代码演示代码解释：测试结果示例：2.**复杂度：是否包含特殊字符？**示例代码演示代码解释：测试结果示例：小结：3.**模式识别：是否包含常见模式？**️密码管理小技巧：打造更安全的数字生活1.**使用密码管
autosar功能安全文档解析 dont__cry 安全
该文档是AUTOSAR汽车搜索引擎发布的关于AUTOSAR经典平台功能安全措施的概述，涵盖功能安全机制、措施、硬件诊断等内容，为汽车安全相关系统开发提供指导。1.**引言**-**范围**：涵盖功能安全机制、措施及硬件诊断等多方面内容，帮助理解AUTOSAR在功能安全方面的作用。-**目的**：总结AUTOSAR功能安全要点，指导相关系统开发人员利用其机制和措施，取代旧文档。-**目标受众**：主
AFSim仿真系统—01 架构介绍仿真小课堂架构
本栏目将对《AFSim2.9中文参考手册》进行持续更新，欢迎关注交流！获取本书全文和AFSIM其它资料，请联系作者~全部内容索引请看⬇️⬇️⬇️《AFSim2.9中文参考手册》-CSDN博客https://blog.csdn.net/henggesim/article/details/145566384目录一、核心架构二、核心应用三、核心服务Scenarios（场景）Simulations（仿真）
RAG问答系统：检索增强生成框架 ZhangJiQun&MXP 2021 论文教学大模型语言模型
目录RAG（Retrieval-AugmentedGeneration）框架一、RAG框架的定义二、RAG框架的工作原理三、RAG框架的举例说明四、RAG框架的优势RAG问答系统二、工作流程三、优势四、应用场景RAG（Retrieval-AugmentedGeneration）框架即检索增强生成框架，是一种结合了信息检索技术与语言生成模型的人工智能技术。以下是对RAG框架的详细解释及举例说明：一、
ctfshow-stack36 dd-pwn pwn
每天下午抖音（47253061271）直播pwn题，小白一只，欢迎各位师傅讨论可以发现全文只有一个ctfshow的自定义函数Gets函数，发现有溢出漏洞，可以利用该漏洞进行构建exp，发现有get_flag供我们使用，可以直接打开根目录的flag，因此只需要构造溢出，溢出返回地址覆盖成get_flag就行Exp：
MySQL 与 Elasticsearch 联合查询墨瑾轩一起学学数据库【一】mysql elasticsearch adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要来聊聊MySQL与Elasticsearch如何携手合作，共同完成高效的联合查询和数据检索任务。MySQL是一款非常流行的数据库管理系统，而Elasticsearch则是一款基于Lucene的搜索引擎，擅长全文搜索和实时数据分析。两者结
（简单易懂口语化）对象的继承 - 2 成员变量与构造方法的继承奕口汤圆 Java学习 java 开发语言考研学习方法改行学it 学习
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档成员变量与构造方法的继承规则内容概述一、成员变量的继承1，成员变量继承的本质2，访问的特点3，代码示例二、构造方法的继承1，构造方法的访问特点1.1父类的构造方法不会被子类继承。1.2子类中所有的构造方法默认先访问父类中的无参构造，再执行自己。1.3如何调用父类构造方法？总结内容概述（全文为Java描述）具体讲解成员变量与构造方法的继
从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）码事漫谈 AI 人工智能
文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1机器学习：AI的基础2.1.1机器学习的类型2.1.2机器学习的流程2.2深度学习：机器学习的进阶2.2.1神经网络基础2.2.2深度学习的关键架构2.3Transformer架构：现代LLM的核
Mysql数据库简要介绍 u010868192 数据库介绍数据库简要介绍
数据库介绍1、关系型数据库：经过数学论证，可以将现实生活中的各种关系，保存到数据库中，这种数据库称为关系型数据库。关系型数据库以表的形式保存数据之间的关系。2、非关系型数据库：主要为了解决特定的应用场景。如：高缓存，高并发等，以redis为例，redis是以键值对的形式保存数据。数据库是通过（DBMS）创建和操作的容器。数据库版本（Mysql为例）版本4：InnoDB,增加事务的处理，并改进全文本
3月16日星期日早报简报微语报早读微语早读生活
3月16日星期日，农历二月十七，早报#微语早读。1、多地探索将DeepSeek嵌入纪检监察工作，有的已甄别出可疑数据；2、再次超越！《哪吒2》票房进入全球票房榜前5名；3、北京修订小客车数量调控细则：增加亲属间车辆转让范围；4、市场监管总局：全面加大包括直播带货在内的网售产品抽查力度；5、西安交通大学通报“副教授权威期刊论文全文抄袭”：解除聘用关系；6、涉多个知名品牌！卫生巾、纸尿裤残次料，竟被翻
数学：矩阵极客 - L U 数学矩阵线性代数
文章目录前言1.基本矩阵运算1.1矩阵加法1.2矩阵减法1.3矩阵乘法2.转置矩阵3.旋转矩阵小结【全文大纲】:https://blog.csdn.net/Engineer_LU/article/details/135149485前言在许多应用场合下，我们都需要用矩阵来表示公式，接下来简洁描述矩阵用法1.基本矩阵运算1.1矩阵加法∣a1b1c1d1∣+∣a2b2c2d2∣=∣a1+a2b1+b2c
【Python机器学习】2.2. 聚类分析算法理论：K均值聚类(KMeans Analysis)、KNN(K近邻分类)、均值漂移聚类(MeanShift) SomeB1oody Python机器学习机器学习算法 python 聚类分类算法
喜欢的话别忘了点赞、收藏加关注哦（关注即可查看全文），对接下来的教程有兴趣的可以关注专栏。谢谢喵！(=･ω･=)2.2.1.K均值聚类(KMeansAnalysis)K均值算法是以空间中K个点为中心进行聚类，对最靠近他们的对象归类，是聚类算法中最为基础但也最为重要的算法。数学原理计算数据点与各簇中心点的距离：dist(xi,ujt){dist}(x_i,u_j^t)dist(xi,ujt)然后根据
MySQL 全文搜索 (FULLTEXT) vs 合并字段模糊查询 (LIKE) 对比曹天骄 mysql 数据库
在MySQL中，使用FULLTEXT索引通常比将多个字段合并到一个新字段（如search_text）中进行模糊查询更快，尤其是在数据量较大时。以下是详细对比：1.FULLTEXT索引的优势专门优化：FULLTEXT索引是为全文搜索设计的，能够高效处理文本匹配。分词搜索：FULLTEXT支持分词搜索（基于空格或特定字符），可以快速定位关键词。性能更好：对于大文本字段或多字段联合搜索，FULLTEXT
llm数据存储基础设施 galileo2016 人工智能
链接:https://i68.ltd/notes/posts/20250310-llm-db/infinity专为LLM应用程序构建的AI原生数据库，可提供对密集向量、稀疏向量、张量（多向量）和全文的快速混合搜索项目仓库:https://github.com/infiniflow/infinity关键特性令人难以置信的快在百万级矢量数据集上实现0.1毫秒查询延迟和15K+QPS在33M文档的全文搜
【开源代码解读】AI检索系统R1-Searcher通过强化学习RL激励大模型LLM的搜索能力 accurater 人工智能深度学习 R1-Searcher
关于R1-Searcher的报告：第一章：引言-AI检索系统的技术演进与R1-Searcher的创新定位1.1信息检索技术的范式转移在数字化时代爆发式增长的数据洪流中，信息检索系统正经历从传统关键词匹配到语义理解驱动的根本性变革。根据IDC的统计，2023年全球数据总量已突破120ZB，其中非结构化数据占比超过80%。这种数据形态的转变对检索系统提出了三个核心的挑战：语义歧义消除：如何准确理解"A
elk的相关的基础 weixin_43806846 elk
以下是关于ELK（Elasticsearch,Logstash,Kibana）的200个基础问题及其答案，涵盖了ELK的核心概念、组件、配置、使用场景、优化等方面。Elasticsearch基础**什么是Elasticsearch？**答：Elasticsearch是一个分布式、RESTful的搜索和分析引擎，基于ApacheLucene构建。**Elasticsearch的主要用途是什么？**答
Mysql-InnoDB索引：普通索引、主键索引、唯一索引、组合索引豪大大ya mysql 数据库 java
InnoDB和MyISAM的区别事务方面InnoDB支持事务，MyISAM不支持事务。这是Mysql将默认存储引擎从MyISAM变成InnoDB的重要原因之一外键方面InnoDB支持外键，而MyISAM不支持。对一个包含外键的InnoDB表转为MyISAM会失败索引层面InnoDB是聚集（聚簇）索引，MyISAM是非聚集（非聚簇）索引。MyISAM支持FULLTEXT类型的全文索引。InnoDB不
MongoDB在Spring商城用户行为记录中的应用小小初霁 mongodb spring 数据库
一、MongoDB的优势灵活Schema用户行为数据结构多变（如点击、搜索、下单），MongoDB的文档模型无需固定字段，适应快速迭代。高吞吐写入支持批量插入，适合高并发场景（如秒杀活动的用户操作记录）。复杂查询优化支持聚合管道、地理空间查询、全文索引，便于多维分析。水平扩展通过分片（Sharding）应对海量数据存储。二、用户行为数据建模1.基础行为记录集合（如user_actions）{"us
【GPT入门】第16课 RAG入门 *星星之火* 大模型 gpt
【GPT入门】第16课RAG入门1.RAG概念核心原理主要应用优势挑战RGA工作图解2.RAG系统基本搭建流程1.RAG概念RAG通常指检索增强生成（Retrieval-AugmentedGeneration），是一种将检索技术与生成式人工智能相结合的技术架构，以下是关于它的详细介绍：核心原理检索：RAG会在大量的文本数据中进行检索，这些数据可以是网页、文档、知识库等。它通过各种检索算法和技术，快
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri