牛像话

全文检索技术——lucene

什么是全文检索技术？

搜索工具，他的原理大概如下：
爬虫工具会去互联网中的各个网站爬取信息，比如网站的url，名字，内容。这些数据都是非结构化的数据，而全文检索技术就是负责把这些非结构化数据整理成结构化的数据，对这些结构化的数据做一系列的处理，然后生成一个索引表，前端传递过来的查询条件就会去这个索引表中寻找对应的结构化文件。

lucene：

引入：

lucene是一种全文检索的工具包，使用lucene可以实现全文检索。

document：

document是存储那些整理后数据的对象。比如一个网页

web：
标题：腾讯视频
内容：创造202 刘念c位出道
作者：刘翔华

经过整理后，在document中：

document：
id：1（假如是1）
title：腾讯视频
content：创造202 刘念c位出道
writer：刘翔华

分词器：

分词器的作用，就是把document中的词给筛选出来，形成一个一个的词项，用这个词项来完成索引表的建立。比如：创造202 刘念c位出道，分词后可以形成，创造202（1），刘念（1），c位出道（1）。

分词器接口：Analyzer，是所有分词器的接口。

分词种类：
StandardAnalyzer–>标准分词器

英文:对词做加工,按照空格,标点分开
中文:字做加工

SimpleAnalyzer—>简单分词器

对空格/标点符号进行切分计算
英文:词加工
中文:段逻,句加工

WhitespaceAnalyzer—>空格分词器

按照空格处理数据

SmartChineseAnalyzer—>智能中文分词器

处理常用的中文词语

IKAnalyzer—>中文分词器

可以对词典进行扩展,计算分词时,读取到词典的数据就可以计算该词语成为一个词项.

还支持停用词典:在停用词典中的词语,不会计算分词

public class AnalyzerTest {
    //完成方法,接收文本字符串,通过使用分词器的api将词项的文本属性
    //打印出来
    public void printTerm(Analyzer a, String msg) throws Exception {
        //使用a实现对象分词器,解析msg分词计算;
        //String原数据转化成流对象
        StringReader reader=new StringReader(msg);
        //调用a这个分词的api将read流计算成词项
        TokenStream token = a.tokenStream("test", reader);//分词不能独立存在,依托document数据
        token.reset();
        //拿到当前指针位置的词项的文本属性
        OffsetAttribute offAttr = token.getAttribute(OffsetAttribute.class);
        CharTermAttribute charAttr = token.getAttribute(CharTermAttribute.class);
        while(token.incrementToken()){
            //System.out.println("偏移量起始位置:"+offAttr.startOffset());
            //System.out.println("偏移量结束位置:"+offAttr.endOffset());
            System.out.println(charAttr.toString());
        }
    }

    @Test
    public void run() throws Exception {
        //构造多个不同实现类的分词器
        Analyzer a1=new StandardAnalyzer();
        Analyzer a2=new SimpleAnalyzer();
        Analyzer a3=new WhitespaceAnalyzer();
        Analyzer a4=new SmartChineseAnalyzer();
        Analyzer a5=new IKAnalyzer6x();
        //计算分词的文本字符串
        String msg="刘念刘翔华";
        /*System.out.println("******************标准********************");
        printTerm(a1,msg);
        System.out.println("******************简单********************");
        printTerm(a2,msg);
        System.out.println("******************空格********************");
        printTerm(a3,msg);*/
        System.out.println("******************智能********************");
        printTerm(a4,msg);
        System.out.println("******************IK********************");
        printTerm(a5,msg);
    }
}

索引文件：

索引文件是基于document的分词来创建的。

document：
id：1（假如是1）
title：腾讯视频
content：创造202 刘念c位出道
writer：刘翔华

document：
id：2（假如是2）
title：优酷视频
content：一拳超人新作
writer：PPT

分词后：
doc1：腾讯（1），视频（1），创造202（1），刘念（1），c位出道（1），刘翔华（1）
doc2：优酷（2），视频（2），一拳超人（2），新作（2），PPT（2）

索引表：
根据分词结果，创建如下的索引表。

比如我要找有一拳超人，还要有PPT的资源，就根据一拳超人，找到doc2，再找到PPT，还是doc2.

创建索引表的逻辑：
选择一个文件夹,作为保存索引数据的目标
创建一个输出流对象Writer
确定分词规则
读取数据源,封装document对象数据
把document输出
把索引文件输出

代码：
需要注意的是这一句IndexWriterConfig config=new IndexWriterConfig(new IKAnalyzer6x());确定了分词规则。

public class CreateIndex {
    //实现lucene的创建索引文件
    @Test
    public void createIndex() throws Exception {
        //指定到一个文件目录 d:/index01
        Path path = Paths.get("d:/index01");
        //路径交给lucene管理
        FSDirectory dir = FSDirectory.open(path);
        //构造一个输出流对象writer
            //配置输出流的配置对象config
        IndexWriterConfig config=new IndexWriterConfig(new IKAnalyzer6x());
            //创建索引文件的模式
        config.setOpenMode(IndexWriterConfig.OpenMode.CREATE);//每次都会把旧数据
            //覆盖掉
        IndexWriter writer=new IndexWriter(dir,config);
        //手动封装数据源数据 到document对象
        Document doc1=new Document();
        Document doc2=new Document();
        //拼接数据到document 1 2当中  title content publisher click
        //先来封装document1
            /*
                web1:
				> 标题：腾讯视频 
                > 内容：创造202 刘念c位出道 
                > 作者：刘翔华
                > 点击数量：58
             */
            //封装title 文本字符串
            doc1.add(new TextField("title","腾讯视频", Field.Store.YES));
            //参数意义 name:域属性名称 value: 源数据 store:表示是否存储在索引中.
            doc1.add(new TextField("content",
                    "创造202 刘念c位出道 ",
                    Field.Store.YES));
            doc1.add(new TextField("writer","刘翔华", Field.Store.YES));
            //数字类型数据 IntPoint LongPoint DoublePoint FloatPoint
            doc1.add(new IntPoint("click",58));
            doc1.add(new StringField("click","58次", Field.Store.YES));
            /*
            	web2:
				> document： 
                > id：2（假如是2） 
                > title：优酷视频 
                > content：一拳超人新作
                > writer：PPT
                >click:  66
             */
            doc2.add(new TextField("title","优酷视频 ", Field.Store.YES));
            doc2.add(new TextField("content",
                    "一拳超人新作",
                    Field.Store.YES));
            doc2.add(new TextField("writer","PPT", Field.Store.YES));
            doc2.add(new IntPoint("click",66));
            doc2.add(new StringField("click","66次", Field.Store.YES));
            //问题:
            //域属性有多少个类型?
            //StringField文本,TextField文本区别
            //为什么doc可以存在索引也可以不存在索引中Store.YES/NO
        //将document通过writer输出
        writer.addDocument(doc1);
        writer.addDocument(doc2);
        //生成索引文件
        writer.commit();
    }

封装document时的细节：

StringField文本,TextField文本区别 ：TextField类型的域属性value值会经过分词计算，StringField类型的域属性value值不会经过分词计算 。

数字类型：既不做分词计算,也不做存储,数字特性的数据在索引中单独处理,用来实现范围搜索(价钱范围)如果某个字段,既需要数字特性进行范围搜索,搜索到document之后又要使用这个数字数据–通过一个同名的StringField使得该域属性具备2个特点。
IntPoint
LongPoint
DoublPoint
FloatPoint

Store.YES/NO的作用： Store.YES索引中的文件document会保存该属性，Store.NO索引中没有这个域值保存在document 。

不存储的数据,不代表不计算分词： 比如doc.add(new TextField(“test”,“我们都有一个家”,Store.NO)) ，因为使用了Store.NO，所以不会存储到索引表中，但是使用的是TextField，所以还是会做分词计算（索引表中有分词，但是查不到对应的document）。

搜索索引文件功能：

在进行搜索时,lucene总会把搜索条件封装成一个query查询对象.通过对查询对象数据的计算最终拿到返回document数据.查询对象又可以根据查询条件不同,需求不同使用不同的实现类封装.

**深查询：**比如要查询索引表第二页的数据，一页有5条，那么就读取10条信息，然后返回后五条。先读取再计算，效率低。
浅查询： 先计算需要的页数和数据量，再去读取数据返回，先计算再读取，效率高。

词项查询：
就是你输入的查询词是什么，就用这个词去索引里查询，返回查询到的document集合返回。

搜索的逻辑
指向一个索引文件
创建一个查询对象searcher
构造一个查询条件query—TermQuery
利用浅查询,获取查询的关键信息docId读取数据

//词项查询
    @Test
    public void termQuery() throws Exception {
        //指向d:/index01
        Path path = Paths.get("d:/index01");
        FSDirectory dir = FSDirectory.open(path);
        //搜索对象执行搜索时,要对索引进行计算,要读取数据,基于输入流reader创建
        IndexReader reader= DirectoryReader.open(dir);
        IndexSearcher searcher=new IndexSearcher(reader);
        //创建查询条件
        //创建一个TermQuery词项查询条件 "title":"腾讯视频"
        Term term=new Term("title","腾讯视频");
        Query query=new TermQuery(term);
        //浅查询逻辑,获取数据信息docId读取数据.
        //page=2 rows=5
        TopDocs topDocs = searcher.search(query,2*5);//先从索引倒排索引表计算,获取前10条结果
        System.out.println("查询总条数:"+topDocs.totalHits);
        ScoreDoc[] scoreDocs=topDocs.scoreDocs;
        //count值,当count=0 1 2 3 4不读数据 5 6 7 8 9
        int count=0;
        //从数组里,解析前10条docId值,通过id读取所有document数据
        for (ScoreDoc scoreDoc:scoreDocs){
            count++;
            if(count>4){
                //元素对象中就包含了一个documentId
                int docId = scoreDoc.doc;
                Document doc = searcher.doc(docId);
                System.out.println("title:"+doc.get("title"));
                System.out.println("content:"+doc.get("content"));
                System.out.println("publisher"+doc.get("publisher"));
                System.out.println("click"+doc.get("click"));
            }
            continue;

        }
    }

多域查询：
document中是由多个域属性构成，每个域属性中都存有自己的值，当你的查询条件是去一个document的多个域中查询的时候，就可以使用多域查询。

//多域查询
    @Test
    public void MultiFiedlQuery() throws Exception {
        Path path = Paths.get("d:/index01");
        FSDirectory dir = FSDirectory.open(path);
        IndexReader reader= DirectoryReader.open(dir);
        IndexSearcher searcher=new IndexSearcher(reader);
        //创建查询条件
        //多域查询
        String[] fields={"title","content"};
        //创建多域查询条件
        MultiFieldQueryParser parser=new MultiFieldQueryParser(fields,new IKAnalyzer6x());
        Query query = parser.parse("腾讯视频优酷视频");
        //底层实现逻辑
        //ik分词器对"腾讯视频优酷视频"-->"腾讯""优酷""视频"
        //和string[]中的域名做 排列组合 title:腾讯,title:优酷,title:视频
        //content:腾讯,content:优酷,content:视频 将每个结果单独搜索计算得到一个document结果集
        //最终将所有对应结果集返回
        TopDocs topDocs = searcher.search(query,10);//先从索引倒排索引表计算,获取前10条结果
        System.out.println("查询总条数:"+topDocs.totalHits);
        ScoreDoc[] scoreDocs=topDocs.scoreDocs;
        //从数组里,解析前10条docId值,通过id读取所有document数据
        for (ScoreDoc scoreDoc:scoreDocs){
                //元素对象中就包含了一个documentId
                int docId = scoreDoc.doc;
                Document doc = searcher.doc(docId);
                System.out.println("title:"+doc.get("title"));
                System.out.println("content:"+doc.get("content"));
                System.out.println("publisher"+doc.get("publisher"));
                System.out.println("click"+doc.get("click"));
        }
    }

布尔查询：
把每个query当作一个集合，使用这些集合，就可以查询出他们的交集，并集等关系。
就像下面的这两句：
Query query1=new TermQuery(new Term(“title”,“腾讯视频”));
Query query2=new TermQuery(new Term(“content”,“优酷视频”));
BooleanClause bc1=new BooleanClause(query1, BooleanClause.Occur.MUST);
BooleanClause bc2=new BooleanClause(query2, BooleanClause.Occur.MUST_NOT);
Query query=new BooleanQuery.Builder().add(bc1).add(bc2).build();
语句意思就是，查询title为腾讯视频，content不为优酷视频的document。

 @Test
    public void booleanQuery() throws Exception {
        Path path = Paths.get("d:/index01");
        FSDirectory dir = FSDirectory.open(path);
        IndexReader reader= DirectoryReader.open(dir);
        IndexSearcher searcher=new IndexSearcher(reader);
        //创建查询条件
        //boolean条件
        //子条件
        Query query1=new TermQuery(new Term("title","腾讯视频"));
        Query query2=new TermQuery(new Term("content","优酷视频"));
        //封装子条件
        BooleanClause bc1=new BooleanClause(query1, BooleanClause.Occur.MUST);
        BooleanClause bc2=new BooleanClause(query2, BooleanClause.Occur.MUST_NOT);
        //MUST 布尔查询结果必须是子条件的子集
        //MUST_NOT 布尔查询结果必须不是子条件的子集
        Query query=new BooleanQuery.Builder().add(bc1).add(bc2).build();
        TopDocs topDocs = searcher.search(query,10);//先从索引倒排索引表计算,获取前10条结果
        System.out.println("查询总条数:"+topDocs.totalHits);
        ScoreDoc[] scoreDocs=topDocs.scoreDocs;
        //从数组里,解析前10条docId值,通过id读取所有document数据
        for (ScoreDoc scoreDoc:scoreDocs){
            //元素对象中就包含了一个documentId
            int docId = scoreDoc.doc;
            Document doc = searcher.doc(docId);
            System.out.println("title:"+doc.get("title"));
            System.out.println("content:"+doc.get("content"));
            System.out.println("publisher"+doc.get("publisher"));
            System.out.println("click"+doc.get("click"));
        }
    }

范围查询：
针对IntPoint ，LongPoint ，DoublPoint ，FloatPoint 这些类型，可以进行范围查询。

    public void rangeQuery() throws Exception {
        Path path = Paths.get("d:/index01");
        FSDirectory dir = FSDirectory.open(path);
        IndexReader reader= DirectoryReader.open(dir);
        IndexSearcher searcher=new IndexSearcher(reader);
        //创建查询条件
        //click属于IntPoint
        Query query=IntPoint.newRangeQuery("click",60,100);//点击量中
        //搜50次-100次的所有document集合
        TopDocs topDocs = searcher.search(query,10);//先从索引倒排索引表计算,获取前10条结果
        System.out.println("查询总条数:"+topDocs.totalHits);
        ScoreDoc[] scoreDocs=topDocs.scoreDocs;
        //从数组里,解析前10条docId值,通过id读取所有document数据
        for (ScoreDoc scoreDoc:scoreDocs){
            //元素对象中就包含了一个documentId
            int docId = scoreDoc.doc;
            Document doc = searcher.doc(docId);
            System.out.println("title:"+doc.get("title"));
            System.out.println("content:"+doc.get("content"));
            System.out.println("publisher:"+doc.get("publisher"));
            System.out.println("click:"+doc.get("click"));
        }
    }

总结图：

专题：2025供应链数智化与效率提升报告|附100+份报告PDF、原数据表汇总下载拓端研究室 php 开发语言
全文链接：https://tecdat.cn/?p=42926在全球产业链重构与数字技术革命的双重驱动下，供应链正经历从传统经验驱动向数据智能驱动的范式变革。从快消品产能区域化布局到垂类折扣企业的效率竞赛，从人形机器人的成本优化到供应链金融对中小企业的赋能，技术创新与模式重构正在重塑行业价值网络。本报告洞察基于《灼识咨询：2025中国供应链金融科技行业蓝皮书》《中国银河证券：折扣业态供应链效率深度
linux编辑器——vi/vim图解模式，命令速查泓铮 linux 编辑器 vim
一、三模式编辑器图解（大学生期末不用细看）快速记忆：只要不知道干啥先按ESC回到初始状态——命令模式，修内容进编辑（微观），看全文进末行（宏观）vi功能+新功能=vim使用vi/vim命令格式方法：1.基本打开方式：vim文件路径这种方式会打开指定的文件，并进入Vim的命令模式。如果文件不存在，Vim会提示你创建它。2.打开文件并跳转到指定行：vim行号文件路径使用这种方式，Vim会打开指定的文件
MySQL 中如何优化 DISTINCT 查询：基于 Java 的实践与应用喵手数据库 mysql java 数据库
全文目录：开篇语前言摘要简介概述1.使用索引优化2.限制选择字段3.使用`GROUPBY`替代`DISTINCT`核心源码解读Java代码示例：优化`DISTINCT`查询代码说明案例分析案例一：数据去重优化应用场景演示场景一：日志数据去重场景二：用户信息检索优缺点分析优点缺点类代码方法介绍及演示MySQLDistinctOptimization类测试用例main函数测试用例测试结果预期测试代码分
面试必问的线程池原理与实战：从源码到应用全解析混进IT圈 Java 线程池面试多线程并发编程 Tomcat Netty
摘要：本文结合JDK官方文档、《Java并发编程实战》等权威资料，深入剖析线程池的核心原理，并通过电商、消息中间件等真实场景演示选型策略。全文包含20+代码示例、5大避坑指南，帮你轻松应对面试中的高频考点。一、线程池核心原理：从JDK源码到Tomcat扩展1.1JDK原生线程池的工作机制（附源码）JDK线程池的核心是ThreadPoolExecutor，其工作流程可概括为：//核心执行逻辑（简化版
Spring Boot 与消息队列：使用 RabbitMQ 进行消息的生产与消费！ bug菌¹ 滚雪球学SpringBoot java-rabbitmq spring boot rabbitmq springboot集成消息队列
本文精选收录于《滚雪球学SpringBoot》专栏，专为零基础学习者量身打造。从Spring基础到项目实战，手把手带你掌握核心技术，助力你快速提升，迈向职场巅峰，开启财富自由之路！无论你是刚入门的小白，还是已有基础的开发者，都能在这里找到适合自己的学习路径！关注、收藏、订阅，持续更新中！和我们一起高速成长，突破自我！全文目录：前言目录1.SpringBoot与消息队列概述1.1什么是消息队列？
如何用python处理excel的数据（极值标准化）？ bug菌¹ 全栈Bug调优(实战版)python 极值标准化数据 excel
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案极值标准化公式：步骤：代码示例：代码说明：示例文件：额外功能：安装依赖：文末福利，等你来拿！✨️WhoamI?问题描述如何用python处理ex
Elasticsearch RESTful API入门：全文搜索实战（Java版）辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch restful java 大数据搜索引擎全文检索
ElasticsearchRESTfulAPI入门：全文搜索实战（Java版）本文结合Java客户端API，深入讲解Elasticsearch全文搜索的实现。包含10+个实战示例及对应的Java代码，涵盖match、multi_match、高亮显示等核心功能。一、环境准备1.添加Maven依赖org.elasticsearch.clientelasticsearch-rest-high-level
关于 Apache Doris 和 DorisDB、StarRocks 的关系白杨Shayne 大数据 Doris Starrocks
很多人都分不清ApacheDoris和DorisDB、StarRocks，以及他们之间的社区分化的原因是什么“、“为什么StarRocks不回馈给ApacheDoris”的问题。关于这些问题，ApacheDoris主要维护团队做了声明，以下是全文：关于ApacheDoris和DorisDB、StarRocks的关系ApacheDoris的前世今生相信很多同学都有些许了解，之前在公众号里有过历史文章
C++ 内存泄漏排查全攻略：万字实战宝典 TravisBytes 编程问题档案 c++开发语言 linux ubuntu
写在前面本文定位为“从入门到精通”的深度教程，全文超过12,000字，结合作者多年在Qt框架、游戏引擎、服务器端及高并发协程框架中的一线经验，系统梳理C++内存泄漏的原理、检测、定位与修复方案。示例代码均可在GCC/Clang/MSVC（C++20标准）下编译通过，并特别对Windows、Linux、macOS三大平台的差异化工具与坑点进行说明。欢迎评论区互动交流～目录1.序章：为什么你迟早会遇到
如何懂固高卡以及滚筒轴+平移轴配合运动？ bug菌¹ 全栈Bug调优(实战版)嵌入式硬件 c#其他
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案关键要点：如何实现：详细说明：注意事项：文末福利，等你来拿！✨️WhoamI?问题描述大致情况：旋转轴接了一个变频器，固高给旋转轴脉冲会给到变频
视频讲解：ARIMA-LSTM注意力融合模型跨行业股价预测应用
全文链接：https://tecdat.cn/?p=42866原文出处：拓端数据部落公众号分析师：ChengchengLi在协助券商构建股价预测系统时，团队曾面临高频波动市场的建模困境。传统ARIMA模型对极端行情响应迟滞，单一LSTM模型则存在长期依赖难题。基于该项目实践，我们提出ARIMA-LSTM注意力融合框架，通过双轨协同机制实现预测精度突破。视频讲解：ARIMA-LSTM注意力融合模型跨
计算机模拟双缝干涉实验报告,电磁场与微波实验三报告——双缝干涉实验.docx... weixin_39605840 计算机模拟双缝干涉实验报告
《电磁场与微波实验三报告——双缝干涉实验.docx》由会员分享，提供在线免费全文阅读可下载，此文档格式为docx，更多相关《电磁场与微波实验三报告——双缝干涉实验.docx》文档请在天天文库搜索。1、双缝干涉实验1.实验原理如右图所示，当一平面波垂直入射到一金属板的两条狭缝上时，则每一条狭缝就是次级波波源。由同一波源到达两缝后所发出的次级波是相干波，因此在金属板后面的空间中将产生干涉现象。当然，
阿里开源WebSailor：超越闭源模型的网络智能体新星
WebSailor简介与开源背景在人工智能领域持续创新的浪潮中，阿里通义实验室于2025年7月正式开源了其突破性成果——WebSailor网络智能体。这一开源项目标志着中国企业在复杂推理与检索技术领域的重要突破，其设计初衷直指开源生态中长期存在的关键短板：面对超高不确定性任务时的系统性推理能力缺失。填补开源生态的关键空白WebSailor的诞生源于一个被长期忽视的技术鸿沟。根据斯坦福大学《2025
Swagger学习，常用注解和使用方式星夜漫步 Swagger Swagger Swagger使用 Swagger注解
Swagger官网地址：https://swagger.io/相关知识点（个人见解，可能是错的）：1、swaggerUI中model里面的DTO是什么？DTO，全文为DataTransferObject，即数据传输对象，博主在实习时，上手一个前后端分离的项目，感觉DTO的作用更倾向于一个数据规范，后端开发定义DTO和前端进行交互，告诉前端我需要什么数据，是什么类型的，会返回什么样的数据给你。个人觉
JavaScript 异步函数优化：提升性能和可读性喵手前端 javascript 开发语言 ecmascript
全文目录：开篇语**前言****1.使用`async/await`替代回调函数****示例：回调地狱vs`async/await`****回调地狱示例：****使用`async/await`改写：****优化要点：****2.使用`Promise.all`和`Promise.race`提高并发性能****`Promise.all`示例：****`Promise.race`示例：****优化要点：*
Python爬虫实战：使用Scrapy和Selenium高效爬取USPTO美国专利数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 开发语言 selenium 测试工具
引言在当今的知识经济时代，专利数据蕴含着巨大的商业和技术价值。美国专利商标局(USPTO)作为全球最大的专利数据库之一，收录了数百万项专利信息，这些数据对于企业竞争分析、技术趋势预测和学术研究都具有重要意义。本文将详细介绍如何使用Python构建一个高效、稳定的USPTO专利数据爬虫系统。一、USPTO专利数据库概述1.1USPTO数据库结构USPTO提供了多种访问专利数据的途径：专利全文和图像数
SFTP服务器搭建实战：腾讯云 Linux 上的快速安全文件传输方案
更多云服务器知识，尽在hostol.com你有没有遇到这种情况：FTP上传老是失败？内网传输日志经常被拦截？最气的是安全部门说你那套文件传输方式“明文传输，不合规”。那好吧，现在是时候扔掉老掉牙的FTP，来点靠谱的了——SFTP。等等，SFTP是啥？SSH的“升级版”？不，是你服务器通信里那把真正的保险锁。今天就带你5分钟搞定它，尤其是在腾讯云Linux云服务器环境下，手把手实战部署，从基础到加固
AI智能体长期记忆系统架构设计与落地实践：从理论到生产部署一休哥助手人工智能人工智能
摘要长期记忆能力是AI智能体实现持续个性化服务的核心瓶颈。本文基于Mem0、MemoryOS等前沿研究，系统解析长期记忆系统的三级架构、六大原子操作与生产级优化方案，结合金融、医疗等场景案例，通过7张架构图与4张对比表格，揭示如何实现91%延迟降低与90%成本节约的企业级记忆系统。全文超6000字，提供可落地的架构范式。1长期记忆：AI智能体的认知基石1.1人类记忆与AI记忆的类比情景记忆语义记忆
Elasticsearch MacJerry elasticsearch 大数据搜索引擎
学习目标[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BGW4RqWM-1635414988340)(es.assets/Snipaste_2020-07-06_13-03-45.png)]Elasticsearch简介与安装什么是Elasticsearch？ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基
Apache Nutch介绍与部署编译
一、Nutch概述ApacheNutch是一个开放源代码的Java搜索引擎框架，它提供了运行自己的搜索引擎所需要的全部工具，包括全文搜索和Web爬虫，使用Nutch不仅可以建立自己内部网的搜索引擎，同时也可以针对整个网络建立搜索引擎。【软件特色】1、Nutch致力于让每个人能很容易，同时花费很少就可以配置世界一流的Web搜索引擎2、每个月取几十亿网页3、为这些网页维护一个索引4、对索引文件进行每秒
从被动检索到主动思考：Naive RAG 到 Agentic RAG 的架构演进与关键技术解析一休哥助手人工智能架构 RAG
摘要随着大语言模型（LLMs）的广泛应用，检索增强生成（Retrieval-AugmentedGeneration,RAG）技术已成为解决模型知识滞后与幻觉问题的核心方案。本文深入剖析从基础NaiveRAG到新一代AgenticRAG的架构演进路径，聚焦关键技术创新点（如递归检索、自适应查询改写、工具集成、多智能体协作），并通过架构图对比与案例分析，揭示其在复杂任务处理中的范式转变。全文超过500
Elasticsearch：基本概念、索引结构与优缺点分析 Leaton Lee elasticsearch 大数据搜索引擎
一、Elasticsearch基本概念Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful搜索引擎，专为云计算环境设计，能够实现近乎实时的数据搜索和分析功能。核心概念解析文档(Document)Elasticsearch中的基本数据单元，使用JSON格式表示每个文档有唯一ID和类型示例：一条产品信息、一篇博客文章或一个客户记录索引(Index)文档的集合，类似于关系数
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
stm32c8t6工程，使用hal库，如何解决？ bug菌¹ 全栈Bug调优(实战版)stm32 嵌入式硬件单片机 c语言
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案1.**分析报错问题**2.**蓝牙通信处理的中断机制**代码示例：蓝牙数据接收中断处理3.**倒计时功能实现**4.**舵机控制**5.**O
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
搜索文档的好助手：AnyTXT Searcher
一、什么是AnyTXTSearcher在办公和学习的过程中，我们常常有过这种经历，就是当我们想找一篇以前保存的文档时，只记得某个关键词，却不记得这个关键词存在了哪个文件夹哪个文档中，用系统文件夹搜索也总是找不到想要的结果。现在，有一款非常方便的全文检索工具AnyTXTSearcher，可以根据关键词对整个系统的文件进行搜索，不仅可以检索文件名，还可以检索文档中的内容，检索速度也非常快，可以极大提高
文档全文搜索引擎：AnyTXT Searcher xixi_666 搜索引擎
“超强桌面文档全文搜索引擎”：AnyTXTSearcherAnyTXTSearcher国内下载：Anytxt文档内容搜索官方下载链接，支持国产信创系统https://anytxt.net.cn/download.html
Pycaita二次开发基础代码解析：零件创建、几何集管理与发布清理实战指南 Python×CATIA工业智造 python pycatia pycharm
本文将通过深度解析三个核心类方法的实现原理：零件文档创建与草图基础、几何图形集规范管理、产品发布清理机制，揭示CATIA自动化开发的关键技术要点。全文严格基于提供的代码展开分析，不做任何修改和补充。一、零件文档创建与草图基础技术：精确控制设计起点方法功能解析create_part_document方法实现了零件文档的创建及草图平面的精确设定：@classmethoddefcreate_part_d
canal实现Mysql数据同步 BUG指挥官 MySQL数据库相关讲解 mysql 数据库
在当今互联网行业尤其是现在分布式、微服务开发环境下，为了提高搜索效率，以及搜索的精准度，会大量使用Redis、Memcached等NoSQL数据库，也会使用大量的Solr、Elasticsearch等全文检索服务和搜索引擎。那么，这个时候，就会有一个问题需要我们来思考和解决：那就是数据同步的问题！如何将实时变化的数据库中的数据同步到Redis/Memcached或者Solr/Elasticsear
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1