Edison Chou

借助 Lucene.Net 构建站内搜索引擎（上）

前言：最近翻开了之前老杨（杨中科）的Lucene.Net站内搜索项目的教学视频，于是作为老杨脑残粉的我又跟着复习了一遍，学习途中做了一些笔记也就成了接下来您看到的这篇博文，仅仅是我的个人笔记，大神请呵呵一笑而过。相信做过站内搜索的.Net程序员应该对Lucene.Net不陌生，没做过的也许会问：就不是个查询嘛！为什么不能使用Like模糊查找呢？原因很简单：模糊查询的契合度太低，匹配关键字之间不能含有其他内容。最重要的是它会造成数据库全表扫描，效率低下，即使使用视图，也会造成数据库服务器"亚历山大"！因此，有必要了解一下Lucene.Net这个神器（也许现在早已不是）！

一、Lucene.Net简介

Lucene.Net只是一个全文检索开发包，不是一个成型的搜索引擎。

它的功能就是负责将文本数据按照某种分词算法进行切词，分词后的结果存储在索引库中，从索引库检索数据的速度灰常快。

　　对以上加粗的词汇稍作下阐述：

　　文本数据：Lucene.Net只能对文本信息进行检索，所以非文本信息要么转换成为文本信息,要么你就死了这条心吧！

　　分词算法：将一句完整的话分解成若干词汇的算法常见的一元分词(Lucene.Net内置就是一元分词,效率高,契合度低),二元分词,基于词库的分词算法(契合度高,效率低)...

　　切词:将一句完整的话,按分词算法切成若干词语

　　比如："不是所有痞子都叫一毛" 这句话，如果根据一元分词算法则被切成: 不是所有痞子都叫一毛

如果二元分词算法则切成: 不是是所所有有痞痞子子都都叫叫一一毛

如果基于词库的算法有可能:不是所有痞子都叫一毛具体看词库

　　索引库:简单的理解成一个提供了全文检索功能的数据库，见下图所示：

二、几种分词的使用

　　毫无疑问，Lucene.Net中最核心的内容就是分词，下面我们来体验一下基本的一元分词、二元分词以及基于词库分词的代表：盘古分词。首先，我们准备一个ASP.Net Web项目（这里使用的是WebForms技术），引入Lucene.Net和PanGu的dll，以及加入CJK分词的两个class（均在附件下载部分可以下载），分词演示Demo的项目结构如下图所示：

2.1 一元分词

　　核心代码

    protected void btnGetSegmentation_Click(object sender, EventArgs e)
    {
        string words = txtWords.Text;
        if (string.IsNullOrEmpty(words))
        {
            return;
        }

        Analyzer analyzer = new StandardAnalyzer(); // 标准分词 → 一元分词
        TokenStream tokenStream = analyzer.TokenStream("", new StringReader(words));
        Token token = null;
        while ((token = tokenStream.Next()) != null) // 只要还有词，就不返回null
        {
            string word = token.TermText(); // token.TermText() 取得当前分词
            Response.Write(word + "   |  ");
        }
    }

View Code

　　效果演示

　　可以看到一元分词将这句话的每个字都作为一个词组。前面提到，Lucene.Net维护着一个索引库，如果每个字都作为一个词组，那么索引库会变得尤为巨大，当然，分词的算法很简单，因此分词效率上会很高。

2.2 二元分词

　　核心代码

    protected void btnGetSegmentation_Click(object sender, EventArgs e)
    {
        string words = txtWords.Text;
        if (string.IsNullOrEmpty(words))
        {
            return;
        }

        Analyzer analyzer = new CJKAnalyzer(); // CJK分词 → 二元分词
        TokenStream tokenStream = analyzer.TokenStream("", new StringReader(words));
        Token token = null;

        while ((token = tokenStream.Next()) != null) // 只要还有词，就不返回null
        {
            string word = token.TermText(); // token.TermText() 取得当前分词
            Response.Write(word + "   |  ");
        }
    }

View Code

　　效果演示

　　可以看到二元分词通过将两个字作为一个词组，在词组的数量上较一元分词有了一定减少，但是分词的效果仍然不佳，比如：个来这个分词结果就不符合语义，加入索引库也会是没什么机会会被用到。

2.3 盘古分词

　　使用步骤

　　（1）从PanGu开发包中取得PanGu.dll 与 PanGu.Lucenet.Analyzer.dll并加入到项目中

　　（2）从PanGu开发包中取得Dict文件，并在Bin目录下创建一个Dict文件夹将Dict文件一起copy进去

　　效果演示

　　可以看到，使用基于词库的盘古分词进行分词后的效果较前两种好得太多，不过中间的“就跑不脱”这个词组优点不符合语义。刚刚提到盘古分词是基于词库的分词，因此我们可以到词库里边去为跑不脱（四川方言）添加一个词组到词库当中。

　　分词扩展

　　词库就是我们刚刚加入到Bin/Dict目录下的Dict文件，借助PanGu开发包中的DictManage.exe打开Dict文件，为跑不脱添加一个词组吧!

　　（1）找到DictManage词库管理工具

　　（2）打开我们的Dict文件并添加一个词组

　　（3）在DictManage.exe中查找词组，然后保存，设置新版本号

　　（4）重新打开页面查看分词结果

　　修改词库之后的分词结果是不是更加符合我们得常规思维习惯了呢？

三、一个最简单的搜索引擎

3.1 搭建项目

　　这个Demo需要模拟的场景是一个BBS论坛，每天BBS论坛都会新增很多新的帖子，每篇帖子都会存入数据库。从前面介绍可知，数据库中的内容也会转换为文本信息存入索引库，用户在前端搜索时会直接从索引库中获取查询结果。整个流程如下图所示：

　　我们仍然在之前分词Demo的基础上实现这个小Demo，整个项目的结构如下图所示：

　　好了，准备一个Web页面来展示吧：

<%@ Page Language="C#" AutoEventWireup="true" CodeBehind="SearchEngineV1.aspx.cs" Inherits="Manulife.SearchEngine.LuceneNet.Views.SearchEngineV1" %>

<!DOCTYPE html>

<html xmlns="http://www.w3.org/1999/xhtml">
<head runat="server">
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <title>最简单的搜索引擎</title>
</head>
<body>
    <form id="mainForm" runat="server">
        <div align="center">
            <asp:Button ID="btnCreateIndex" runat="server" Text="Create Index" OnClick="btnCreateIndex_Click" />
            <asp:Label ID="lblIndexStatus" runat="server" Visible="false" />
            <hr />
            <asp:TextBox ID="txtKeyWords" runat="server" Text="" Width="250"></asp:TextBox>
            <asp:Button ID="btnGetSearchResult" runat="server" Text="Search" OnClick="btnGetSearchResult_Click" />
            <hr />
        </div>
        <div>
            <ul>
                <asp:Repeater ID="rptSearchResult" runat="server">
                    <ItemTemplate>
                        <li>Id:<%#Eval("Id") %><br />
                            <%#Eval("Msg") %></li>
                    </ItemTemplate>
                </asp:Repeater>
            </ul>
        </div>
    </form>
</body>
</html>

View Code

　　页面的结构如下图所示：

　　页面很简单，只有两个button，一个textbox，以及一个repeater列表。其中：

　　（1）Create Index : 点击该按钮会遍历文章/帖子的文本文件夹，对每个帖子进行分词，并将分词后的结果存入索引库；

　　（2）Search ：点击该按钮会将用户输入的关键词与索引库中的内容进行匹配，并将匹配后的结果显示在repeater列表中；

3.2 创建索引

　　核心代码：

    /// <summary>
    /// 创建索引
    /// </summary>
    protected void btnCreateIndex_Click(object sender, EventArgs e)
    {
        string indexPath = Context.Server.MapPath("~/Index"); // 索引文档保存位置
        FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NativeFSLockFactory());
        bool isUpdate = IndexReader.IndexExists(directory); //判断索引库是否存在
        if (isUpdate)
        {
            //  如果索引目录被锁定（比如索引过程中程序异常退出），则首先解锁
            //  Lucene.Net在写索引库之前会自动加锁，在close的时候会自动解锁
            //  不能多线程执行，只能处理意外被永远锁定的情况
            if (IndexWriter.IsLocked(directory))
            {
                IndexWriter.Unlock(directory);  //unlock:强制解锁，待优化
            }
        }
        //  创建向索引库写操作对象  IndexWriter(索引目录,指定使用盘古分词进行切词,最大写入长度限制)
        //  补充:使用IndexWriter打开directory时会自动对索引库文件上锁
        IndexWriter writer = new IndexWriter(directory, new PanGuAnalyzer(), !isUpdate,
            IndexWriter.MaxFieldLength.UNLIMITED);

        for (int i = 1000; i < 1100; i++)
        {
            string txt = File.ReadAllText(Context.Server.MapPath("~/Upload/Articles/") + i + ".txt");
            //  一条Document相当于一条记录
            Document document = new Document();
            //  每个Document可以有自己的属性（字段），所有字段名都是自定义的，值都是string类型
            //  Field.Store.YES不仅要对文章进行分词记录，也要保存原文，就不用去数据库里查一次了
            document.Add(new Field("id", i.ToString(), Field.Store.YES, Field.Index.NOT_ANALYZED));
            //  需要进行全文检索的字段加 Field.Index. ANALYZED
            //  Field.Index.ANALYZED:指定文章内容按照分词后结果保存，否则无法实现后续的模糊查询 
            //  WITH_POSITIONS_OFFSETS:指示不仅保存分割后的词，还保存词之间的距离
            document.Add(new Field("msg", txt, Field.Store.YES, Field.Index.ANALYZED,
                Field.TermVector.WITH_POSITIONS_OFFSETS));
            //  防止重复索引，如果不存在则删除0条
            writer.DeleteDocuments(new Term("id", i.ToString()));// 防止已存在的数据 => delete from t where id=i
            //  把文档写入索引库
            writer.AddDocument(document);
            Console.WriteLine("索引{0}创建完毕", i.ToString());
        }

        writer.Close(); // Close后自动对索引库文件解锁
        directory.Close();  //  不要忘了Close，否则索引结果搜不到

        lblIndexStatus.Text = "索引文件创建成功！";
        lblIndexStatus.Visible = true;
        btnCreateIndex.Enabled = false;
    }

View Code

　　效果展示：

　　应用场景：

　　在BBS论坛新发布一个帖子的事件时，添加到数据库之后，再进行创建索引的操作，保存到索引库，这样帖子内容就存了两份，一份在数据库，一份在索引库。

3.2 获取结果

　　核心代码：

    /// <summary>
    /// 获取搜索结果
    /// </summary>
    protected void btnGetSearchResult_Click(object sender, EventArgs e)
    {
        string keyword = txtKeyWords.Text;

        string indexPath = Context.Server.MapPath("~/Index"); // 索引文档保存位置
        FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NoLockFactory());
        IndexReader reader = IndexReader.Open(directory, true);
        IndexSearcher searcher = new IndexSearcher(reader);
        // 查询条件
        PhraseQuery query = new PhraseQuery();
        // 等同于 where contains("msg",kw)
        query.Add(new Term("msg", keyword));
        // 两个词的距离大于100（经验值）就不放入搜索结果，因为距离太远相关度就不高了
        query.SetSlop(100);
        // TopScoreDocCollector:盛放查询结果的容器
        TopScoreDocCollector collector = TopScoreDocCollector.create(1000, true);
        // 使用query这个查询条件进行搜索，搜索结果放入collector
        searcher.Search(query, null, collector);
        // 从查询结果中取出第m条到第n条的数据
        // collector.GetTotalHits()表示总的结果条数
        ScoreDoc[] docs = collector.TopDocs(0, collector.GetTotalHits()).scoreDocs;
        // 遍历查询结果
        IList<SearchResult> resultList = new List<SearchResult>();
        for (int i = 0; i < docs.Length; i++)
        {
            // 拿到文档的id，因为Document可能非常占内存（DataSet和DataReader的区别）
            int docId = docs[i].doc;
            // 所以查询结果中只有id，具体内容需要二次查询
            // 根据id查询内容：放进去的是Document，查出来的还是Document
            Document doc = searcher.Doc(docId);
            SearchResult result = new SearchResult();
            result.Id = Convert.ToInt32(doc.Get("id"));
            result.Msg = HighlightHelper.HighLight(keyword, doc.Get("msg"));

            resultList.Add(result);
        }

        // 绑定到Repeater
        rptSearchResult.DataSource = resultList;
        rptSearchResult.DataBind();
    }

View Code

　　效果展示：

附件下载

　　Lucene.Net开发包 : 点我下载

　　PanGu盘古分词开发包：点我下载

　　简单搜索引擎Demo：点我下载

参考资料

（1）杨中科，《Lucene.Net站内搜索公开课》

（2）痞子一毛，《Lucene.Net》

（3）MeteorSeed，《使用Lucene.Net实现全文检索》

（4）Lucene.Net官方网站：http://lucenenet.apache.org/download.html

作者：周旭龙

出处：http://edisonchou.cnblogs.com/

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文链接。

Sentinel实战：构建可靠的微服务防护系统 ivwdcwso 安全 sentinel 微服务架构防护安全 java 开发
1.引言在微服务架构中，保障系统的可用性和稳定性至关重要。Sentinel作为一个强大的流量控制组件，为我们提供了实现熔断、限流、系统保护等功能的有力工具。本文将通过实际案例，详细介绍Sentinel的使用方法和最佳实践，并探讨如何在容器环境中部署Sentinel。2.Sentinel简介Sentinel是阿里巴巴开源的面向分布式服务架构的流量控制组件，主要以流量为切入点，从流量控制、熔断降级、系
深圳SMT贴片加工厂家核心技术及服务优势解析安德胜SMT贴片其他
内容概要在电子制造领域，高效、精准的生产能力已成为企业保持竞争力的关键要素。如何通过技术创新与服务优化实现快速交付与品质保障，是当前行业关注的核心议题。深圳作为国内电子制造产业的重要聚集地，其SMT贴片加工厂家通过持续的技术迭代与服务升级，形成了独特的市场竞争力。本文将系统解析该类企业在核心技术与服务模式上的突破路径，涵盖设备精度提升、工艺创新、品控体系完善等关键维度。首先，高精度贴片设备与智能化
SMT贴片加工报价构成要素与成本优化策略解析安德胜SMT贴片其他
内容概要在现代电子制造领域，SMT贴片加工报价的精准核算直接影响企业供应链成本控制效能。本文通过结构化分析框架，系统解构报价体系的五大核心要素，并建立可操作的优化模型。研究路径覆盖从基材选型到生产规划的完整价值链，重点揭示各环节成本动因的相互作用机制。为直观呈现报价要素的关联性，特构建以下参数对照表：要素类别成本占比范围关键波动因素优化切入点PCB基材成本15-25%层数/板材类型/表面处理工艺标
macOS Catalina 10.15 - 新增功能及其他信息记录伊织code Apple 开发+10.15 macOS Catalina Sidecar
文章目录推荐阅读参考一、基本信息WWDC2019壁纸二、beta版本安装macOS10.15Xcode11三、新功能添加屏幕使用时间iPadOS应用可在Mac上运行APFS宗卷被拆分为只读的系统宗卷(System)和用户数据宗卷(Data)增加Findmy查找添加由Siri控制的「捷径」和「屏幕时间」AppleWatch可解锁MacSidecar：将iPad作为副显示屏四、其他变更终端shell建
PCB 打样哪家好？探寻专业猎板之选 lboyj 运维
在电子产业蓬勃发展的当下，PCB（印制电路板）作为电子产品的关键组成部分，其打样质量对于产品的研发和后续生产至关重要。对于众多电子工程师和企业而言，寻找一家可靠的PCB打样厂商是一项重要且具有挑战性的任务。那么，PCB打样究竟哪家好呢？接下来，让我们从多个维度来探讨这一问题，并深入了解猎板PCB在其中的表现。一、品质保障是基石优质的PCB打样，首先体现在品质上。从原材料的选择到生产工艺的把控，每一
OpenAI揭示o3的推理过程，以弥合与DeepSeek-R1的差距 c++服务器开发人工智能 deepseek
生成式人工智能开发商OpenAI公司首席执行官SamAltman最近在RedditAMA问答活动中承认，该公司在开源软件研究方面站在了“历史错误的一边”。尽管OpenAI公司尚未发布其开源模型，但已经迈出了提高透明度的第一步。正如该公司在其X帐号上所宣布的那样，其最新的推理模型o3-mini现在展示了其思维链（CoT）跟踪的更详细版本。此前，OpenAI公司的推理模型仅展示了CoT的高级概述，这使
Unity3D使用鼠标旋转缩放平移视角肚皮朝上的刺猬 unity3D Unity3D视角变换实现
Unity使用鼠标旋转缩放平移视角用代码在Game界面完美实现Scene界面的操作方法。使用方法：把脚本挂在相机上，把跟踪的target拖到脚本上。视角跟踪的是一个空物体，当然如果你是做RPG游戏需要跟踪某一角色的视角，那就不需要中键平移功能，把空物体换成角色就行。代码主要是分三部分功能进行实现。右键拖动控制视角的旋转；滚轮旋转控制视角的缩放；中键拖动控制视角的平移。右键拖动控制旋转主要是用Get
Linux-ISCSI DC_BLOG Linux linux 服务器
文章目录iSCSIiSCSI配置作者主页：点击！Linux专栏：点击！⏰️创作时间：2025年02月17日19点50分iSCSI协议是没有同步机制的，要想解决同步机制，需要配置集群文件系统或者是分布式文件系统，防止数据不同步的问题iSCSI基于IP协议的技术标准，该技术允许用户通过TCP/IP网络来构建SANiSCCI的基本组成使用3260端口进行传输iSCCI会话的建立是通过启动器（Initat
ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
形参和实参 2501_90124553 java 算法数据结构
形参（形式参数）函数定义时指定的参数，形参是用来接收数据的，函数定义时，系统不会为形参申请内存，只有当函数调用时，系统才会为形参申请内存。主要用于存储实际参数，并且当函数返回时，系统会自动回收为形参申请的内存资源。（本质上所有函数都有一个return，只不过当我们的函数返回类型是void类型的时候，return是隐式）//关于默认returnvoidfun1(){//此时return;是不建议写出
PHP 安全与加密：守护 Web 应用的基石来恩1003 PHP 从入门到精通 php 安全前端
PHP学习资料PHP学习资料PHP学习资料在当今数字化时代，Web应用无处不在，而PHP作为一种广泛使用的服务器端脚本语言，承载着无数网站和应用的核心逻辑。然而，随着网络攻击手段日益复杂，PHP应用面临着诸多安全威胁，如SQL注入、XSS攻击等，同时，数据的加密保护也至关重要。本文将深入探讨PHP中的安全问题及加密算法的应用，帮助开发者构建更安全可靠的Web应用。一、PHP安全之殇——SQL注入攻
C++ 一篇读懂“值传递”和“地址传递” xzal12 C++c++
让我们通过一个简单的、形象的比喻来帮助你理解“值传递”和“地址传递”是如何影响实参的。1.值传递想象你有一个**信封**（代表变量），里面放着一张纸条（代表数据）。你决定把这个信封寄给一个朋友，让他们看一下纸条的内容。-**过程**：你把信封寄给朋友，但你实际上给朋友的是一个**副本**，也就是你将信封和纸条的内容完全复制了一份。-**结果**：你的朋友可以看到纸条上的内容，但他们修改纸条内容时，
第26篇：pFedLoRA: Model-Heterogeneous Personalized Federated Learning with LoRA使用lora微调的模型异构个性化联邦学习还不秃顶的计科生联邦学习深度学习人工智能开发语言
第一部分：解决的问题联邦学习（FederatedLearning,FL）是一种分布式机器学习方法，允许客户端在本地数据上训练模型，同时通过中心服务器共享学习成果。传统FL框架假设客户端使用相同的模型结构（模型同构），但在实际中可能面对：统计异质性：客户端的数据分布不均（non-IID）。资源异质性：客户端硬件资源有限。模型异质性：客户端可能拥有不同的模型结构。模型异构的个性化联邦学习（MHPFL）
前后端分离跨域问题解决方案慕容屠苏大前端爬坑之路前后端分离跨域问题解决方案
前后端分离跨域问题解决方案现在的web开发中经常会用到前后分离技术，前后端分解技术，都会涉及到跨域问题。解决跨域问题的方法：第一种解决方案jsonp(不推荐使用)这种方案其实我是不赞同的，第一，在编码上jsonp会单独因为回调的关系，在传入传出还有定义回调函数上都会有编码的”不整洁”.简单阐述jsonp能够跨域是因为javascript的script标签，通过服务器返回script标签的code，
Vue.js 从新手到专家：第七章高级渲染、动态组件和插件合成 caifox菜狐狸 Vue.js 从新手到专家前端 javascript 开发语言 vue.js ecmascript 前端框架 vite
欢迎来到《Vue.js从新手到专家》的第七章！在这一章中，我们将深入探讨Vue.js的高级渲染技术、动态组件的使用以及如何通过插件扩展应用程序的功能。这些技能将帮助你构建更加灵活和可维护的应用程序。通过学习本章内容，你将掌握以下技能：理解Render函数和JSX的基本概念及其应用场景。学习函数式组件的定义及其实现方式。掌握如何为函数式组件定义Props和Emits。学习如何使用Vue插件全局地添加
同城拼车打车约车系统:Java源码全开源构建与优化狂团商城小师妹博纳miui52086 微信小程序小程序微信公众平台
同城拼车系统是一个复杂且功能全面的软件系统，它巧妙地运用互联网技术，将具有相同出行需求的乘客与车主进行精准匹配，旨在实现资源的最大化共享、显著降低出行成本、有效缓解交通拥堵问题，并大幅提升出行效率。Java，作为一种功能强大、应用广泛的编程语言，凭借其出色的跨平台性、丰富的API库以及强大的性能，成为开发此类系统的理想选择。一、Java源码构建系统架构MVC架构：同城拼车系统采用MVC（Model
详细介绍：封装简易的 Axios 函数获取省份列表还是鼠鼠 javascript vscode ajax 前端前端框架
目录关键步骤：完整代码（html）：代码解析：程序运行结果：本示例展示了如何通过封装一个简易的myAxios函数来模拟axios的功能，使用原生的XMLHttpRequest（XHR）对象来发起HTTP请求。我们将实现一个简单的功能，通过该封装函数从服务器获取省份列表数据，并在网页上显示这些省份。关键步骤：封装myAxios函数：myAxios函数接收一个配置对象（如请求的URL和方法），并返回一
手把手教你怎么用QT进行TCP数据通信 JackRedWind QT基础教学 qt tcp/ip 网络
在前面两篇我们已经构建了最基础的网络连接手把手教你们怎么在QT中使用TCP-CSDN博客手把手教你怎么用QT写Tcp客户端-CSDN博客接下来我要让服务器和客户端之间进行网络通信，所谓通信其实很简单，就是发送和接受。由于qt有信号槽机制，我们可以用信号来通知程序处理收到的数据。1.这里我们先给服务器加入接受数据的槽函数，如下图2.这里我们只要触发readyRead的信号，就会通过qDebug()打
快速提升网站收录率的10个步骤百度网站快速收录百度网站快速收录百度快速收录网站快速收录百度收录网站收录
快速提升网站收录率需要综合考虑多个方面，以下是10个具体步骤，旨在帮助网站更快地获得搜索引擎的收录：1.提交网站地图制作并提交XML站点地图：站点地图是一个包含网站所有页面链接的文件，有助于搜索引擎快速发现和抓取网站内容。通过提交站点地图给搜索引擎，可以显著提高网站的收录速度。2.保持内容更新定期发布高质量内容：搜索引擎喜欢更新频繁的网站，因此保持网站内容的定期更新是提高收录率的关键。确保内容原创
科普：Docker run的相关事项人工干智能 docker eureka java
一、镜像名（含标签）太长如，通过如下命令行：dockerpulldesignthru2019/dify:56c6d1af0944dbdb5e0115cb623ff0e118a4ac62拉取的镜像名（及标签）太长，可以通过改名的方法变短。在Docker中，拉取到本地的镜像可以改名。本质上，这并不是直接修改镜像本身，而是为镜像添加一个新的标签（tag），因为Docker中的镜像名称和标签其实就是对镜像
基于立创·天空星开发板-GD32F407VET6-青春版，开发一款手持热成像仪。该设备将采集热红外传感器的数据，经过处理后在LCD屏幕上显示热图像，并提供用户交互界面。嵌入式程序员小刘物联网单片机嵌入式硬件开源
本项目基于立创·天空星开发板-GD32F407VET6-青春版，开发一款手持热成像仪。该设备将采集热红外传感器的数据，经过处理后在LCD屏幕上显示热图像，并提供用户交互界面。关注微信公众号，提前获取相关推文一、需求分析核心功能:热图像采集:读取热红外传感器数据。图像处理:将原始传感器数据转换为可显示的彩色或灰度热图像。图像显示:在LCD屏幕上实时显示热图像。温度测量:计算并显示图像中特定点的温度值
银行排队问题之单队列多窗口服务[天梯赛 -- 栈和队列] 苏慕TRYACE 算法数据结构 c++
文章目录题目描述思路AC代码题目描述输入样例9020115161210105103301831253123输出样例参考文章思路队列模拟存储结构：使用结构体，存储每一个客户的到达时间和处理时间==（最大为60，大于60的，按60处理）==；用两个数组分别存储每一个窗口的办理人数和该窗口结束上一次处理的时间点具体流程：由于题目给定的顾客顺序是按照时间先后，因此我们顺序处理即可1.依次遍历每一个窗口，用
清华大学第四发《DeepSeek+DeepResearch 让科研像聊天一样简单》人工智能
当下科研领域，传统模式急需改变，清华大学第四版《DeepSeek+DeepResearch：让科研像聊天一样简单》全文一共86页，以下是文档的关键内容总结：一、智能组合优势DeepSeek与DeepResearch构建先进技术体系，有强大模型运算、智能数据处理和友好交互界面。模型在数据处理速度、精准度和泛化能力上远超传统模型。数据采集渠道广、处理快，能读取多种格式文件。数据分析深入，可视化直观，还
基于微信小程序的宠物寄养平台的设计与实现图灵软件设计 JAVA SSM 小程序微信小程序小程序 spring boot maven 后端 java mybatis
现在宠物寄养管理中已有一些商家使用了基本的管理软件，这些软件都是依靠客户端，只可以特定人员使用，不能实现信息的共享。虽然可以帮助工作人员减少工作量，但从根本上还是无法满足用户的需求。这些软件都还是基于网络发展之初的要求，没有利用现代网络的技术，体现不了更为实用的功能。依靠客户端的系统开发时没有考虑园际化的问题，所以也满足不了国际化的要求。最近几年来，我国网络快速发展，传统的管理方式也越来越适应不了
mysql实时同步到es 数据库
测试了多个方案同步，最终选择oceanu产品，底层基于Flinkcdc1、实时性能够保证，binlog量很大时也不产生延迟2、配置SQL即可完成，操作上简单下面示例mysql的100张分表实时同步到es，优化备注等文本字段的like查询创建SQL作业CREATETABLEfrom_mysql(idint,cidintNOTNULL,gidbigintNOTNULL,contentvarchar,c
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
HarmonyOS Next智能家居控制系统的模型转换与数据处理实战 harmonyos
本文旨在深入探讨基于华为鸿蒙HarmonyOSNext系统（截止目前API12）构建智能家居控制系统中模型转换与数据处理技术的实战应用，基于实际开发经验进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、智能家居系统需求与技术选型（一）功能需求分析设备状态监测需求智能家居控制系统需要实时监测各种智能设
信息获取、扫描与服务识别、漏洞验证、嗅探攻击、代理与隧道、metasploit渗透攻击等 Utopia.️ web安全安全网络
1.信息获取信息获取是渗透测试和安全评估的第一步，主要目的是收集目标系统的各种信息。这些信息可以帮助确定攻击面和潜在的安全漏洞。技术和工具：域名信息：使用whois查询域名注册信息。DNS查询：使用nslookup或dig获取DNS记录，包括A记录、MX记录等。网络扫描：使用nmap或Masscan扫描目标网络，收集IP地址和开放端口信息。公开信息：通过搜索引擎、社交媒体、公司网站等公开资源获取目
vue3的Element plus （一） GIS瞧葩菜 Element plus vue elementui Element plus vue3
介绍ElementPlus是一个基于Vue3的UI组件库，它是对ElementUI组件库的升级和扩展。ElementPlus提供了一套美观、易用且高效的组件，可以用于构建现代化的Web应用程序。ElementPlus的主要特点包括：支持Vue3：ElementPlus是专为Vue3开发的，充分利用Vue3的新特性和优势。TypeScript支持：ElementPlus提供了完整的TypeScrip
深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系时光旅人01号深度学习 pytorch opencv
想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。为了让工厂顺利运转，你需要搭建基础设施、安装设备、设置生产线，并配备控制台来管理整个生产过程。以下是这座工厂的详细构建过程：1.工厂的基础设施：Ubuntu比喻：Ubuntu是工厂所在的土地和建筑，提供了基础设施和运行环境。作用：提供操作系统环境，支持安装和运行各种工具和框架
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

借助 Lucene.Net 构建站内搜索引擎（上）

一、Lucene.Net简介

二、几种分词的使用

2.1 一元分词

2.2 二元分词

2.3 盘古分词

三、一个最简单的搜索引擎

3.1 搭建项目

3.2 创建索引

3.2 获取结果

附件下载

参考资料

你可能感兴趣的:(借助 Lucene.Net 构建站内搜索引擎（上）)