wws199304

[置顶] Lucene连接数据库进行全文搜索初探（一）

Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎，例如：Web论坛Jive,邮件列表HTML归档/浏览/查询系统Eyebrows,包括我们熟悉的Eclipse的全文帮助搜索功能。在实际开发中，因为数据库不是专为全文搜索设计的，所以对于全文搜索，特别是模糊查询类的全文搜索，用Lucene就比数据库的效率有优势的多。对于变化很少，但查询访问量大的数据，将数据库的数据以document形式存在本地，访问的时候不经过数据库，可以减少数据库压力。对于第一个Lucene程序，编写主要分以下几个步骤：

1.初始化Lucene的检索工具IndexSearcher

IndexSearcher是Lucene中最基本的检索工具，所有的检索都会用到IndexSearcher检索工具，但是在使用IndexSearcher之前，还要做一些准备工作，即对检索工具IndexSearcher进行初始化。

初始化IndexSearcher，需要设置索引存放的路径，这样才能让查询器定位索引，用于后面进行搜索。如以下为一个初始化IndexSearcher的过程：(4种方式）

public IndexSearcher(String path) throws IOException {
this(IndexReader.open(path), true);
}

public IndexSearcher(Directory directory) throws IOException {
this(IndexReader.open(directory), true);
}

public IndexSearcher(IndexReader r) {
this(r, false);
}

private IndexSearcher(IndexReader r, boolean closeReader) {
reader = r;
this.closeReader = closeReader;
}

如：Searcher searcher = new IndexSearcher(indexDir);

返回的结果是IndexSearcher类的一个实例，indexDir表示索引文件的存放路径。

2.构建索引器和索引函数

实例化一个构造器：

IndexWriter writer = new IndexWriter("D:/index/", new PanGuAnalyzer(), true);   //索引的存储位置

这个函数有三个参数，分别是：path——索引文件存放路径，a——分词工具，create——true表示建立索引

3.建立索引

将要建立索引的文件构造成一个Document对象，并添加一个域，如：

Document doc = new Document();
doc.Add(new Field("id", item.id.ToString(), Field.Store.YES, Field.Index.UN_TOKENIZED));

这里先解释下三个概念：

1）Field:可以理解成索引文件中一个个的字段块，占用空间按字段长度分配。
2）Store:一个内部类，它是static的，主要为了设置Field的存储属性.

主要有以下几种：

public static final Store COMPRESS = new Store("COMPRESS"); // 在索引中压缩存储Field的值
public static final Store YES = new Store("YES");//在索引中存储Field的值
public static final Store NO = new Store("NO"); // 在索引中不存储Field的值

3.）Index: 通过Index设置索引方式，有以下几种：

public static final Index TOKENIZED = new Index("TOKENIZED"); // 对Field进行索引，同时还要对其进行分词(由Analyzer来管理如何分词)
public static final Index UN_TOKENIZED = new Index("UN_TOKENIZED"); // 对Field进行索引，但不对其进行分词
public static final Index NO_NORMS = new Index("NO_NORMS"); // 对Field进行索引，但是不使用Analyzer

4.优化检索，关闭写入

writer.Optimize(); //添加完所有document，我们对索引进行优化，优化主要是将多个索引文件合并到一个，有利于提高索引速度。 

writer.Close();//随后将writer关闭，这点很重要。

5.开始检索

1)首先创建一个容器来存放你从索引文件中读取到的数据，这里我们使用Table

private DataTable dt()
        {
            DataTable mytab = new DataTable();
            mytab.Columns.Add("ID");
            mytab.Columns.Add("TRADENAME");
            mytab.Columns.Add("AREANAME");
            mytab.Columns.Add("COMPANYNAME");
            mytab.Columns.Add("FHDES");
            mytab.Clear();
            return mytab;
        }

2）读取索引文件中的数据

private IndexSearcher LuceneSource()
        {
            string INDEX_STORE_PATH = "D:/index/";  //INDEX_STORE_PATH 为索引存储目录   
            return new IndexSearcher(INDEX_STORE_PATH);
        }

3）得到过滤后数据，即查询条件，你可以理解成SQL里的where条件
lucene的搜索相当强大，它提供了很多辅助查询类，每个类都继承自Query类，各自完成一种特殊的查询，你可以像搭积木一样将它们任意组合使用，完成一些复杂操作；另外lucene还提供了Sort类对结果进行排序，提供了Filter类对查询条件进行限制。你或许会不自觉地拿它跟SQL语句进行比较：“lucene能执行and、or、order by、where、like‘%xx%’操作吗？”回答是：“当然没问题！”

a. TermQuery
首先介绍最基本的查询，如果你想执行一个这样的查询：“在content域中包含‘lucene’的document”，那么你可以用TermQuery：

<span style="white-space:pre">	</span>Term t = new Term("content", " lucene");Query query = new TermQuery(t);

b.BooleanQuery

如果你想让产品名称或者产品发货说明匹配关键字，那么你可以用：

<span style="white-space:pre">	</span>strkeyword = Common.ProductAbout.GetKeyWordsSplitBySpace(strkeyword, new PanGuTokenizer());
                QueryParser companynameparser = new QueryParser("companyname", new PanGuAnalyzer(true));
                Query companynamequery = companynameparser.Parse(strkeyword);
                QueryParser productnameparser = new QueryParser("productname", new PanGuAnalyzer(true));
                Query productdesquery = productnameparser.Parse(strkeyword);
                bq.Add(productdesquery, BooleanClause.Occur.SHOULD);<span style="font-family: Arial, Helvetica, sans-serif;">//</span><span style="font-family: Arial, Helvetica, sans-serif;">此处的BooleanClause.Occur，此类有2个重要的属性，SHOULD和MUST，</span>

<span style="font-family: Arial, Helvetica, sans-serif;"><span style="white-space:pre">				</span>//SHOULD你就理解成SQL里’OR’，MUST理解成SQL里的’AND’,此处表示要同时满足productdesquery和idquery</span>

                bq.Add(companynamequery, BooleanClause.Occur.SHOULD);

c.WildcardQuery

可以使用通配符*，？等进行查询：

<span style="white-space:pre">	</span>Query query = new WildcardQuery(new Term("content", "use*");

d.PrefixQuery

如果你想搜以‘淘’开头的词语，你可以用PrefixQuery：

<span style="white-space:pre">	</span>PrefixQuery query = new PrefixQuery(new Term("content ", "淘");

e.FuzzyQuery

用于搜索相似的词，使用Levenshtein算法。如搜索"happy"类似的词：

<span style="white-space:pre">	</span>Query query = new FuzzyQuery(new Term("content", "wuzza");

f. RangeQuery

允许搜索时间域从20150302到20150324之间的document

<span style="white-space:pre">	</span>RangeQuery query = new RangeQuery(new Term(“time”, “20150302”), new Term(“time”, “20150324”), true);//true表示含边界

6.构建Query

在使用Query之前，需要首先生成一个Query对象。Lucene既允许直接生成一个Query类型的对象，也允许使用QueryParser类的parse()方法来返回一个Query类型的对象。这两种方法在功能上是完全一样的，只是后者在使用时更方便一些，而前者则更为灵活。在API中的格式：

public static Query parse(String query, String field,Analyzer analyzer)

7.搜索并处理返回结果

在构建完Query对象后，就可以使用前面已经初始化好的IndexSearcher工具来进行检索了。IndexSearcher提供了良好的检索接口，用户只需简单地将Query对象传入，就可以得到一个返回结果。当然，这个过程看似简单，其中也有许多值得思考的问题，如检索结果的排序、过滤等。在Lucene中搜索结果的集合是用Hits类的实例来进行表示的。Hits对象中主要有以下几个经常使用的方法：
• length()：返回搜索到结果的总数量。
• doc(int n)：返回第n个文档。
• id(int n)：返回第n个文档的内部ID号。
• score(n)：返回第n个文档的得分。

在开发Web相关应用时，简便的方法是当某个用户检索完毕后，可直接将返回的Hits对象存入该用户的session中，然后根据用户的需要进行相关查询。不过这里读者要注意的一点，由于Hits对象被放入session中，并不适合存入大量文本。因为若是这样，对用户来说，可能导致浏览器的响应速度极慢，对服务器方来说，可能导致服务器的内容被大量Hits所占用，最终造成服务器的崩溃。比较好的一种方式，是将Lucene与数据库相结合，在索引中存入一些关键性的ID字段、路径字段或是简单的文本，而真正的数据提取则从数据库中得到。这样一来既可以发挥Lucene优势，也可以使服务器端的压力减轻。例子：

private Hits LuceneFilteridSource(BooleanQuery bq)
        {

            IndexSearcher mysearch = LuceneSource();
            Sort sort = new Sort(new SortField("ID", SortField.DOC, false));//排序  
            return mysearch.Search(bq, sort);

        }

这里的SortField("ID", SortField.DOC, false)指的是对id这个字段进行倒序。SortField主要有以下属性：

FIELD_DOC：按文档数字排序

FIELD_SCORE：按文档分值排序

MissingValue看了API但是没懂，就不提了。

最后的true表示反序，true为正序。

为了减少一次Hits所返回的数据量，可以用将数据放在多个Document里面，如：

Document doc1 = new Document();
doc1.add(Field.Text("contents", "word1 word"));
doc1.add(Field.Keyword("path", "path\\document1.txt"));

Document doc2 = new Document();
doc2.add(Field.Text("contents", "word2 word"));
doc2.add(Field.Keyword("path", "path\\document2.txt"));

Document doc3 = new Document();
doc3.add(Field.Text("contents", "word3 word"));
doc3.add(Field.Keyword("path", "path\\document3.txt"));

writer.addDocument(doc1);
writer.addDocument(doc2);
writer.addDocument(doc3);

要想进一步改进可以研究下Hits的缓存机制。

注意，LUCENE不支持关键词为空的情况，所以如果你想把索引文件中所有的数据都调用出来，那可以用如下方法：

for (int i = 0; i < mysearch.MaxDoc(); i++)
                {
                    Document doc = mysearch.Doc(i);
                    FillingTable(mytab, doc);
                }

下面是我写的一个用Lucene连接MySQL获取数据的入门例子：

环境：MyEclipse+MySQL

导入的包：

数据库表：Student

实现功能：输入名字，返回学生记录的id和地址：

package test;


import java.awt.List;
import java.io.BufferedInputStream;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.Reader;
import java.io.StringReader;
import java.sql.*;

import org.apache.lucene.search.Hits;
import org.apache.lucene.search.Query;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.*;

import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.TermPositionVector; 
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.RAMDirectory;


import jeasy.analysis.MMAnalyzer; 


public class TestLucene {
	
	
	
    private static ResultSet recrd;
    static MMAnalyzer analyzer=new MMAnalyzer();
    /**
     * @param args
     */
    public static void main(String[] args) {
//        MMAnalyzer analyzer=new MMAnalyzer();
        try {
            
            File indexpath= new File("F://index");
            IndexWriter writer=new IndexWriter(indexpath,
                    analyzer,true);
             recrd=getConn();                        //获取数据库的记录集
//            while (recrd.next()) {
//                System.out.println(recrd.getString(2));
//                
//           }

            IndexBuilder(writer);                     //建立索引
            BufferedReader bReader= new  BufferedReader(new InputStreamReader(System.in)); 
            String query=bReader.readLine().toString(); 
            System.out.println(query);
            Hits hits=    search(query);                   //输入查询内容后，查询
           
            for(int i=0;i<hits.length();i++){           //返回查询后结果
                Document document=hits.doc(i);
                System.out.println(document.get("user_id"));
                System.out.println(document.get("username"));
                System.out.println(document.get("address"));
            }
        } catch (Exception e) {
            // TODO: handle exception
        }
        

    }
    
    public static Hits search(String quString){                   //搜索用户输入的字符
        Hits hits=null;
        try {
            IndexSearcher iSearcher = new IndexSearcher(IndexReader
					.open("F://index"));
            QueryParser parser=new QueryParser("username",analyzer);
            Query query=parser.parse(quString);
            System.out.println(query.toString());
            
            hits=iSearcher.search(query);
            return hits;
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
        return null;
        
        
    } 
    
    public static void IndexBuilder(IndexWriter fWriter) throws Exception{             //建立索引
        while(recrd.next()){
            
        Directory ramDirectory=new RAMDirectory();
        IndexWriter ramWriter=new IndexWriter(ramDirectory,
                new StandardAnalyzer(),true);
        Document document=new Document();
        Field id= new Field("user_id",recrd.getString("user_id"),Field.Store.YES,
                Field.Index.TOKENIZED);
        Field name=new Field("username",recrd.getString("username"),Field.Store.YES,
                Field.Index.TOKENIZED);
        Field age=new Field("address",recrd.getString("address"),Field.Store.YES,
        		Field.Index.TOKENIZED
);
        
    
        document.add(id);
        document.add(name);
        document.add(age);
        
        ramWriter.addDocument(document);
        ramWriter.close();
        fWriter.addIndexes(new Directory[]{ramDirectory});
        
        }
    }

    public static ResultSet getConn() {                                       //建立数据库连接，并返回结果
        try {
            Class.forName("com.mysql.jdbc.Driver");
            String url="jdbc:mysql://localhost:3306/ss";
            
            Connection conn = DriverManager.getConnection(url, "root", "123");
            Statement stmt = conn.createStatement(ResultSet.TYPE_SCROLL_SENSITIVE,ResultSet.CONCUR_UPDATABLE);
            String sql = "select * from Student";
            ResultSet rs = stmt.executeQuery(sql);
            return rs;
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        return null;
    }

}

结果：

再次声明下，好像Lucene的版本更新变化很大，现在最新是Lucene5，据说已经不支持Lucene3以前的版本，Fields的Store和Index属性貌似被废除了，我在Lucene4的Api里面见到还有，但是用高版本的Lucene好像记得有报错，说没有这个方法。还有就是本来是连接SQLServer的，但是没连成，估计是编码问题。因为之前用Lucene来为本地文件建立检索和搜索时，文件源用记事本新建（编码默认为ANSI)，就搜索不到结果，要另存为UTF-8才行，而从SQLServer搜索出来的query是没问题的。但是好像SQLServer不能改编码为UTF-8,只能GBK最多。这点有待探究。如果有幸你能看到我的博文，并有什么发现，欢迎大家交流赐教。

本文参考了一些百度上的资料，但是大部分系自己实践探索成果。转载请注明：http://blog.csdn.net/wws199304/

【GreatSQL优化器-02】索引和Sargable谓词数据库mysql
【GreatSQL优化器-02】索引和Sargable谓词一、Sargable谓词介绍GreatSQL的优化器在有过滤条件的时候，需要先把条件按照是否有索引来进行区分，可以用索引来加速查询的条件称为Sargable，其中arge来源于SearchArgument（搜索参数）的首字母拼成的"SARG"。GreatSQL用keyuse_array索引数组和Sargables数组来储存Sargable谓
网络安全渗透测试的八个步骤披荆斩棘的GG 学习路线 Web安全网络安全 web安全网络安全
一、明确目标1.确定范围：测试目标的范畴、ip、网站域名、内外网、检测帐户。2.确定标准：能渗入到何种程度，所花费的时间、能不能改动提交、能不能漏洞利用、这些。3.确定要求：web应用的漏洞、业务逻辑漏洞、工作人员管理权限管理漏洞、这些。二、信息收集1.方法：积极扫描仪，开放搜索等。2.开放搜索：使用百度搜索引擎得到：后台管理、未经授权网页页面、比较敏感url、这些。3.基础信息：IP、子网、网站
Python 和Selenium统计jira tomchn 笔记
我最近写了一个Python程序，自动提取Excel数据，用Selenium统计Jiras数据，并写入Excel。1.openPage打开并登录Jira，打开需统计的jira的页面，页面的search文本框，输入查询条件，就是sql语句，在jira中，叫做jql.2.statistic统计jira数据，并写入Excel。从Excel读取要搜索的条件：读取这个sheet：“JiraData”读取jir
确定电机极对数的两种方法 GivemeAK 嵌入式硬件
目前检索到的两种方法：方法1：旋转电机观测任意两相的波形【BLDC】使用示波器测量无刷电机极对数_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1iY411377Z/?spm_id_from=333.337.search-card.all.click&vd_source=0cac5d2ea8bab18974778b90331f9f30示波器上有几个脉冲
elasticSearch数据的导入和导出 ZNineSun 大数据 elasticsearch elasticdump node
es数据的导入和导出需要借助于elasticdump工具，这是一个nodejs的插件，安装方式直接使用npm即可，安装指令如下：npminstallelasticdump-g如果您的电脑还未安装Node环境，请移步此处：《npm安装教程》1.导出指定索引的数据到本地elasticdump--input=http://localhost:9200/demo--output=D:/ES/date/de
Python 操作 Elasticsearch 全指南：从连接到数据查询与处理 XMYX-0 python elasticsearch jenkins
文章目录Python操作Elasticsearch全指南：从连接到数据查询与处理引言安装`elasticsearch-py`连接到Elasticsearch创建索引插入数据查询数据1.简单查询2.布尔查询更新文档删除文档和索引删除文档删除索引批量插入数据处理分页结果总结Python操作Elasticsearch全指南：从连接到数据查询与处理引言在大数据分析与搜索应用中，Elasticsearch是
【Es】python es操作小毛驴吃梨子 elasticsearch python 大数据
表因为es是集群所以es_hosts是列表fromelasticsearchimportElasticsearchES_HOSTS=["127.0.0.1:9200"]ES_HTTP_AUTH="******************"#连接Eses=Elasticsearch(hosts=ES_HOSTS,http_auth=ES_HTTP_AUTH,maxsize=60,timeout=30,m
python连接elasticsearch实战（附完整代码）当初 python elasticsearch
python连接elasticsearchfromelasticsearchimportElasticsearchfromelasticsearch.helpersimportscanES_HOSTS=[{'host':'','port':9200,'scheme':'http'}]es=Elasticsearch(hosts=ES_HOSTS,basic_auth=('账号','密码'))#检查
【Elasticsearch 】聚合分析：聚合概述程风破～ Elasticsearch elasticsearch 大数据搜索引擎
博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分
二分查找（Java版）爱学Java Java数据结构与算法 java 算法
二分查找算法Java版算法介绍算法复杂度算法思想算法注意事项算法基础版改进版平衡版最左侧查找最右侧查找总结二分查找算法介绍算法复杂度时间复杂度：O(logn)空间复杂度：O(1)算法思想二分查找（BinarySearch）是一种高效的搜索算法，适用于在有序数组或序列中查找目标元素的位置。其核心思想是利用数组的有序性，将查找范围逐步缩小至目标值所在的子范围。1，确定查找范围：在有序数组中，设定两个指
deepin-grep详解：文本搜索的强大工具 deepin
在Linux系统中，grep命令是一个极其强大的文本搜索工具，广泛应用于文本处理、日志分析和数据筛选等场景。它的全称是“GlobalsearchREgularexpressionandPrintouttheline”，即全局搜索正则表达式并打印匹配的行。本文将详细介绍grep命令的基本用法、常用选项以及正则表达式的使用技巧。1.grep命令的基本功能grep命令的主要作用是从文本文件或管道数据流中
Mac安装java及多版本快速切换 nanason Java macos java jdk mac bash
安装JDK法1.brew安装#旧adoptopenjdk8#brewinstall--caskhomebrew/cask-versions/adoptopenjdk8#新adoptopenjdk8brewinstall--casktemurin8brewsearchjdk会报错，查了下可能是库的问题，Homebrew的adoptopenjdk-jreCask定义中的appcast属性已被弃用,需要
老域名建站更好吗？域名域名申请域名配置
在互联网的世界里，域名不仅是网站的地址，更是品牌的重要组成部分。随着互联网的发展，关于域名的选择也出现了不同的观点，尤其是老域名和新域名的使用。那么，老域名建站是否更好呢？这是一个值得探讨的问题。本文将从多个角度分析老域名建站的优缺点，帮助大家更好地做出选择。一、老域名的潜在优势搜索引擎信任度：如果一个老域名在过去有良好的使用记录，未涉及违规或垃圾信息，搜索引擎可能已经对其建立了一定的信任度。例如
CV高手是怎么炼成的? 工具
引言你平时都怎么复制粘贴的？是否每次都是复制一段粘贴一段？是否厌倦了每次只能复制粘贴一次的限制？那这篇文章就是为你量身订做的。CopyQ简介CopyQisclipboardmanager–adesktopapplicationwhichstorescontentofthesystemclipboardwheneveritchangesandallowstosearchthehistoryandco
老域名建站更好吗？域名域名申请域名配置
在互联网的世界里，域名不仅是网站的地址，更是品牌的重要组成部分。随着互联网的发展，关于域名的选择也出现了不同的观点，尤其是老域名和新域名的使用。那么，老域名建站是否更好呢？这是一个值得探讨的问题。本文将从多个角度分析老域名建站的优缺点，帮助大家更好地做出选择。一、老域名的潜在优势搜索引擎信任度：如果一个老域名在过去有良好的使用记录，未涉及违规或垃圾信息，搜索引擎可能已经对其建立了一定的信任度。例如
基于TSN的混合5G网络中的确定性通信研究需求与综述神一样的老师论文阅读分享网络
ResearchDemandandReviewonDeterministicCommunicationinHybrid5GnetworksbasedonTSNMahmoudAlqudahUniversityofSiegenSiegen,Germanymahmoud.alqudah@uni-siegen.deRomanObermaisserUniversityofSiegenSiegen,Germa
RPA手把手：【Intermediate Python】一、*args 和 **kwargs 艺赛旗RPA RPA RPA教程 python基础 RPA python 艺赛旗
艺赛旗RPA10.0全新首发免费下载点击下载www.i-search.com.cn/index.html?from=line1我观察到，大部分新的Python程序员都需要花上大量时间理解清楚*args和**kwargs这两个魔法变量。那么它们到底是什么？首先让我告诉你，其实并不是必须写成args和**kwargs。只有变量前面的星号才是必须的，你也可以写成var和vars，而写成*args和kwa
大数据：数字时代的变革引擎大数据
在当今这个数字化飞速发展的时代，大数据无疑是最为耀眼的存在，如同变革的引擎，驱动着各个领域的创新与发展。大数据的起源可追溯到信息技术发展的早期阶段。随着计算机的诞生和数据存储技术的逐步发展，人们开始积累越来越多的数据。然而，早期的数据量相对较小，处理和分析技术也较为有限。直到互联网的普及，数据的产生方式发生了根本性的变化。网站、搜索引擎、社交媒体等互联网应用的兴起，使得数据量呈爆炸式增长。每天，全
ELK Stack学习笔记在线打码学习笔记 redis linux centos es elk
一、ELKStack简介1、Elasticsearch一个实时的分布式搜索和分析引擎，它可以用于全文搜索，结构化搜索以及分析。它是一个建立在全文搜索引擎ApacheLucene(信息检索的工具jar包)基础上的搜索引擎，使用Java语言编写2、Logstash一个完全开源的工具，可以对日志进行收集、过滤，并将其存储供以后使用。是开源的服务器端数据处理管道，能够从多个来源收集数据、转换数据。并保存到
我的软件架构师——Java 职位面试经历。小蜗牛慢慢爬行 java 面试开发语言职场和发展后端 spring boot spring
最近，我参加了一家领先的服务型公司的软件架构师（Java）职位的面试。我在这里分享了一些面试官问我的问题。我只列出了与Java相关的问题，因为本文主要关注Java。面试官问我有关AWS、Docker、Kubernetes、Kafka、ElasticSearch、SQL/NoSQL和设计模式的问题。ClassNotFoundException和NoClassDefFoundError有什么区别？当您
二分(C++) 数的范围三次方根你干码，哎哟算法 c++排序算法
二分通常指的是二分查找（BinarySearch），它是一种高效的查找算法，用于在有序数组中查找某一特定元素的位置。二分查找的思路是：每次取中间位置的元素与目标值进行比较。如果中间位置的元素正好等于目标值，则查找成功。如果中间位置的元素大于目标值，则在数组的左半部分继续查找。如果中间位置的元素小于目标值，则在数组的右半部分继续查找。重复上述过程，直到找到目标值或查找范围为空。一.数的范围题目给定一
Python在WRF模型自动化运行及前后处理中实践技术应用-包括数据处理、模型运行、结果可视化等步骤。 KY_chenzhao python 自动化开发语言
1.背景与目标WRF（WeatherResearchandForecasting）模型是中尺度气象数值模式的佼佼者，广泛应用于气象预报和气候研究。Python在WRF模型中的应用主要体现在前后处理、自动化运行和数据可视化等方面。本文将以风速预测为例，详细说明Python在WRF模型中的具体应用，包括数据处理、模型运行、结果可视化等步骤。2.数据准备数据来源包括WRF模型的输出数据和实际观测数据。这
构建一个查询分析系统 AWsggdrg 数据库 python
技术背景介绍在构建一个查询分析系统时，需要能够加载文档、使用聊天模型、生成嵌入、创建向量存储并执行检索。这些过程的目标是将用户输入的查询优化，以实现更为精准的检索结果。本文将通过一个端到端的示例展示如何使用查询分析提升检索结果的相关性。我们将着眼于如何对LangChain的YouTube视频进行检索，并通过查询分析解决原始用户问题直接传递给搜索引擎时可能出现的失败模式。核心原理解析查询分析的核心在
网络技术发展的演变与未来展望大丈夫立于天地间水网络
网络技术作为信息社会的重要基石，在过去几十年中经历了快速的发展和巨大的变革。从最初的ARPANET，到现在广泛使用的互联网，再到未来多国正在积极研发的6G网络，人类社会对网络技术的依赖程度不断加深，网络技术也持续推动着社会经济生活和文化方式的转变。第一代网络技术：构造基础互联网的起源可以追溯到1960年代的美国，美国国防部DAC(AdvanceResearchProjcetsAgency)为了军事
张丽霞：对地址转换（NAT）的回顾与反思 junecauzhang 软件综合 internet 互联网网络防火墙工作 transactions
张丽霞：对地址转换（NAT）的回顾与反思PostedonFebruary24,2009byDuanHaixin作者简介：张立霞，美国UCLA计算机系教授，互联网体系结构委员会（IAB）委员，IETFIRTFRoutingResearch工作组副主席（co-chair）,ACM会员（Fellow）,曾担任ACMSIGCOMM副主席(1999-2003),IEEECommunicationSociet
精通爬虫技术：从入门到入狱——网络数据爬虫的合法性与法律边界
了解数据爬虫的原理、用途、法律风险与合规性。本文深入解析网络爬虫的工作机制，探讨其在数据采集、搜索引擎等领域的应用。同时，重点关注Robots协议、反爬虫技术、开放数据等合规性问题，并分析相关法律案例，助您合法安全地使用爬虫技术。文章目录什么是网络数据爬虫？数据爬虫的工作原理数据爬虫的应用与影响数据爬虫的广泛用途数据爬虫带来的负面影响和潜在风险数据爬虫的合规性问题开放数据与非开放数据Robots协
Pinterest联盟营销综合指南好运来__ 大数据网络人工智能服务器 ip
Pinterest不仅是社交媒体平台，还是一个优质的视觉搜索引擎，独特的交互方式和平台生态使得Pinterest依然很受欢迎，因此它也成为最适合进行联盟营销的平台之一。一、为什么要使用Pinterest联盟营销1.活跃用户多Pinterest活跃用户数超过5亿，庞大的用户基础在一定程度上意味着更高的购买潜力。2.用户质量高根据PAConsulting和Pinterest的数据，奢侈品牌最关注的消费
深度解析智能问答系统：如何打造精准、高效的AI对话架构？和老莫一起学AI 人工智能架构自然语言处理产品经理语言模型学习 ai
在人工智能的飞速发展中，智能问答系统（QA系统）逐渐成为了企业内部管理、客户服务、搜索引擎等多个领域中的关键技术。今天，我们将深入探讨一个基于大模型、自然语言处理、知识检索的智能问答系统的架构，详细介绍其技术原理、流程以及未来应用前景。一、系统整体概览在这个智能问答系统中，整个流程可以大致划分为两大部分：前端问答生成与后端离线数据处理。前端部分是用户交互的核心，通过用户的输入、关键词提取、检索和问
Dufs开源Web文件服务器爱辉弟啦 linux运维 linux 运维服务器 Web文件服务器开源软件
介绍：Dufs是一个独特的实用文件服务器，支持静态服务，上传，搜索，访问控制，webdav…GitHub-sigoden/dufs:Afileserverthatsupportsstaticserving,uploading,searching,accessingcontrol,webdav…功能列表提供静态文件下载文件夹为zip文件上传文件和文件夹(拖放)创建/编辑/搜索文件可恢复的部分上传/下
【Elasticsearch 实战应用】 wenshao.du elasticsearch
Elasticsearch实战应用在现代企业技术架构中，Elasticsearch因其出色的性能、可扩展性和易用性，成为了处理大规模数据和构建搜索引擎的首选工具。本文将通过一个实际案例，详细讲解如何在SpringBoot项目中集成Elasticsearch，进行数据索引、搜索、聚合分析等操作。1.Elasticsearch简介Elasticsearch是一个基于ApacheLucene构建的开源分
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

[置顶] Lucene连接数据库进行全文搜索初探（一）

你可能感兴趣的:(搜索引擎,Lucene,search,全文搜索)