wjboy49

Lucene-2.3.1 源代码阅读学习(36)

关于MultiTermQuery查询。

这里研究FuzzyQuery查询。

MultiTermQuery是一个抽象类，继承自它的一种有3个，分别为：FuzzyQuery、WildcardQuery、RegexQuery，其中RegexQuery使用了第三方提供的服务，可以使用正则表达式，如果你对正则表达式很熟悉，可以尝试着使用RegexQuery查询。

FuzzyQuery查询，即模糊查询。

在FuzzyQuery类定义中定义了两个成员变量：

private float minimumSimilarity;
private int prefixLength;

minimumSimilarity是最小相似度，取值范围为0.0~1.0，包含0.0但不包含1.0，默认值为0.5。

prefixLength是前缀长度，默认为0。

其实，在Fuzzy数学中，模糊度被定义为0.5是最模糊的程度，这里说的模糊度是德莱卡模糊度，D(F)=0表示不模糊，即为普通集合；D(F)=05表示最模糊的程度。

使用FuzzyQuery要从的构造方法开始，该类给出3种构造方式：

第一种：

public FuzzyQuery(Term term, float minimumSimilarity, int prefixLength) throws IllegalArgumentException {
    super(term);

    if (minimumSimilarity >= 1.0f)
      throw new IllegalArgumentException("minimumSimilarity >= 1");
    else if (minimumSimilarity < 0.0f)
      throw new IllegalArgumentException("minimumSimilarity < 0");
    if (prefixLength < 0)
      throw new IllegalArgumentException("prefixLength < 0");

    this.minimumSimilarity = minimumSimilarity;
    this.prefixLength = prefixLength;
}

第二种：

public FuzzyQuery(Term term, float minimumSimilarity) throws IllegalArgumentException {
this(term, minimumSimilarity, defaultPrefixLength);
}

第三种：

public FuzzyQuery(Term term) {
this(term, defaultMinSimilarity, defaultPrefixLength);
}

可见，后两种都是使用默认的定义，即minimumSimilarity或者prefixLength使用默认值，最后还是通过第一个构造方法来构造一个FuzzyQuery的实例。

1、使用public FuzzyQuery(Term term)构造查询

实际是这样构造的：FuzzyQuery(term, 0.5f, 0);进行构造。

使用静态定义的具有默认值的两个成员：

minimumSimilarity = defaultMinSimilarity = 0.5f;
prefixLength = defaultPrefixLength = 0;

其实，minimumSimilarity = defaultMinSimilarity = 0.5f并不同于Fuzzy数学中定义的模糊度，minimumSimilarity 表示的应该是一种匹配的严格程度，minimumSimilarity越大表示查询匹配时越严格，通过测试可以看出，如下所示：

package org.apache.lucene.shirdrn.main;

import java.io.IOException;
import java.util.Date;

import net.teamhot.lucene.ThesaurusAnalyzer;

import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.FuzzyQuery;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.store.LockObtainFailedException;

public class FuzzyQuerySearcher {

private String path = "E:\\Lucene\\index";
private FuzzyQuery fuzzyQuery;

public void createIndex(){
   IndexWriter writer;
   try {
    writer = new IndexWriter(path,new ThesaurusAnalyzer(),true); // 使用ThesaurusAnalyzer 中文分析器
    //writer = new IndexWriter(path,new StandardAnalyzer(),true);
    Field fieldA = new Field("contents","文件夹",Field.Store.YES,Field.Index.TOKENIZED);
    Document docA = new Document();
    docA.add(fieldA);

    Field fieldB = new Field("contents","文件名",Field.Store.YES,Field.Index.TOKENIZED);
    Document docB = new Document();
    docB.add(fieldB);

    Field fieldC = new Field("contents","文件精神",Field.Store.YES,Field.Index.TOKENIZED);
    Document docC = new Document();
    docC.add(fieldC);

    Field fieldD = new Field("contents","文人",Field.Store.YES,Field.Index.TOKENIZED);
    Document docD = new Document();
    docD.add(fieldD);

    Field fieldE = new Field("contents","整饬",Field.Store.YES,Field.Index.TOKENIZED);
    Document docE = new Document();
    docE.add(fieldE);

    writer.addDocument(docA);
    writer.addDocument(docB);
    writer.addDocument(docC);
    writer.addDocument(docD);
    writer.addDocument(docE);

    /*Field fieldA = new Field("contents","come",Field.Store.YES,Field.Index.TOKENIZED);
    Document docA = new Document();
    docA.add(fieldA);

    Field fieldB = new Field("contents","cope",Field.Store.YES,Field.Index.TOKENIZED);
    Document docB = new Document();
    docB.add(fieldB);

    Field fieldC = new Field("contents","compleat",Field.Store.YES,Field.Index.TOKENIZED);
    Document docC = new Document();
    docC.add(fieldC);

    Field fieldD = new Field("contents","complete",Field.Store.YES,Field.Index.TOKENIZED);
    Document docD = new Document();
    docD.add(fieldD);

    Field fieldE = new Field("contents","compile",Field.Store.YES,Field.Index.TOKENIZED);
    Document docE = new Document();
    docE.add(fieldE);

    Field fieldF = new Field("contents","compiler",Field.Store.YES,Field.Index.TOKENIZED);
    Document docF = new Document();
    docF.add(fieldF);

    writer.addDocument(docA);
    writer.addDocument(docB);
    writer.addDocument(docC);
    writer.addDocument(docD);
    writer.addDocument(docE);
    writer.addDocument(docF);*/

    writer.close();
   } catch (CorruptIndexException e) {
    e.printStackTrace();
   } catch (LockObtainFailedException e) {
    e.printStackTrace();
   } catch (IOException e) {
    e.printStackTrace();
   }
}

public static void main(String[] args) {
   FuzzyQuerySearcher fqs = new FuzzyQuerySearcher();
   fqs.createIndex();
   Term term = new Term("contents","文件夹");
   fqs.fuzzyQuery = new FuzzyQuery(term);
   try {
    Date startTime = new Date();
    IndexSearcher searcher = new IndexSearcher(fqs.path);
    Hits hits = searcher.search(fqs.fuzzyQuery);
    System.out.println("********************************************************************");
    for(int i=0;i<hits.length();i++){
     System.out.println("Document的内部编号为： "+hits.id(i));
     System.out.println("Document内容为： "+hits.doc(i));
     System.out.println("Document的得分为： "+hits.score(i));
    }
    System.out.println("********************************************************************");
    System.out.println("共检索出符合条件的Document "+hits.length()+" 个。");
    Date finishTime = new Date();
    long timeOfSearch = finishTime.getTime() - startTime.getTime();
    System.out.println("本次搜索所用的时间为 "+timeOfSearch+" ms");
   } catch (CorruptIndexException e) {
    e.printStackTrace();
   } catch (IOException e) {
    e.printStackTrace();
   }

}

注意：上面对中文分词使用了ThesaurusAnalyzer中文分析器，其中构造的那些Field都是词库中一个词条。

检索结果如下所示：

********************************************************************
Document的内部编号为： 0
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件夹>>
Document的得分为： 1.0
Document的内部编号为： 1
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件名>>
Document的得分为： 0.33333322
********************************************************************
共检索出符合条件的Document 2 个。
本次搜索所用的时间为 250 ms

在检索的过程中，进行模糊匹配遵循的原则就是词条长度相等，而且相似，这是在中文检索中，我们看下在英文中检索的结果会是怎样。

首先，在建立索引的方法中，打开建立索引函数中的注释部分，将中文分词部分注释掉；并且，使用StandardAnalyzer分析器分词，修改：

Term term = new Term("contents","compiler ");

执行主函数，检索结果如下所示：

********************************************************************
Document的内部编号为： 5
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compiler >>
Document的得分为： 1.0
Document的内部编号为： 4
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compile >>
Document的得分为： 0.71428573
Document的内部编号为： 2
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compleat >>
Document的得分为： 0.25
Document的内部编号为： 3
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:complete >>
Document的得分为： 0.25
********************************************************************
共检索出符合条件的Document 4 个。
本次搜索所用的时间为 125 ms

对于构造的6个Document中，只有两个不能达到最小相似度0.5的要求。

可见，对于中文和英文来说，都能够体现出类似Fuzzy的思想。

2、使用 public FuzzyQuery(Term term, float minimumSimilarity)构造查询

现在，使用该构造方法进行构造，可以对minimumSimilarity进行设置。因为0<=minimumSimilarity<1.0，我们设置只能在这个范围之内。，分别对中文和英文测试一下。

(1) 设置minimumSimilarity = 0.98

◆ 对于中文的情形：

Term term = new Term("contents","文件夹");
fqs.fuzzyQuery = new FuzzyQuery(term,0.98f);

检索结果如下所示：

********************************************************************
Document的内部编号为： 0
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件夹 >>
Document的得分为： 1.0
********************************************************************
共检索出符合条件的Document 1 个。
本次搜索所用的时间为 78 ms

可见，使用中文，设置minimumSimilarity = 0.98是接近精确匹配的检索结果。

◆ 对于英文的情形：

Term term = new Term("contents","compiler");
fqs.fuzzyQuery = new FuzzyQuery(term,0.98f);

检索结果如下所示：

********************************************************************
Document的内部编号为： 5
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compiler >>
Document的得分为： 1.0
********************************************************************
共检索出符合条件的Document 1 个。
本次搜索所用的时间为 125 ms

可见，对于英文，minimumSimilarity的值越大，匹配越精确。

综上所述，minimumSimilarity的值越大，检索时匹配越精确，获得的检索结果就越少。

(2) 设置minimumSimilarity = 0.75

◆ 对于中文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 0
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件夹 >>
Document的得分为： 1.0
********************************************************************
共检索出符合条件的Document 1 个。
本次搜索所用的时间为 140 ms

◆ 对于英文：

检索结果如下所示：

(3) 设置minimumSimilarity = 0.60

◆ 对于中文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 0
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件夹 >>
Document的得分为： 1.0
Document的内部编号为： 1
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件名 >>
Document的得分为： 0.16666652
********************************************************************
共检索出符合条件的Document 2 个。
本次搜索所用的时间为 219 ms

◆ 对于英文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 5
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compiler >>
Document的得分为： 1.0
Document的内部编号为： 4
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compile >>
Document的得分为： 0.64285713
Document的内部编号为： 2
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compleat >>
Document的得分为： 0.06249995
Document的内部编号为： 3
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:complete >>
Document的得分为： 0.06249995
********************************************************************
共检索出符合条件的Document 4 个。
本次搜索所用的时间为 328 ms

(4) 设置minimumSimilarity = 0.40

◆ 对于中文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 0
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件夹 >>
Document的得分为： 0.99999994
Document的内部编号为： 1
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件名 >>
Document的得分为： 0.44444436
********************************************************************
共检索出符合条件的Document 2 个。

◆ 对于英文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 5
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compiler >>
Document的得分为： 0.99999994
Document的内部编号为： 4
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compile >>
Document的得分为： 0.7619048
Document的内部编号为： 2
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compleat >>
Document的得分为： 0.375
Document的内部编号为： 3
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:complete >>
Document的得分为： 0.375
********************************************************************
共检索出符合条件的Document 4 个。
本次搜索所用的时间为 453 ms

(5) 设置minimumSimilarity = 0.25

对于中文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 0
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件夹 >>
Document的得分为： 1.0
Document的内部编号为： 1
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件名 >>
Document的得分为： 0.5555556
Document的内部编号为： 2
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件精神 >>
Document的得分为： 0.1111111
********************************************************************
共检索出符合条件的Document 3 个。
本次搜索所用的时间为 172 ms

对于英文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 5
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compiler >>
Document的得分为： 1.0
Document的内部编号为： 4
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compile >>
Document的得分为： 0.8095239
Document的内部编号为： 2
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compleat >>
Document的得分为： 0.5
Document的内部编号为： 3
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:complete >>
Document的得分为： 0.5
********************************************************************
共检索出符合条件的Document 4 个。
本次搜索所用的时间为 328 ms

(6) 设置minimumSimilarity = 0.00

对于中文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 0
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件夹>>
Document的得分为： 1.0
Document的内部编号为： 1
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件名>>
Document的得分为： 0.6666666
Document的内部编号为： 2
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文件精神>>
Document的得分为： 0.3333333
********************************************************************
共检索出符合条件的Document 3 个。
本次搜索所用的时间为 234 ms

对于英文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 5
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compiler >>
Document的得分为： 1.0
Document的内部编号为： 4
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compile >>
Document的得分为： 0.85714287
Document的内部编号为： 2
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compleat >>
Document的得分为： 0.62499994
Document的内部编号为： 3
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:complete >>
Document的得分为： 0.62499994
********************************************************************
共检索出符合条件的Document 4 个。
本次搜索所用的时间为 328 ms

从上面的检索结果可以看出，minimumSimilarity没有Fuzzy数学中的那种对称性，而是递减的，即：minimumSimilarity的值越大，检索出的结果越少，但是越精确。

3、使用 public FuzzyQuery(Term term, float minimumSimilarity, int prefixLength)构造查询

这里，对中文的测试，准备工作很重要：分别使用ThesaurusAnalyzer分析器和StandardAnalyzer分析器建立索引，使得索引目录中既包含ThesaurusAnalyzer分析器的词库，又包含使用StandardAnalyzer分析器分词得到的单个汉字作为一个词条。

不要使用StandardAnalyzer分析器对下面除了“武”以外的词条进行分词，只使用StandardAnalyzer分析器对“武”进行分词，因为要保证只有一个Document中含有“武”这个词条。

建立索引的函数修改为：

Field fieldA = new Field("contents","武",Field.Store.YES,Field.Index.TOKENIZED);
    Document docA = new Document();
    docA.add(fieldA);

    Field fieldB = new Field("contents","文修武偃",Field.Store.YES,Field.Index.TOKENIZED);
    Document docB = new Document();
    docB.add(fieldB);

    Field fieldC = new Field("contents","文东武西",Field.Store.YES,Field.Index.TOKENIZED);
    Document docC = new Document();
    docC.add(fieldC);

    Field fieldD = new Field("contents","不使用武力",Field.Store.YES,Field.Index.TOKENIZED);
    Document docD = new Document();
    docD.add(fieldD);

    Field fieldE = new Field("contents","不文不武",Field.Store.YES,Field.Index.TOKENIZED);
    Document docE = new Document();
    docE.add(fieldE);

    writer.addDocument(docA);
    writer.addDocument(docB);
    writer.addDocument(docC);
    writer.addDocument(docD);
    writer.addDocument(docE);

对于中文，即：

Term term = new Term("contents","文东武西");
fqs.fuzzyQuery = new FuzzyQuery(term,0.00f,10);

对于英文，即：

Term term = new Term("contents","compiler");
fqs.fuzzyQuery = new FuzzyQuery(term,0.00f,0);

(1) 设置minimumSimilarity = 0.00，prefixLength =0

对于中文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 2
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文东武西>>
Document的得分为： 0.99999994
Document的内部编号为： 1
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文修武偃>>
Document的得分为： 0.49999997
Document的内部编号为： 4
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:不文不武>>
Document的得分为： 0.24999999
********************************************************************
共检索出符合条件的Document 3 个。
本次搜索所用的时间为 343 ms

检索结果如下所示：

********************************************************************
Document的内部编号为： 5
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compiler>>
Document的得分为： 1.0
Document的内部编号为： 4
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compile>>
Document的得分为： 0.85714287
Document的内部编号为： 2
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compleat>>
Document的得分为： 0.62499994
Document的内部编号为： 3
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:complete>>
Document的得分为： 0.62499994
********************************************************************
共检索出符合条件的Document 4 个。
本次搜索所用的时间为 375 ms

(2) 设置minimumSimilarity = 0.00，prefixLength =10

对于中文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 2
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文东武西>>
Document的得分为： 1.0
********************************************************************
共检索出符合条件的Document 1 个。
本次搜索所用的时间为 297 ms

对于英文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 5
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compiler>>
Document的得分为： 1.0
********************************************************************
共检索出符合条件的Document 1 个。
本次搜索所用的时间为 328 ms

(3) 设置minimumSimilarity = 0.98，prefixLength =0

对于中文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 2
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文东武西>>
Document的得分为： 1.0
********************************************************************
共检索出符合条件的Document 1 个。
本次搜索所用的时间为 313 ms

对于英文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 5
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compiler>>
Document的得分为： 1.0
********************************************************************
共检索出符合条件的Document 1 个。
本次搜索所用的时间为 344 ms

(4) 设置minimumSimilarity = 0.98，prefixLength =10

对于中文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 2
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:文东武西>>
Document的得分为： 1.0
********************************************************************
共检索出符合条件的Document 1 个。
本次搜索所用的时间为 313 ms

对于英文：

检索结果如下所示：

********************************************************************
Document的内部编号为： 5
Document内容为： Document<stored/uncompressed,indexed,tokenized<contents:compiler>>
Document的得分为： 1.0
********************************************************************
共检索出符合条件的Document 1 个。
本次搜索所用的时间为 359 ms

总结

minimumSimilarity越小，模糊度越大，检索出的结果越少，但是越精确；

prefixLength越小，模糊度越到，检索出的结果越少，但是越精确。

你可能感兴趣的:(apache,正则表达式,F#,Lucene)

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
python实现规则引擎_规则引擎python weixin_39601511 python实现规则引擎
广告关闭回望2020，你在技术之路上，有什么收获和成长么？对于未来，你有什么期待么？云+社区年度征文，各种定制好礼等你！我正在用python编写日志收集分析应用程序，我需要编写一个“规则引擎”来匹配和处理日志消息。它需要具有以下特点：正则表达式匹配消息本身消息严重性优先级的算术比较布尔运算符我设想一个例子规则可能是这样的：(message~program:messageandseverity>=h
Regular Expression 正则表达式 Aimyon_36 Data Development 正则表达式 redis 数据库
RegularExpression前言1.基本匹配2.元字符2.1点运算符.2.2字符集2.2.1否定字符集2.3重复次数2.3.1*号2.3.2+号2.3.3?号2.4{}号2.5(...)特征标群2.6|或运算符2.7转码特殊字符2.8锚点2.8.1^号2.8.2$号3.简写字符集4.零宽度断言（前后预查）4.1?=...正先行断言4.2?!...负先行断言4.3?Thefatcatsaton
Nginx从入门到实践(三) 听你讲故事啊
动静分离动静分离是将网站静态资源（JavaScript，CSS，img等文件）与后台应用分开部署，提高用户访问静态代码的速度，降低对后台应用访问。动静分离的一种做法是将静态资源部署在nginx上，后台项目部署到应用服务器上，根据一定规则静态资源的请求全部请求nginx服务器，达到动静分离的目标。rewrite规则Rewrite规则常见正则表达式Rewrite主要的功能就是实现URL的重写，Ngin
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
java 技术架构相关文档圣心 java 架构开发语言
在Java中，有许多不同的技术和架构，这里我将列举一些常见的Java技术和架构，并提供一些相关的文档资源。SpringFrameworkSpring是一个开源的Java/JavaEE全功能框架，以Apache许可证形式发布，提供了一种实现企业级应用的方法。官方文档：SpringFrameworkSpringBootSpringBoot是Spring的一个子项目，旨在简化创建生产级的Spring应用
Apache Shiro安全框架(2)-用户认证 heyrian Java shiro
身份认证在shiro中用户需要提供用户的principals（身份）和credentials（证明）来证明该用户属于当前系统用户。常见的认证方式即用户名/密码。在解释身份认证之前，我们先来看看shiro中的Subject和Realm,这是身份认证的两个关键的概念。Subjectsubject代表当前用户，内部主要维护当前用户信息。shiro中所有的subject都交给SecurityManager
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
互联网 Java 工程师面试题（Java 面试题四）苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
下面列出这份Java面试问题列表包含的主题多线程，并发及线程基础数据类型转换的基本原则垃圾回收（GC）Java集合框架数组字符串GOF设计模式SOLID抽象类与接口Java基础，如equals和hashcode泛型与枚举JavaIO与NIO常用网络协议Java中的数据结构和算法正则表达式JVM底层Java最佳实JDBCDate,Time与CalendarJava处理XMLJUnit编程现在是时候给
【无标题】正则表达式笔记 qis_qis 正则表达式笔记
作用查找特殊规则的字符串编写一个正则表达式，用来查找所有以0开头，后面跟着2-3个数字，然后是一个连字号“-”，最后是7或8位数字的字符串(像010-12345678或0376-7654321)。0\d{2,3}-\d{7,8}基本匹配区分大小写cat会匹配"cat"CAt会匹配"CAt"元字符元字符是正则表达式的基本组成元素。元字符在这里跟它通常表达的意思不一样，而是以某种特殊的含义去解释。有些
Superset二次开发之源码DependencyList.tsx 分析 aimmon Superset二次开发 Superset BI 二次开发 typescript 前端
功能点路径superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagre
史上最全的maven的pom.xml文件详解 Meta999 Maven
注：详解文件中，用红色进行标注的是平常项目中常用的配置节点。要详细学习！转载的，太经典了、、、、欢迎收藏xxxxxxxxxxxx4.0.0xxxxxxjar1.0-SNAPSHOTxxx-mavenhttp://maven.apache.orgAmavenprojecttostudymaven.jirahttp://jira.baidu.com/[email protected]
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
Apache DataFusion Python 绑定教程柏赢安Simona
ApacheDataFusionPython绑定教程datafusion-pythonApacheDataFusionPythonBindings项目地址:https://gitcode.com/gh_mirrors/data/datafusion-python项目介绍ApacheDataFusion是一个基于ApacheArrow的内存查询引擎，提供了高性能的查询处理能力。DataFusion的
压测服务器并使用 Grafana 进行可视化豆瑞瑞 grafana
简介仓库代码GitCode-全球开发者的开源社区,开源代码托管平台参考Welcome!-TheApacheHTTPServerProjectGrafana|查询、可视化、警报观测平台https://prometheus.io/docs/introduction/overview/
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
2.Jmeter安装配置，核心目录详情，组件和作用域 XXX-17 Jmeter jmeter 软件测试接口测试
一、Jmeter安装配置以及核心目录详情Jmeter基于java语言来开发，java需要jdk环境。1.安装jdk并且配置jdk的环境变量。2.jmeter只需要解压就可以使用了。3.在D:\apache-jmeter-5.5\bin目录下双击jmeter.bat文件就可以启动使用了backups：自动备份的目录bin：启动文件、配置文件（jmeter.bat是启动问题，jmeter.propti
BindingException: Invalid bound statement (not found) 小卡车555 MyBatis mybatis java mysql
Mybatis出现绑定异常问题的解决org.apache.ibatis.binding.BindingException:Invalidboundstatement(notfound)一般的原因是Mapperinterface和xml文件的定义对应不上，需要检查包名，namespace，函数名称等能否对应上，需要比较细致的对比，我经常就是写错了一两个字母搞的很长时间找不到错误按以下步骤一一执行：1
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
NoClassDefFoundError: org.apache.poi.POIXMLDocument问题排查解决 qinmingjun718 apache
java.lang.NoClassDefFoundError:org/apache/poi/POIXMLDocumentPart这错很明显就是没找到这个类POIXMLDocumentPart就是找不到类问题原因是大概是因为poi从3.1.X低版本版本升级到pio4.1.2高版本的后与org.apache.poi.xwpf.converter.core-1.0.6.jar不兼容问题，导致这个情况的主
使用poi替换XWPFTableCell内容，并设置行间距 RR369_yyh javaUtil java poi
使用poi读取word文档（docx类型），进行数据替换。另外，为了记录poi设置行间距的api，真是找了好几十分钟才找到啊啊啊啊！！！importorg.apache.poi.xwpf.usermodel.*;importorg.springframework.util.StringUtils;importjava.io.File;importjava.io.FileInputStream;im
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
Apache POI用法 JH3073 apache
一、ApachePOI是什么ApachePOI是用Java编写的免费开源的跨平台的JavaAPI，ApachePOI提供API给Java程序对MicrosoftOffice格式档案读和写的功能，其中使用最多的就是使用POI操作Excel文件。二、POI结构HSSF－提供读写MicrosoftExcelXLS格式档案的功能XSSF－提供读写MicrosoftExcelOOXMLXLSX格式档案的功能
【LINUX】在ubuntu中安装tomcat 缘起性本空 linux 运维服务器
#instaljdkaptinstallopenjdk-8-jdk-y#enterinstallpathcd/home/a/#copytomcatpackagecp/mnt/hgfs/Share/apache-tomcat-9.0.93.tar.gz.#unpresstomcatpackagetar-xfapache-tomcat-9.0.93.tar.gz#enterbinpathcdapach
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓