Lucene学习总结之八：Lucene的查询语法，JavaCC及QueryParser(1)

一、Lucene的查询语法

Lucene所支持的查询语法可见http://lucene.apache.org/java/3_0_1/queryparsersyntax.html

(1) 语法关键字

+ - && || ! ( ) { } [ ] ^ " ~ * ? : \

如果所要查询的查询词中本身包含关键字，则需要用\进行转义

(2) 查询词(Term)

Lucene支持两种查询词，一种是单一查询词，如"hello"，一种是词组(phrase)，如"hello world"。

(3) 查询域(Field)

在查询语句中，可以指定从哪个域中寻找查询词，如果不指定，则从默认域中查找。

查询域和查询词之间用:分隔，如title:"Do it right"。

:仅对紧跟其后的查询词起作用，如果title:Do it right，则仅表示在title中查询Do，而it right要在默认域中查询。

(4) 通配符查询(Wildcard)

支持两种通配符：?表示一个字符，*表示多个字符。

通配符可以出现在查询词的中间或者末尾，如te?t，test*，te*t，但决不能出现在开始，如*test，?test。

(5) 模糊查询(Fuzzy)

模糊查询的算法是基于Levenshtein Distance，也即当两个词的差别小于某个比例的时候，就算匹配，如roam~0.8，即表示差别小于0.2，相似度大于0.8才算匹配。

(6) 临近查询(Proximity)

在词组后面跟随~10，表示词组中的多个词之间的距离之和不超过10，则满足查询。

所谓词之间的距离，即查询词组中词为满足和目标词组相同的最小移动次数。

如索引中有词组"apple boy cat"。

如果查询词为"apple boy cat"~0，则匹配。

如果查询词为"boy apple cat"~2，距离设为2方能匹配，设为1则不能匹配。

(0)

boy

apple

cat

(1)

boy

apple

cat

(2)

apple

boy

cat

如果查询词为"cat boy apple"~4，距离设为4方能匹配。

(0)	cat	boy	apple
(1)		cat boy	apple
(2)		boy	cat apple
(3)		boy apple	cat
(4)	apple	boy	cat

(7) 区间查询(Range)

区间查询包含两种，一种是包含边界，用[A TO B]指定，一种是不包含边界，用{A TO B}指定。

如date:[20020101 TO 20030101]，当然区间查询不仅仅用于时间，如title:{Aida TO Carmen}

(8) 增加一个查询词的权重(Boost)

可以在查询词后面加^N来设定此查询词的权重，默认是1，如果N大于1，则说明此查询词更重要，如果N小于1，则说明此查询词更不重要。

如jakarta^4 apache，"jakarta apache"^4 "Apache Lucene"

(9) 布尔操作符

布尔操作符包括连接符，如AND，OR，和修饰符，如NOT，+，-。

默认状态下，空格被认为是OR的关系，QueryParser.setDefaultOperator(Operator.AND)设置为空格为AND。

+表示一个查询语句是必须满足的(required)，NOT和-表示一个查询语句是不能满足的(prohibited)。

(10) 组合

可以用括号，将查询语句进行组合，从而设定优先级。

如(jakarta OR apache) AND website

Lucene的查询语法是由QueryParser来进行解析，从而生成查询对象的。

通过编译原理我们知道，解析一个语法表达式，需要经过词法分析和语法分析的过程，也即需要词法分析器和语法分析器。

QueryParser是通过JavaCC来生成词法分析器和语法分析器的。

二、JavaCC介绍

本节例子基本出于JavaCC tutorial的文章，http://www.engr.mun.ca/~theo/JavaCC-Tutorial/

JavaCC是一个词法分析器和语法分析器的生成器。

所谓词法分析器就是将一系列字符分成一个个的Token，并标记Token的分类。

例如，对于下面的C语言程序：

int main() {

return 0 ;

}

将被分成以下的Token:

“int”, “ ”, “main”, “(”, “)”,

“”,“{”, “\n”, “\t”, “return”

“”,“0”,“”,“;”,“\n”,

“}”, “\n”, “”

标记了Token的类型后如下：

KWINT, SPACE, ID, OPAR, CPAR,

SPACE, OBRACE, SPACE, SPACE, KWRETURN,

SPACE, OCTALCONST, SPACE, SEMICOLON, SPACE,

CBRACE, SPACE, EOF

EOF表示文件的结束。

词法分析器工作过程如图所示：

此一系列Token将被传给语法分析器(当然并不是所有的Token都会传给语法分析器，本例中SPACE就例外)，从而形成一棵语法分析树来表示程序的结构。

JavaCC本身既不是一个词法分析器，也不是一个语法分析器，而是根据指定的规则生成两者的生成器。

2.1、第一个实例——正整数相加

下面我们来看第一个例子，即能够解析正整数相加的表达式，例如99+42+0+15。

(1) 生成一个adder.jj文件

此文件中写入的即生成词法分析器和语法分析器的规则。

(2) 设定选项，并声明类

/* adder.jj Adding up numbers */

options {

STATIC = false ;

}

PARSER_BEGIN(Adder)

class Adder {

static void main( String[] args ) throws ParseException, TokenMgrError {

Adder parser = new Adder( System.in ) ;

parser.Start() ;

}

PARSER_END(Adder)

STATIC选项默认是true，设为false，使得生成的函数不是static的。

PARSER_BEGIN和PARSER_END之间的java代码部分，此部分不需要通过JavaCC根据规则生成java代码，而是直接拷贝到生成的java代码中的。

(3) 声明一个词法分析器

SKIP : { " " }

SKIP : { "\n" | "\r" | "\r\n" }

TOKEN : { < PLUS : "+" > }

TOKEN : { < NUMBER : (["0"-"9"])+ > }

第一二行表示空格和回车换行是不会传给语法分析器的。

第三行声明了一个Token，名称为PLUS，符号为“+”。

第四行声明了一个Token，名称为NUMBER，符号位一个或多个0-9的数的组合。

如果词法分析器分析的表达式如下：

“123 + 456\n”，则分析为NUMBER, PLUS, NUMBER, EOF
“123 - 456\n”，则报TokenMgrError，因为“-”不是一个有效的Token.
“123 ++ 456\n”，则分析为NUMBER, PLUS, PLUS, NUMBER, EOF，词法分析正确，后面的语法分析将会错误。

(4) 声明一个语法分析器

void Start() :

{}

{

(

<PLUS>

<EOF>

}

语法分析器使用BNF表达式。

上述声明将生成start函数，称为Adder类的一个成员函数

语法分析器要求输入的语句必须以NUMBER开始，以EOF结尾，中间是零到多个PLUS和NUMBER的组合。

(5) 用javacc编译adder.jj来生成语法分析器和词法分析器

最后生成的adder.jj如下：

options
{
static = false;
}

PARSER_BEGIN(Adder)
package org.apache.javacc;

public class Adder
{
public static void main(String args []) throws ParseException
{
Adder parser = new Adder(System.in);
parser.start();
}
}
PARSER_END(Adder)

SKIP :
{
" "
| "\r"
| "\t"
| "\n"
}

TOKEN : /* OPERATORS */
{
< PLUS : "+" >
}

TOKEN :
{
< NUMBER : ([ "0"-"9" ])+ >
}

void start() :
{}
{
<NUMBER>
(
<PLUS>
<NUMBER>
)*
}

用JavaCC编译adder.jj生成如下文件：

Adder.java：语法分析器。其中的main函数是完全从adder.jj中拷贝的，而start函数是被javacc由adder.jj描述的规则生成的。
AdderConstants.java：一些常量，如PLUS, NUMBER, EOF等。
AdderTokenManager.java：词法分析器。
ParseException.java：用于在语法分析错误的时候抛出。
SimpleCharStream.java：用于将一系列字符串传入词法分析器。
Token.java：代表词法分析后的一个个Token。Token对象有一个整型域kind，来表示此Token的类型(PLUS, NUMBER, EOF)，有一个String类型的域image，来表示此Token的值。
TokenMgrError.java：用于在词法分析错误的时候抛出。

下面我们对adder.jj生成的start函数进行分析：

final public void start() throws ParseException {

//从词法分析器取得下一个Token，而且要求必须是NUMBER类型，否则抛出异常。

//此步要求表达式第一个出现的字符必须是NUMBER。

jj_consume_token(NUMBER);

label_1:

while (true) {

//jj_ntk()是取得下一个Token的类型，如果是PLUS，则继续进行，如果是EOF则退出循环。

switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {

case PLUS:

;

break;

default:

jj_la1[0] = jj_gen;

break label_1;

}

//要求下一个PLUS字符，再下一个是一个NUMBER，如此下去。

jj_consume_token(PLUS);

jj_consume_token(NUMBER);

}

(6) 运行Adder.java

如果输入“123+456”则不报任何错误。

如果输入“123++456”则报如下异常：

Exception in thread "main" org.apache.javacc.ParseException: Encountered " "+" "+ "" at line 1, column 5.
Was expecting:
    <NUMBER> ...
    at org.apache.javacc.Adder.generateParseException(Adder.java:185)
    at org.apache.javacc.Adder.jj_consume_token(Adder.java:123)
    at org.apache.javacc.Adder.start(Adder.java:24)
    at org.apache.javacc.Adder.main(Adder.java:8)

如果输入“123-456”则报如下异常：

Exception in thread "main" org.apache.javacc.TokenMgrError: Lexical error at line 1, column 4. Encountered: "-" (45), after : ""
    at org.apache.javacc.AdderTokenManager.getNextToken(AdderTokenManager.java:262)
    at org.apache.javacc.Adder.jj_ntk(Adder.java:148)
    at org.apache.javacc.Adder.start(Adder.java:15)
    at org.apache.javacc.Adder.main(Adder.java:8)

2.2、扩展语法分析器

在上面的例子中的start函数中，我们仅仅通过语法分析器来判断输入的语句是否正确。

我们可以扩展BNF表达式，加入Java代码，使得经过语法分析后，得到我们想要的结果或者对象。

我们将start函数改写为：

int start() throws NumberFormatException :

{

//start函数中有三个变量

Token t ;

int i ;

int value ;

}

{

//首先要求表达式的第一个一定是一个NUMBER，并把其值付给t

t= <NUMBER>

//将t的值取出来，解析为整型，放入变量i中

{ i = Integer.parseInt( t.image ) ; }

//最后的结果value设为i

{ value = i ; }

//紧接着应该是零个或者多个PLUS和NUMBER的组合

(

<PLUS>

//每出现一个NUMBER，都将其付给t，并将t的值解析为整型，付给i

t= <NUMBER>

{ i = Integer.parseInt( t.image ) ; }

//将i加到value上

{ value += i ; }

//最后的value就是表达式的和

{ return value ; }

}

生成的start函数如下：

final public int start() throws ParseException, NumberFormatException {

Token t;

int i;

int value;

t = jj_consume_token(NUMBER);

i = Integer.parseInt(t.image);

value = i;

label_1: while (true) {

switch ((jj_ntk == -1) ? jj_ntk() : jj_ntk) {

case PLUS:

;

break;

default:

jj_la1[0] = jj_gen;

break label_1;

}

jj_consume_token(PLUS);

t = jj_consume_token(NUMBER);

i = Integer.parseInt(t.image);

value += i;

}

{

if (true)

return value;

}

throw new Error("Missing return statement in function");

}

从上面的例子，我们发现，把一个NUMBER取出，并解析为整型这一步是可以共用的，所以可以抽象为一个函数：

int start() throws NumberFormatException :

{

int i;

int value ;

}

{

value = getNextNumberValue()

(

<PLUS>

i = getNextNumberValue()

{ value += i ; }

{ return value ; }

}

int getNextNumberValue() throws NumberFormatException :

{

Token t ;

}

{

t=<NUMBER>

{ return Integer.parseInt( t.image ) ; }

}

生成的函数如下：

final public int start() throws ParseException, NumberFormatException {

int i;

int value;

value = getNextNumberValue();

label_1: while (true) {

switch ((jj_ntk == -1) ? jj_ntk() : jj_ntk) {

case PLUS:

;

break;

default:

jj_la1[0] = jj_gen;

break label_1;

}

jj_consume_token(PLUS);

i = getNextNumberValue();

value += i;

}

{

if (true)

return value;

}

throw new Error("Missing return statement in function");

}

final public int getNextNumberValue() throws ParseException, NumberFormatException {

Token t;

t = jj_consume_token(NUMBER);

{

if (true)

return Integer.parseInt(t.image);

}

throw new Error("Missing return statement in function");

}

2.3、第二个实例：计算器

(1) 生成一个calculator.jj文件

用于写入生成计算器词法分析器和语法分析器的规则。

(2) 设定选项，并声明类

options {

STATIC = false ;

}

PARSER_BEGIN(Calculator)

import java.io.PrintStream ;

class Calculator {

static void main( String[] args ) throws ParseException, TokenMgrError, NumberFormatException {

Calculator parser = new Calculator( System.in ) ;

parser.Start( System.out ) ;

}

double previousValue = 0.0 ;

}

PARSER_END(Calculator)

previousValue用来记录上一次计算的结果。

(3) 声明一个词法分析器

SKIP : { " " }

TOKEN : { < EOL:"\n" | "\r" | "\r\n" > }

TOKEN : { < PLUS : "+" > }

我们想要支持小数，则有四种情况：没有小数，小数点在中间，小数点在前面，小数点在后面。则语法规则如下：

TOKEN { < NUMBER : (["0"-"9"])+ | (["0"-"9"])+ "." (["0"-"9"])+ | (["0"-"9"])+ "." | "." (["0"-"9"])+ > }

由于同一个表达式["0"-"9"]使用了多次，因而我们可以定义变量，如下：

TOKEN : { < NUMBER : <DIGITS> | <DIGITS> "." <DIGITS> | <DIGITS> "." | "." <DIGITS>> }

TOKEN : { < #DIGITS : (["0"-"9"])+ > }

(4) 声明一个语法分析器

我们想做的计算器包含多行，每行都是一个四则运算表达式，语法规则如下：

Start -> (Expression EOL)* EOF

void Start(PrintStream printStream) throws NumberFormatException :

{}

{

(

previousValue = Expression()

<EOL>

{ printStream.println( previousValue ) ; }

<EOF>

}

每一行的四则运算表达式如果只包含加法，则语法规则如下：

Expression -> Primary (PLUS Primary)*

double Expression() throws NumberFormatException :

{

double i ;

double value ;

}

{

value = Primary()

(

<PLUS>

i= Primary()

{ value += i ; }

{ return value ; }

}

其中Primary()得到一个数的值：

double Primary() throws NumberFormatException :

{

Token t ;

}

{

t= <NUMBER>

{ return Double.parseDouble( t.image ) ; }

}

(5) 扩展词法分析器和语法分析器

如果我们想支持减法，则需要在词法分析器中添加：

TOKEN : { < MINUS : "-" > }

语法分析器应该变为：

Expression -> Primary (PLUS Primary | MINUS Primary)*

double Expression() throws NumberFormatException :

{

double i ;

double value ;

}

{

value = Primary()

(

<PLUS>

i = Primary()

{ value += i ; }

<MINUS>

i = Primary()

{ value -= i ; }

{ return value ; }

}

如果我们想添加乘法和除法，则在词法分析器中应该加入：

TOKEN : { < TIMES : "*" > }

TOKEN : { < DIVIDE : "/" > }

对于加减乘除混合运算，则应该考虑优先级，乘除的优先级高于加减，应该先做乘除，再做加减：

Expression -> Term (PLUSTerm | MINUSTerm)*

Term -> Primary (TIMES Primary | DIVIDE Primary)*

double Expression() throws NumberFormatException :

{

double i ;

double value ;

}

{

value = Term()

(

<PLUS>

i= Term()

{ value += i ; }

<MINUS>

i= Term()

{ value -= i ; }

{ return value ; }

}

double Term() throws NumberFormatException :

{

double i ;

double value ;

}

{

value = Primary()

(

<TIMES>

i = Primary()

{ value *= i ; }

i = Primary()

{ value /= i ; }

{ return value ; }

}

下面我们要开始支持括号，负号，以及取得上一行四则运算表达式的值。

对于词法分析器，我们添加如下Token：

TOKEN : { < OPEN PAR : "(" > }

TOKEN : { < CLOSE PAR : ")" > }

TOKEN : { < PREVIOUS : "$" > }

对于语法分析器，对于最基本的表达式，有四种情况：

其可以是一个NUMBER，也可以是上一行四则运算表达式的值PREVIOUS，也可以是被括号括起来的一个子语法表达式，也可以是取负的一个基本语法表达式。

Primary –> NUMBER | PREVIOUS | OPEN_PAR Expression CLOSE_PAR | MINUS Primary

double Primary() throws NumberFormatException :

{

Token t ;

double d ;

}

{

t=<NUMBER>

{ return Double.parseDouble( t.image ) ; }

{ return previousValue ; }

<OPEN PAR> d=Expression() <CLOSE PAR>

{ return d ; }

<MINUS> d=Primary()

{ return -d ; }

}

(6) 用javacc编译calculator.jj来生成语法分析器和词法分析器

最后生成的calculator.jj如下：

options
{
static = false;
}

PARSER_BEGIN(Calculator)
package org.apache.javacc.calculater;
import java.io.PrintStream ;
class Calculator {
    static void main( String[] args ) throws ParseException, TokenMgrError, NumberFormatException {
      Calculator parser = new Calculator( System.in ) ;
      parser.start( System.out ) ;
    }
    double previousValue = 0.0 ;
}
PARSER_END(Calculator)

SKIP : { " " }
TOKEN : { < EOL: "\n" | "\r" | "\r\n" > }
TOKEN : { < PLUS : "+" > }
TOKEN : { < MINUS : "-" > }
TOKEN : { < TIMES : "*" > }
TOKEN : { < DIVIDE : "/" > }
TOKEN : { < NUMBER : <DIGITS> | <DIGITS> "." <DIGITS> | <DIGITS> "." | "." <DIGITS>> }
TOKEN : { < #DIGITS : (["0"-"9"])+ > }
TOKEN : { < OPEN_PAR : "(" > }
TOKEN : { < CLOSE_PAR : ")" > }
TOKEN : { < PREVIOUS : "$" > }

void start(PrintStream printStream) throws NumberFormatException :
{}
{
(
previousValue = Expression()
{ printStream.println( previousValue ) ; }
)*
}

double Expression() throws NumberFormatException :
{
double i ;
double value ;
}
{
value = Term()
(
    <PLUS>
    i= Term()
    { value += i ; }
    |
    <MINUS>
    i= Term()
    { value -= i ; }
)*
{ return value ; }
}

double Term() throws NumberFormatException :
{
double i ;
double value ;
}
{
value = Primary()
(
    <TIMES>
    i = Primary()
    { value *= i ; }
    |
    <DIVIDE>
    i = Primary()
    { value /= i ; }
)*
{ return value ; }
}

double Primary() throws NumberFormatException :
{
Token t ;
double d ;
}
{
t=<NUMBER>
{ return Double.parseDouble( t.image ) ; }
|
<PREVIOUS>
{ return previousValue ; }
|
<OPEN_PAR> d=Expression() <CLOSE_PAR>
{ return d ; }
|
<MINUS> d=Primary()
{ return -d ; }
}

生成的start函数如下：

final public void start(PrintStream printStream) throws ParseException, NumberFormatException {

label_1:

while (true) {

switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {

case MINUS:

case NUMBER:

case OPEN_PAR:

case PREVIOUS:

;

break;

default:

jj_la1[0] = jj_gen;

break label_1;

}

previousValue = Expression();

printStream.println( previousValue ) ;

}

final public double Expression() throws ParseException, NumberFormatException {

double i ;

double value ;

value = Term();

label_2:

while (true) {

switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {

case PLUS:

case MINUS:

;

break;

default:

jj_la1[1] = jj_gen;

break label_2;

}

switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {

case PLUS:

jj_consume_token(PLUS);

i = Term();

value += i ;

break;

case MINUS:

jj_consume_token(MINUS);

i = Term();

value -= i ;

break;

default:

jj_la1[2] = jj_gen;

jj_consume_token(-1);

throw new ParseException();

}

{if (true) return value ;}

throw new Error("Missing return statement in function");

}

final public double Term() throws ParseException, NumberFormatException {

double i ;

double value ;

value = Primary();

label_3:

while (true) {

switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {

case TIMES:

case DIVIDE:

;

break;

default:

jj_la1[3] = jj_gen;

break label_3;

}

switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {

case TIMES:

jj_consume_token(TIMES);

i = Primary();

value *= i ;

break;

case DIVIDE:

jj_consume_token(DIVIDE);

i = Primary();

value /= i ;

break;

default:

jj_la1[4] = jj_gen;

jj_consume_token(-1);

throw new ParseException();

}

{if (true) return value ;}

throw new Error("Missing return statement in function");

}

final public double Primary() throws ParseException, NumberFormatException {

Token t ;

double d ;

switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {

case NUMBER:

t = jj_consume_token(NUMBER);

{if (true) return Double.parseDouble( t.image ) ;}

break;

case PREVIOUS:

jj_consume_token(PREVIOUS);

{if (true) return previousValue ;}

break;

case OPEN_PAR:

jj_consume_token(OPEN_PAR);

d = Expression();

jj_consume_token(CLOSE_PAR);

{if (true) return d ;}

break;

case MINUS:

jj_consume_token(MINUS);

d = Primary();

{if (true) return -d ;}

break;

default:

jj_la1[5] = jj_gen;

jj_consume_token(-1);

throw new ParseException();

}

throw new Error("Missing return statement in function");

}

----------------------------------------------------------------------------------------------------------

Lucene学习总结之一：全文检索的基本原理

http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623594.html

Lucene学习总结之二：Lucene的总体架构

http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623596.html

Lucene学习总结之三：Lucene的索引文件格式(1)

http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623597.html

Lucene学习总结之三：Lucene的索引文件格式(2)

http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html

Lucene学习总结之三：Lucene的索引文件格式(3)

http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661436.html

Lucene学习总结之四：Lucene索引过程分析(1)

http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661439.html

Lucene学习总结之四：Lucene索引过程分析(2)

http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661440.html

Lucene学习总结之四：Lucene索引过程分析(3)

http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661441.html

Lucene学习总结之四：Lucene索引过程分析(4)

http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661442.html

Lucene学习总结之五：Lucene段合并(merge)过程分析

http://www.cnblogs.com/forfuture1978/archive/2010/03/06/1679501.html

Lucene学习总结之六：Lucene打分公式的数学推导

http://www.cnblogs.com/forfuture1978/archive/2010/03/07/1680007.html

Lucene学习总结之七：Lucene搜索过程解析(1)

http://www.cnblogs.com/forfuture1978/archive/2010/04/04/1704242.html

Lucene学习总结之七：Lucene搜索过程解析(2)

http://www.cnblogs.com/forfuture1978/archive/2010/04/04/1704245.html

Lucene学习总结之七：Lucene搜索过程解析(3)

http://www.cnblogs.com/forfuture1978/archive/2010/04/04/1704250.html

Lucene学习总结之七：Lucene搜索过程解析(4)

http://www.cnblogs.com/forfuture1978/archive/2010/04/04/1704254.html

Lucene学习总结之七：Lucene搜索过程解析(5)

http://www.cnblogs.com/forfuture1978/archive/2010/04/04/1704258.html

Lucene学习总结之七：Lucene搜索过程解析(6)

http://www.cnblogs.com/forfuture1978/archive/2010/04/04/1704263.html

你可能感兴趣的:(QueryParser)

restify框架半梅芒果干 nodejs 前端 javascript 开发语言 node.js
参考文档：这篇文章废话不多说，直接上代码啦varrestify=require('restify');constserver=restify.createServer({name:'myapp',version:'1.0.0'});server.use(restify.plugins.queryParser());//设置接受getquery返回server.use(restify.plugins
Lucene源码分析 - queryparser > flexible 机器智能
FlexibleThisprojectcontainsthenewLucenequeryparserimplementation,whichmatchesthesyntaxofthecoreQueryParserbutoffersamoremodulararchitecturetoenablecustomization.ThisprojectcontainsthenewLucenequerypar
Elasticsearch源码分析九--查询解析器QueryParser注册过程 Nireus_LOVE Elasticsearch 源码分析 elasticsearch
QueryParser及其子类用于对输入的查询query进行解析，返回Query类的对象，代表具体的查询类。Elasticsearch为每种类型的Query提供了单独的查询解析器；而Lucene的QueryParser对所有类型的Query使用相同的查询解析器。Lucene的解析器使用如下：'''在构造QueryParser对象时传入分析器,此过程涉及JavaCC、分词器、查询语法等'''Quer
Spring Boot 中集成 Lucence Myovlmx Spring Boot spring boot java lucene
2.1依赖导入首先需要导入Lucene的依赖，它的依赖有好几个，如下：org.apache.lucenelucene-core5.3.1org.apache.lucenelucene-queryparser5.3.1org.apache.lucenelucene-analyzers-common5.3.1org.apache.lucenelucene-highlighter5.3.1org.apa
springboot整合lucene的基本使用：实现索引查询并显示高亮 BC君 lucene spring boot java
前言本文记录了笔者将springboot整合lucene的过程和踩坑，是对lucene最粗浅的运用，主要实现了从数据库查询并写入索引文件，查询结果高亮显示等。引入依赖JDKLucene1.8.0_2918.11.2在pom.xml中加入以下依赖。org.apache.lucenelucene-core8.11.2org.apache.lucenelucene-queryparser8.11.2or
SpringBoot整合Lucene实现全文检索好诡异 lucene 全文检索 apache
记录一下Lucene的简单使用，首先我的boot是2.x版本的。Lucene依赖如下：org.apache.lucenelucene-core7.6.0org.apache.lucenelucene-queryparser7.6.0org.apache.lucenelucene-analyzers-common7.6.0org.apache.lucenelucene-highlighter7.6.
Lucene bm25 结合 jieba中文分词搜索三印 Python和JAVA 搜索引擎大数据 lucene java
2021.10.20：增加依赖包，防止版本问题导致代码不可用org.apache.lucenelucene-core6.2.0org.apache.lucenelucene-test-framework6.2.0junitjunit4.12org.apache.lucenelucene-queryparser6.2.0org.jsoupjsoup1.9.2com.huabanjieba-analy
《lucene in action》笔记：分析过程 Devops_cheers
分析（Analysis），在Lucene中指的是将域Field文本转换成最基本的索引表示单元-项（Term）的过程。在搜索过程中，这些项用于决定什么样的文档能够匹配查询条件。1.使用分析器使用Lucene时，选择一个合适的分析器是非常关键的。分析操作将出现在任何需要将文本转换成项的时刻，而对于Lucene核心来说，分析操作会出现在两个时间点：建立索引期间和使用QueryParser对象进行搜索时。
Lucene的全文搜索及高亮显示天真吖415 java lucene
目录测试的效果如下1.引入maven依赖2.索引目录存放数据3.controller4.处理类测试的效果如下1.引入maven依赖org.apache.lucenelucene-core8.2.0org.apache.lucenelucene-analyzers-common8.2.0org.apache.lucenelucene-queryparser8.2.0org.apache.lucene
Lucene源码分析 - queryparser 机器智能
Thismoduleprovidesanumberofqueryparsers:这个module提供了这些queryparsers：classic：一个简单的用javacc实现的LucenequeryparseranalyzingQueryParserthatpassesFuzzy-,Prefix-,Range-,andWildcardQuerysthroughthegivenanalyzer.处
Lucene基础学习程序员的人生K 搜索技术 lucene
一、基础知识1.Lucene简介2.入门实例3.内建Query对象4.分析器Analyzer5.QueryParser6.索引7.排序8.过滤9.概念简介10.Lucene入门实例二、Lucene的基础三、索引建立1.lucene索引_创建_域选项2.lucene索引_的删除和更新3.lucene索引_加权操作和Luke的简单演示4.对日期和数字进行索引5.IndexReader的设计6.Dire
Lucene（7）：Lucene高级搜索不死鸟.亚历山大.狼崽子 Lucene lucene 全文检索搜索引擎
1文本搜索QueryParser支持默认搜索域,第一个参数为默认搜索域。如果在执行parse方法的时候,查询语法中包含域名则从指定的这个域名中搜索,如果只有查询的关键字,则从默认搜索域中搜索结果。需求描述:查询名称中包含华为手机关键字的结果。测试代码@TestpublicvoidtestTextSearch()throwsException{//1.创建Query搜索对象//创建分词器Analyz
数据治理篇-元数据-血缘分析: queryparser概述严国华
转载：https://www.codenong.com/jse7df02c3f366/前言数据字典DataDictionary数据血缘DataLineage元数据触发器MetaTrigger一.血缘分析的导推形式sqlkafkastreamssparkrddflinkdatastream二.血缘分析的技术方案分析。通过调度器反向推导血缘关系。通过计算引擎系统提供的血缘分析接口进行收集。通过计算引擎
搜索学习--Lucene中搜索的排序、范围区间搜索、分页搜索、多条件搜索 _时间海
依赖org.apache.lucenelucene-core4.7.2org.apache.lucenelucene-queryparser4.7.2org.apache.lucenelucene-analyzers-common4.7.2org.apache.lucenelucene-highlighter4.7.2建立索引本次增加了Float、Int类型的域packagetop.yuyufen
kibana使用Lucene语法续哥儿
以下Kibana搜索栏中搜索(lucene语法)。。。。。从印象笔记贴过来变形了。。。。。。。。。。。6.2.1的Elasticsearch"lucene_version":"7.2.1"http://lucene.apache.org/core/7_2_1/queryparser/org/apache/lucene/queryparser/classic/package-summary.html
10、自定义QueryParser（lucene笔记） yjaal
一、自定义QueryParser1、有些时候我们需要自定义一些QueryParser，一般原因为两个：（1）对于某些QueryParser在查询时会使得性能降低，所以考虑将这些查询取消，比如FuzzyQuery和WildcardQuery。（2）在具体的查询时，很有可能有这样一种需求：需要获取的是一个数字的范围查询。所以必须扩展原有的QueryParser才能进行查询。说明：就是有些默认的Quer
搜索引擎Lucene-01 LCXU_0928 lucene 搜索引擎
第一步,引入JAR包org.apache.lucenelucene-core7.3.1org.apache.lucenelucene-analyzers-common7.3.1org.apache.lucenelucene-queryparser7.3.1org.apache.lucenelucene-highlighter7.3.1commons-iocommons-io2.4第二步，生撸代码p
LUCENE-学习一叶文 IAVA lucene 信息检索
1.lucene简介lucene主要的功能是用来全文检索。他可以搜索出非结构性的数据，比如WORD文档等。2.lucene使用1）pom文件引入4.7.2UTF-8UTF-8org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucen
(精华)2020年8月18日 C#基础知识点搜索引擎Lucene的使用愚公搬代码 C#lucene
lucene的基本说明///lucene.net：全文检索的工具包，不是应用，只是个类库，完成了全文检索的功能///就是把数据拆分—存起来—查询时—拆分—匹配—结果//////Analysis–分词器，负责把字符串拆分成原子，包含了标准分词，直接空格拆分///项目中用的是盘古中文分词，///Document–数据结构，定义存储数据的格式///Index–索引的读写类///QueryParser–查
solr介绍和项目示例 Colin-hu 技术
什么是SolrLucene复习：1、什么是lucene：全文检索工具包2、Lucene的工作原理：索引数据的创建从原始文件中提取一些可以用来搜索的数据（封装成各种Field），把各field再封装成document，然后对document进行分析（对各字段分词），得到一些索引目录写入索引库，document本身也会被写入一个文档信息库；索引数据的查询根据关键词解析（queryParser）出查询条
lucene7.3 使用报org.apache.lucene.queryparser.classic.ParseException错误 huachuan520
搜索代码运行时出现如下异常org.apache.lucene.queryparser.classic.ParseException:Encountered""atline1,column0.Wasexpectingoneof:..."+"..."-"......"("..."*".................."["..."{".........atorg.apache.lucene.quer
Lucene查询语法详解 zfsn7722483 Lucene
Lucene提供了丰富的API来组合定制你所需要的查询器，同时也可以利用QueryParser提供的强大的查询语法解析来构造你想要的查询器。本文章详细的介绍了Lucene的查询语法。通过Java语法分析器把一个查询字符串解析成Lucene的查询器。在你选择使用QueryParser前，请考虑以下事项：如果你打算在程序中拼接查询语法串然后再利用QueryParser转换，那么强烈建议你利用相应的AP
Lucene教程--入门程序详解欧阳思海 √lucene
Lucene入门程序1需求实现一个歌词搜索系统，通过关键字搜索，凡是文件名或文件内容包括关键字的文件都要找出来。注意：该入门程序只对文本文件(.txt)搜索。2开发环境Jdk：1.7.0_72开发工具：eclipseindigoLucene包：lucene-core-4.10.3.jarlucene-analyzers-common-4.10.3.jarlucene-queryparser-4.1
关于Lucene的详细说明和操作使用方式 qd_zheng java技术
Lucene提供了方便您创建自建查询的API，也通过QueryParser提供了强大的查询语言。本文讲述Lucene的查询语句解析器支持的语法，Lucene的查询语句解析器是使用JavaCC工具生成的词法解析器，它将查询字串解析为LuceneQuery对象。项（Term）一条搜索语句被拆分为一些项（term）和操作符（operator）。项有两种类型：单独项和短语。单独项就是一个单独的单词，例如"
基于lucene的检索的简单的例子张大鹏的博客检索
需要的jar包：compilegroup:'org.apache.lucene',name:'lucene-core',version:'8.3.0'compilegroup:'org.apache.lucene',name:'lucene-queryparser',version:'8.3.0'compilegroup:'org.apache.lucene',name:'lucene-highl
lucene_7.1_demo liu975123 lucene入门demo
lucene7.1demo1、基于maven；废话不多说，如下org.apache.lucenelucene-core7.1.0org.apache.lucenelucene-analyzers-smartcn7.1.0org.apache.lucenelucene-queryparser7.1.0org.apache.lucenelucene-highlighter7.1.0junitjunit
jsoup select 通过属性选择器选择内容，索引值选择活在大染缸中 jsoup
jsoup属性选择器跟jquery的写法一致。1.在QueryParser类中有定义的属性匹配规则privatestaticfinalString[]AttributeEvals=newString[]{"=","!=","^=","$=","*=","~="}调用select方法的时候，写法还是有点区别的select("body>div[class*='top']")在匹配的时候，"=","!=
中文检索(分词、同义词、权重) 吴帝永 Lucene
1、首先导入Lucene相关包：lucene-analyzers-common-4.7.1.jarlucene-core-4.7.1.jarlucene-facet-4.7.1.jarlucene-highlighter-4.7.1.jarlucene-queries-4.7.1.jarlucene-queryparser-4.7.1.jar2、然后把分词源码IK复制到项目的src文件夹下。IK是
lucene4.5 demo 配置王盟
1.安装JDK1.6。2.Java开发环境配置解压下载的lucene-4.5.0.zip，可以看到core、demo、analysis、queryparser这几个文件夹。本文解压目录为：D:\Lucene\lucene-4.5.0将lucene-core-4.5.0.jar、lucene-demo-4.5.0.jar、lucene-queryparser-4.5.0.jar和lucene-ana
solr常用查询语法静静API solr-语法
apache下solr中基础知识solr查询语法配置好solr后，可以通过web管理界面进行管理和查询。web界面基本列出了大多数查询参数，可以通过这个学习lucene的查询语法。solr的查询解析是通过queryParser来配置的（solrconfig.xml），一般我们用默认的即可。其各参数含义与用法简单解释如下：q：查询输入，必须。可以使用运算符fq：过滤查询。可以使用运算符sort：排序
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod