qq910894904

[置顶] 自己实现一个SQL解析引擎

自己实现一个SQL解析引擎

功能：将用户输入的SQL语句序列转换为一个可执行的操作序列，并返回查询的结果集。
SQL的解析引擎包括查询编译与查询优化和查询的运行，主要包括3个步骤：

查询分析：
制定逻辑查询计划（优化相关）
制定物理查询计划（优化相关）

查询分析：将SQL语句表示成某种有用的语法树.
制定逻辑查询计划：把语法树转换成一个关系代数表达式或者类似的结构，这个结构通常称作逻辑计划。
制定物理查询计划：把逻辑计划转换成物理查询计划，要求指定操作执行的顺序，每一步使用的算法，操作之间的传递方式等。
查询分析各模块主要函数间的调用关系:

图1.SQL引擎间模块的调用关系

FLEX简介

flex是一个词法分析工具，其输入为后缀为.l的文件,输出为.c的文件. 示例是一个类似Unix的单词统计程序wc。

%option noyywrap
%{
    int chars = 0;
    int words = 0;
    int lines = 0;
%}

%%

[_a-zA-Z][_a-zA-Z0-9]+ { words++; chars += strlen(yytext); }
\n { chars++ ; lines++; }
.  { chars++; }

%%

int main()
{
       yylex();
       printf("%8d %8d %8d\n",lines,words,chars);
    return 0;
}

.l文件通常分为3部分：

%{
    definition
%}

%%
    rules
%%
    code

definition部分为定义部分，包括引入头文件，变量声明，函数声明，注释等，这部分会被原样拷贝到输出的.c文件中。
rules部分定义词法规则，使用正则表达式定义词法，后面大括号内则是扫描到对应词法时的动作代码。
code部分为C语言的代码。yylex为flex的函数，使用yylex开始扫描。
%option 指定flex扫描时的一些特性。yywrap通常在多文件扫描时定义使用。常用的一些选项有
noyywrap 不使用yywrap函数
yylineno 使用行号
case-insensitive 正则表达式规则大小写无关

flex文件的编译

 flex  –o wc.c wc.l
    cc wc.c –o wc

Bison简介

Bison作为一个语法分析器，输入为一个.y的文件,输出为一个.h文件和一个.c文件。通常Bison需要使用Flex作为协同的词法分析器来获取记号流。Flex识别正则表达式来获取记号，Bison则分析这些记号基于逻辑规则进行组合。
计算器的示例：calc.y

%{
#include <stdio.h>
%}

%token NUMBER
%token ADD SUB MUL DIV ABS
%token OP CP
%token EOL

%%

calclist:
    | calclist exp EOL {printf("=%d \n> ",$2);}
    | calclist EOL {printf("> ");}
    ;
exp: factor
    | exp ADD factor  {$$ = $1 + $3;}
    | exp SUB factor  {$$ = $1 - $3;}
    ;
factor:term
    | factor MUL term {$$ = $1 * $3;}
    | factor DIV term {$$ = $1 / $3;}
    ;
term:NUMBER
    | ABS term ABS { $$ = ($2 >= 0 ? $2 : -$2);}
    | OP exp CP    { $$ = $2;}
    ;
%%
int main(int argc,char *argv[])
{
    printf("> ");
    yyparse();

    return 0;
}
void yyerror(char *s)
{
    fprintf(stderr,"error:%s:\n",s);
}

Flex与Bison共享记号，值通过yylval在Flex与Bison间传递。对应的.l文件为

%option noyywrap
%{
#include "fb1-5.tab.h"
#include <string.h>
%}

%%
"+" { return ADD;}
"-" { return SUB;}
"*" { return MUL;}
"/" { return DIV;}
"|" { return ABS;}
"(" { return OP;}
")" { return CP;}
[0-9]+ { 
                 yylval = atoi(yytext);
                 return NUMBER;
           }

\n { return EOL; }
"//".*

[ \t] {}
"q" {exit(0);}
.   { yyerror("invalid char: %c\n;",*yytext); }
%%

Bision文件编译

  bison -d cacl.y
    flex cacl.l
    cc -o cacl cacl.tab.c lex.yy.c

通常，Bison默认是不可重入的，如果希望在yyparse结束后保留解析的语法树，可以采用两种方式，一种是增加一个全局变量，另一种则是设置一个额外参数，其中ParseResult可以是用户自己定义的结构体。
%parse-param {ParseResult *result}
在规则代码中可以引用该参数：

stmt_list: stmt ';'  { $$ = $1; result->result_tree = $$; }
| stmt_list stmt ';' { $$ = (($2 != NULL)? $2 : $1); result->result_tree = $$;}
stmt_list: stmt ';'  { $$ = $1; result->result_tree = $$; }
| stmt_list stmt ';' { $$ = (($2 != NULL)? $2 : $1); result->result_tree = $$;}

调用yyparse时则为：
ParseResult p;
yyparse(&p);

SQL解析引擎中的数据结构

语法树结构

在实现的时候可以把语法树和逻辑计划都看成是树结构和列表结构，而物理计划更像像是链式结构。树结构要注意区分叶子节点（也叫终止符节点）和非叶子节点（非终止符节点）。同时叶子节点和非叶子节点都可能有多种类型。

语法树的节点：包含两个部分，节点的类型的枚举值kind，表示节点值的联合体u，联合体中包含了各个节点所需的字段。

typedef struct node{
   NODEKIND kind;

   union{
         //...
           /* query node */
         struct{
             int         distinct_opt;
              struct node *limit; 
              struct node *select_list;
              struct node *tbl_list;
              struct node *where_clause;
              struct node *group_clause;
              struct node *having_clause;
              struct node *order_clause;
         } SELECT;
         /* delete node */
        struct{
            struct node *limit;
            struct node *table;
            struct node *where_clause;
            struct node *group_clause;
         } DELETE;
/* relation node */
          struct{
                char * db_name;
                char * tbl_name;
                char * alias_name;
          } TABLE;
        //其他结构体
   }u;
}NODE ;
NODEKIND枚举了所有可能出现的节点类型.其定义为

typedef enum NODEKIND{
    N_MIN,
    /* const node*/
    N_INT,    //int or long
    N_FLOAT,  //float
    N_STRING, //string
    N_BOOL,   //true or false or unknown
    N_NULL,   //null
    /* var node*/
    N_COLUMN, // colunm name
    //其他类型
    /*stmt node*/    
    N_SELECT,
    N_INSERT,
    N_REPLACE,
    N_DELETE,
    N_UPDATE,
    //其他类型
    N_MAX
} NODEKIND;

在语法树中，分析树的叶子节点为数字，字符串，属性等，其他为内部节点。因此有些数据库的实现中将语法树的节点定义为如下的ParseNode结构。

typedef struct _ParseNode
{
  ObItemType   type_;//节点的类型，如T_STRING,T_SELECT等

  /* 终止符节点，具有实际的值 */
  int64_t      value_;
  const char*  str_value_;

  /* 非终止符节点，拥有多个孩子 */
  int32_t      num_child_;//子节点的个数
  struct _ParseNode** children_;//子节点指针链

} ParseNode;

逻辑计划结构

逻辑计划的内部节点是算子，叶子节点是关系.

typedef struct plannode{

    PLANNODEKIND kind;

    union{
        /*stmt node*/
        struct {
            struct plannode *plan;
        }SELECT;

        /*op node*/
        struct {
            struct plannode *rel;
            struct plannode *filters; //list of filter
        }SCAN;
        struct {
            struct plannode *rel;
            NODE *expr_filter; //list of compare expr
        }FILTER;
        struct {
            struct plannode *rel;
            NODE *select_list;    
        }PROJECTION;
        struct {
            struct plannode *left;
            struct plannode *right;
        }JOIN;
        /*leaf node*/
        struct {
            NODE *table;
        }FILESCAN;
        //其他类型节点    
    }u;
}PLANNODE;

逻辑计划节点的类型PLANNODEKIND的枚举值如下：

typedef enum PLANNODEKIND{
    /*stmt node tags*/
    PLAN_SELECT,
    PLAN_INSERT,
    PLAN_DELETE,
    PLAN_UPDATE,
    PLAN_REPLACE,
    /*op node tags*/
    PLAN_FILESCAN, /* Relation     关系，叶子节点 */
    PLAN_SCAN,       
    PLAN_FILTER,   /* Selection  选择   */
    PLAN_PROJ,     /* Projection 投影*/
    PLAN_JOIN,     /* Join       连接 ，指等值连接*/
    PLAN_DIST,     /* Duplicate elimination( Distinct) 消除重复*/
    PLAN_GROUP,    /* Grouping   分组(包含了聚集)*/
    PLAN_SORT,     /* Sorting    排序*/
    PLAN_LIMIT,
    /*support node tags*/
    PLAN_LIST    
}PLANNODEKIND;

物理计划结构

物理逻辑计划中关系扫描运算符为叶子节点，其他运算符为内部节点。拥有3个迭代器函数open,close,get_next_row。其定义如下：

typedef int (*IntFun)(PhyOperator *);
typedef int (*RowFun)(Row &row,PhyOperator *);
struct phyoperator{
    PHYOPNODEKIND kind;

    IntFun open;
    IntFun close;
    RowFun get_next_row;//迭代函数

    union{
        struct {
            struct phyoperator *inner;
            struct phyoperator *outter;
            Row one_row;
        }NESTLOOPJOIN;
        struct {
            struct phyoperator *inner;
            struct phyoperator *outter;
        }HASHJOIN;
        struct {
            struct phyoperator *inner;
        }TABLESCAN;
        struct {
            struct phyoperator *inner;
            NODE * expr_filters;
        }INDEXSCAN;
        //其他类型的节点
    }u;
}PhyOperator;

物理查询计划的节点类型PHYOPNODEKIND枚举如下：

typedef enum PHYOPNODEKIND{
    /*stmt node tags*/
    PHY_SELECT,
    PHY_INSERT,
    PHY_DELETE,
    PHY_UPDATE,
    PHY_REPLACE,
    /*phyoperator node tags*/
    PHY_TABLESCAN,
    PHY_INDEXSCAN,
    PHY_FILESCAN,
    PHY_NESTLOOPJOIN,
    PHY_HASHJOIN,
    PHY_FILTER,
    PHY_SORT,
    PHY_DIST,
    PHY_GROUP,
    PHY_PROJECTION,
    PHY_LIMIT
}PHYOPNODEKIND;

节点内存池

可以看到分析树，逻辑计划树和物理查询树都是以指针为主的结构体，如果每次都动态从申请的话，会比较耗时。需要使用内存池的方式，一次性申请多个节点内存，供以后调用。下面是一种简单的方式，每次创建节点时都使用newnode函数即可。程序结束时再释放内存池即可。

static NODE *nodepool = NULL;
static int MAXNODE = 256;
static int nodeptr = 0;

NODE *newnode(NODEKIND kind)
{
    //首次使用时申请MAXNODE个节点
    if(nodepool == NULL){
        nodepool = (NODE *)malloc(sizeof(NODE)*MAXNODE);
        assert(nodepool);
    }

    assert(nodeptr <= MAXNODE);
    //当节点个数等于MAXNODE时realloc扩展为原来的两倍节点
    if (nodeptr == MAXNODE){
        MAXNODE *= 2;
        NODE *newpool = 
(NODE *)realloc(nodepool,sizeof(NODE)*MAXNODE) ; 
        assert(newpool);
        nodepool = newpool;
    }

    NODE *n = nodepool + nodeptr;
    n->kind = kind ;
    ++nodeptr;

    return n;
}

查询分析

查询分析需要对查询语句进行词法分析和语法分析，构建语法树。词法分析是指识别SQL语句中的有意义的逻辑单元，如关键字（SELECT，INSERT等），数字，函数名等。语法分析则是根据语法规则将识别出来的词组合成有意义的语句。词法分析工具LEX，语法分析工具为Yacc，在GNU的开源软件中对应的是Flex和Bison，通常都是搭配使用。

词法和语法分析

SQL引擎的词法分析和语法分析采用Flex和Bison生成，parse_sql为生成语法树的入口，调用bison的yyparse完成。源文件可以这样表示

文件	意义
parse_node.h parse_node.cpp	定义语法树节点结构和方法，入口函数为parse_sql
print_node.cpp	打印节点信息
psql.y	定义语法结构,由Bison语法书写
psql.l	定义词法结构,由Flex语法书写

SQL查询语句语法规则

熟悉Bison和Flex的用法之后，我们就可以利用Flex获取记号,Bison设计SQL查询语法规则。一个SQL查询的语句序列由多个语句组成，以分号隔开，单条的语句又有DML，DDL，功能语句之分。

    stmt_list : stmt ‘;’
    | stmt_list stmt ‘;’
    ;
    stmt: ddl
    | dml    
    | unility
    | nothing
    ;
    dml: select_stmt   
    | insert_stmt   
    | delete_stmt   
    | update_stmt   
    | replace_stmt  
    ;

以DELETE 单表语法为例

DELETE  [IGNORE] [FIRST|LAST row_count] 
FROM tbl_name 
[WHERE where_definition]  
[ORDER BY ...]

用Bison可以表示为:

delete_stmt:DELETE opt_ignore opt_first FROM table_ident opt_where opt_groupby 
{
           $$ = delete_node(N_DELETE,$3,$5,$6,$7);
}  
;
opt_ignore:/*empty*/
            | IGNORE
;

opt_first: /* empty */{ $$ = NULL;}
| FIRST INTNUM { $$ = limit_node(N_LIMIT,0,$2);}
| LAST INTNUM { $$ = limit_node(N_LIMIT,1,$2);}
;

然后在把opt_where,opt_groupby，table_ident等一直递归下去，直到不能在细分为止。
SQL语句分为DDL语句和DML语句和utility语句，其中只有DML语句需要制定执行计划，其他的语句转入功能模块执行。

制定逻辑计划

执行顺序

语法树转为逻辑计划时各算子存在先后顺序。以select语句为例，执行的顺序为：
FROM > WHERE > GROUP BY> HAVING > SELECT > DISTINCT > UNION > ORDER BY > LIMIT。
没有优化的逻辑计划应按照上述顺序逐步生成或者逆向生成。转为逻辑计划算子则对应为：
JOIN –> FILTER -> GROUP -> FILTER(HAVING) -> PROJECTION -> DIST -> UNION -> SORT -> LIMIT。

逻辑计划的优化

逻辑计划的优化需要更细一步的粒度，将FILTER对应的表达式拆分成多个原子表达式。如WHERE t1.a = t2.a AND t2.b = '1990'可以拆分成两个表达式：
1）t1.a = t2.a
2）t2.b = '1990'
不考虑谓词LIKE，IN的情况下，原子表达式实际上就是一个比较关系表达式，其节点为列名，数字，字符串，可以将原子表达式定义为

struct CompExpr
{
    NODE * attr_or_value;
    NODE * attr_or_value;
    CompOpType kind;
};

CompOpType为“>”, ”<” ,”=”等各种比较操作符的枚举值。

如果表达式符合 attr comp value 或者 value comp attr，则可以将该原子表达式下推到对应的叶子节点之上，增加一个Filter。
如果是attr = value类型，且attr是关系的索引的话，则可以采用索引扫描IndexScan。
当计算三个或多个关系的并交时，先对最小的关系进行组合。

还有其他的优化方法可以进一步发掘。内存数据库与存储在磁盘上的数据库的代价估计不一样。根据处理查询时CPU和内存占用的代价，主要考虑以下一些因素：

查询读取的记录数；
结果是否排序(这可能会导致使用临时表)；
是否需要访问索引和原表。

制定物理计划

物理查询计划主要是完成一些算法选择的工作。如关系扫描运算符包括：
TableScan(R):按任意顺序读入所以存放在R中的元组。
SortScan(R,L):按顺序读入R的元组，并以列L的属性进行排列
IndexScan(R,C): 按照索引C读入R的元组。

根据不同的情况会选择不同的扫描方式。其他运算符包括投影运算Projection，选择运算Filter,连接运算包括嵌套连接运算NestLoopJoin，散列连接HashJoin，排序运算Sort等。
算法的一般策略包括基于排序的，基于散列的，或者基于索引的。

流水化操作与物化

由于查询的结果集可能会很大，超出缓冲区，同时为了能够提高查询的速度，各运算符都会支持流水化操作。流水化操作要求各运算符都有支持迭代操作，它们之间通过GetNext调用来节点执行的实际顺序。迭代器函数包括open,getnext,close3个函数。
设NestLoopJoin的两个运算符参数为R，S，NestLoopJoin的迭代器函数如下：

void NestLoopJoin::Open()
{
    R.Open();
    S.Open();
    r =R.GetNext();
}
void NestLoopJoin::GetNext(tuple &t)
{
    Row r,s;
    S.GetNext(s);
    if(s.empty()){
        S.Close();
        R.GetNext(r);
        if(r.empty())
            return;
        S.Open();
        S.GetNext(s);
    }
    t = join(r,s)
}
void NestLoopJoin::Close()
{
        R.Close();
        S.Close();
}

如果TableScan，IndexScan，NestLoopJoin 3个运算符都支持迭代器函数。则图5中的连接NestLoopJoin(t1,t2’)可表示为：
phy = Projection(Filter(NestLoopJoin(TableScan(t1),IndexScan(t2’))));

执行物理计划时：

phy.Open();
    while(!tuple.empty()){
        phy.GetNext(tuple);
    }
    phy.Close();

这种方式下，物理计划一次返回一行，执行的顺序由运算符的函数调用序列来确定。程序只需要1个缓冲区就可以向用户返回结果集。
也有些情况需要等待所有结果返回才进行下一步运算的，比如Sort , Dist运算，需要将整个结果集排好序后才能返回，这种情况称作物化，物化操作通常是在open函数中完成的。

一个完整的例子

接下来以一个例子为例表示各部分的结构，SQL命令：
SELECT t1.a,t2.b FROM t1,t2 WHERE t1.a = t2.a AND t2.b = '1990';
其对应的分析树为：

图2. SQL例句对应的分析树

分析树的叶子节点为数字，字符串，属性等，其他为内部节点。
将图2的分析树转化为逻辑计划树，如图3所示。

图3. 图2分析树对应的逻辑计划

逻辑计划是关系代数的一种体现，关系代数拥有种基本运算符：投影 (π)，选择 (σ)，自然连接 (⋈)，聚集运算(G)等算子。因此逻辑计划也拥有这些类型的节点。
逻辑计划的内部节点是算子，叶子节点是关系，子树是子表达式。各算子中最耗时的为连接运算，因此SQL查询优化的很大一部分工作是减小连接的大小。如图3对应的逻辑计划可优化为图4所示的逻辑计划。

图4. 图3优化后的逻辑计划

完成逻辑计划的优化后，在将逻辑计划转化为物理查询计划。图4的逻辑计划对应的物理查询计划如下：

图5. 图4对应的物理查询计划

物理查询计划针对逻辑计划中的每一个算子拥有对应的1个或多个运算符，生成物理查询计划是基于不同的策略选择合适的运算符进行运算。其中，关系扫描运算符为叶子节点，其他运算符为内部节点。

后记

开源的数据库代码中可以下载OceanBase或者RedBase。OceanBase 是淘宝的开源数据库，RedBase是斯坦福大学数据库系统实现课程的一个开源项目。后面这两个项目都是较近开始的项目，代码量较少，结构较清晰，相对简单易读，在github上都能找到。但是OceanBase目前SQL解析部分也没有全部完成，只有DML部分完成；RedBase设计更简单，不过没有设计逻辑计划。
本文中就是参考了RedBase的方式进行解析。

参考文献：

《数据库系统实现》
《flex与bison》

欢迎光临我的网站----蝴蝶忽然的博客园----人既无名的专栏。
如果阅读本文过程中有任何问题，请联系作者，转载请注明出处！

科普文：软件架构数据库系列之【MySQL的sql_mode参数】 -无-为- 软件架构业务场景 MySQL 数据库 mysql sql sql_mode
概叙科普文：软件架构数据库系列之【MySQL解析器和优化器】-CSDN博客科普文：软件架构数据库系列之【MySQL查询优化器中的优化策略optimizer_switch】-CSDN博客科普文：软件架构数据库系列之【MySQL执行计划Extra梳理】-CSDN博客科普文：软件架构数据库系列之【MySQL控制查询优化器Hints】-CSDN博客从MySQL的解析器、优化器、执行计划、Hints、到最后
一条sql是如何执行的详解听忆. 轻松拿捏【面试干货】sql 数据库
一条sql是如何执行的详解1.SQL解析（Parsing）2.查询重写（QueryRewrite）3.查询规划（QueryPlanning）4.查询执行（QueryExecution）5.结果返回示例：查询执行流程总结边走、边悟迟早会好一条SQL查询在PostgreSQL（以及大多数关系型数据库）中的执行过程可以分为多个阶段。每个阶段都对应特定的任务，从SQL解析到最终获取查询结果。以下是SQL查
Python100个库分享第16个—sqlparse(SQL解析器) 一晌小贪欢 Python100个库分享 sql python 爬虫开发语言 python学习 python爬虫
目录专栏导读库的介绍库的安装1、解析SQL语句2、格式化SQL语句3、提取表名4、分割多条SQL语句实际应用代码参考：总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础
开源数据库 OpenGauss 的 SQL 解析源码分析 openGaussMan 网络 openGauss 数据库
开源数据库OpenGauss的SQL解析源码分析openGauss数据库体系概述openGauss是关系型数据库，采用客户端/服务器，单进程多线程架构；支持单机和一主多备部署方式，同时支持备机可读、双机高可用等特性。从代码结构体系结构的角度来说，oepnGauss的第一个组成部分是通信管理。openGauss查询响应是使用“单个用户对应一个服务器线程”的简单客户端/服务器模型实现的。由于我们无法预
Doris ——SQL原理解析爱吃辣条byte #Doris sql 数据库
目录前言一、Doris简介二、SQL解析简介2.1词法分析2.2语法分析2.3逻辑计划2.4物理计划三、DorisSQL解析的总体架构四、Parse阶段五、Analyze阶段六、SinglePlan阶段（生成单机逻辑Plan阶段）七、DistributedPlan计划（生成分布式逻辑阶段）7.1DistributedPlan概述7.2四种join算法：7.2.1BroadcastJoin7.2.2
MySQL--SQL解析顺序 Schafferyy 数据库 mysql sql 数据库
前言：一直是想知道一条SQL语句是怎么被执行的，它执行的顺序是怎样的，然后查看总结各方资料，就有了下面这一篇博文了。本文将从MySQL总体架构—>查询执行流程—>语句执行顺序来探讨一下其中的知识。一、MySQL架构总览：架构最好看图，再配上必要的说明文字。下图根据参考书籍中一图为原本，再在其上添加上了自己的理解。从上图中我们可以看到，整个架构分为两层，上层是MySQLD的被称为的‘SQLLayer
JAVA设计模式之解释器模式详解一只经常emo的程序员 java java 设计模式解释器模式
解释器模式1解释器模式介绍解释器模式使用频率不算高，通常用来描述如何构建一个简单“语言”的语法解释器。它只在一些非常特定的领域被用到，比如编译器、规则引擎、正则表达式、SQL解析等。不过，了解它的实现原理同样很重要，能帮助你思考如何通过更简洁的规则来表示复杂的逻辑。解释器模式(Interpreterpattern)的原始定义是：用于定义语言的语法规则表示，并提供解释器来处理句子中的语法。我们通过一
Java解释器模式龍飝
解释器模式（InterpreterPattern）提供了评估语言的语法或表达式的方式，它属于行为型模式。这种模式实现了一个表达式接口，该接口解释一个特定的上下文。这种模式被用在SQL解析、符号处理引擎等。意图：给定一个语言，定义它的文法表示，并定义一个解释器，这个解释器使用该标识来解释语言中的句子。主要解决：对于一些固定文法构建一个解释句子的解释器。何时使用：如果一种特定类型的问题发生的频率足够高
浅谈SQL优化小技巧 | 京东云技术团队数据库mysqlsql性能优化
回顾MySQL的执行过程，帮助介绍如何进行sql优化。（1）客户端发送一条查询语句到服务器；（2）服务器先查询缓存，如果命中缓存，则立即返回存储在缓存中的数据；（3）未命中缓存后，MySQL通过关键字将SQL语句进行解析，并生成一颗对应的解析树，MySQL解析器将使用MySQL语法进行验证和解析。例如，验证是否使用了错误的关键字，或者关键字的使用是否正确；（4）预处理是根据一些MySQL规则检查解
[NSSCTF]-Web:[SWPUCTF 2021 新生赛]easy_sql解析 Clxhzg Web web安全安全网络安全 sql
查看网页有提示，参数是wllm，并且要我们输入点东西所以，我们尝试以get方式传入有回显，但似乎没啥用从上图看应该是字符型漏洞，单引号字符注入先查看字段数/?wllm=2'orderby3--+没回显报错了，说明字段数是3然后查看回显点/?wllm=2'unionselect1,2,3--+注意，这里需要把wllm设置为不为1的数（就是让他查不到数据就行，因为wllm=1查得到数据），不然它只会输
Elasticsearch中的动态DSL解决方案林犀居士 elasticsearch mybatis java elasticsearch 大数据搜索引擎动态dsl mybatis
目录问题背景解决方案编写es的mapper动态dsl编写使用mapper获取动态dsl远程调用restfulapi查询问题背景在大数据量的业务系统中，一般都会引入Elasticsearch来作为搜索引擎，而搜索的条件又是多种多样的。回顾下，如果是mysql等这种关系型数据库来作为存储介质呢？我们是不是可以通过mybatis的动态sql解析功能就能轻轻松松的搞定。或许你也许会问，es不是提供了jav
druid连接mysql配置_数据库连接池Druid的基本配置沉吟细把真无奈 druid连接mysql配置
1.简介，什么是DruidDruid是阿里巴巴开源平台上的一个项目，整个项目由数据库连接池、插件框架和SQL解析器组成。该项目主要是为了扩展JDBC的一些限制，可以让程序员实现一些特殊的需求，比如向密钥服务请求凭证、统计SQL信息、SQL性能收集、SQL注入检查、SQL翻译等，程序员可以通过定制来实现自己需要的功能。2.性能相关3.配置在上面的配置中，通常你需要配置url、username、pas
MySQL查询缓存拾光师程序人生
MySQL查询缓存MySQL在查询的时候首先会查询缓存，如果缓存命中的话就直接返回结果，不需要解析sql语句，也不会生成执行计划，更不会执行；如果没有命中缓存，则再进行SQL解析以及进行查询，并将结果返回(也同时将结果放入到缓存中)MySQL查询过程缓存查找是利用对大小写敏感的哈希查找来实现的，Hash查找只能进行全值查找（sql完全一致），如果缓存命中，检查用户权限，如果权限允许，直接返回，查询
python-sqlparse的SQL表血缘解析零壹Ture python sql 数据库数据仓库 hive 大数据数据分析
python-sqlparse解析SQL表血缘文章目录python-sqlparse解析SQL表血缘前言一、血缘是什么二、准备工作1、了解python-sqlparse库2、python-sqlparse简单实战2.1、直接查询sql解析2.2、子查询sql解析2.3、join表名解析3、python-sqlparse解析思路3.1、insert_表名解析3.2、from_表名解析三、实操演练1.
MIT6.5830 实验3 一颗小小的石头. MIT6.5830 数据库开发 mit课程
前置回顾在实验2中，完成了增删查改、排序、分组、聚合、连接等基本操作，在已提供sql解析器的基础上，能够运行进本的sql语句。都是逻辑层的实现，没有涉及物理存储方面的内容。实验目标实现最简单的基于锁的transaction，事务是一组以原子方式执行的数据库操作（例如，插入、删除和读取），要么所有操作都完成，要么没有一个完成。关系型数据库的事务acid特性：Atomicity（原子性）：一个事务（t
当mybatis中需要传入动态的表名或者是字段名时彭奕茗
在动态sql解析过程，#{}与${}的效果是不一样的：要实现动态传入表名、列名，需要做如下修改添加属性statementType="STATEMENT"同时sql里的属有变量取值都改成${xxxx}，而不是#{xxx}#{}与${}区别：#{}将传入的参数当成一个字符串，会给传入的参数加一个双引号${}将传入的参数直接显示生成在sql中，不会添加引号#{}能够很大程度上防止sql注入，${}无法防
MyBatis 源码系列：MyBatis 解析配置文件、二级缓存、SQL Code技术分享 mybatis java
文章目录解析全局配置文件二级缓存解析解析二级缓存缓存中的调用过程缓存中使用的设计模式解析SQL解析全局配置文件启动流程分析Stringresource="mybatis-config.xml";//将XML配置文件构建为Configuration配置类reader=Resources.getResourceAsReader(resource);//通过加载配置文件流构建一个SqlSessionFa
推荐5款深受开发人员青睐的开源项目孜孜孜孜不倦开源
GitHub圈选项目推荐：DevToys（开发者的瑞士军刀）Jan（离线GPT工具）Mayfly-Go（统一管理操作平台）sqlglot（SQL解析器）ip2region（微秒级IP定位库）1、DevToysDevToys是一个用于开发者的工具集合，包括各种实用的小工具和辅助功能，旨在提高开发效率和简化开发过程。Star：19.9k项目地址：https://github.com/veler/Dev
MySQL的执行计划（Explain）你若安好我便天晴 mysql 数据库
1、MySQL执行计划的定义在MySQL中可以通过explain关键字模拟优化器执行SQL语句，从而知道MySQL是如何处理SQL语句的。2、MySQL整个查询的过程•客户端向MySQL服务器发送一条查询请求•服务器首先检查查询缓存，如果命中缓存，则立刻返回存储在缓存中的结果。否则进入下一阶段•服务器进行SQL解析、预处理、再由优化器生成对应的执行计划•MySQL根据执行计划，调用存储引擎的API
写一个水平分表插件 yzp- mybatis mysql sql java
我们只考虑以Mybatis插件的方式写一个水平分表插件，不包含分库，所以不需要考虑代理数据源等问题。github上大多数的实现都是：1，解析路由配置，知道哪些表需要路由，哪些表不需要路由，并知道路由参数；2，SQL解析，使用JSqlParser或druid的SQL解析器去获取静态SQL的路由键和路由键实际参数。因为如果找不到路由键，那就扫全表，如果找不到路由键实际参数，就不知道要路由到哪些子表，也
Apache Calcite原理极简入门 longLiveData
ApacheCalcite是独立于存储与执行的SQL解析、优化引擎，广泛应用于各种离线、搜索、实时查询引擎，如Drill、Hive、Kylin、Solr、flink、Samza等。本文结合hive中基于代价的优化，解析calcite优化引擎的实现原理。Calcite架构Calcite架构图如下，其中OperatorExpressions是查询树在calcite中的表示，可以直接通过calcite的
Day3：MySQL查询基础-查询执行过程蚂蚁窝大梦想
写在前面为MySQL能够以更高性能执行查询，最优办法是清楚MySQL是如何优化和执行查询。下图展示了MySQL查询过程。mysql查询过程.png说明：客户端发送一条查询到服务器。服务器先查询缓存，如命中缓存，则立即返回存储在缓存中的结果。否则进入下一阶段。服务器进行SQL解析、预处理，再由优化器生成对应的执行计划。MySQL根据优化器生成的执行计划，调用存储引擎的API来执行查询。将结果返回给客
Spark从入门到精通30:Spark SQL：核心源码深度剖析勇于自信
在前面一节我们讲解了SparkSQL的工作原理，接下来在这一节，我们对SparkSQL工作原理进一步地深入和加强，这一节主要讲解SparkSQL核心源码导读和剖析首先，我们看SQLContext.scala源码：执行sql方法的解析找到我们执行sql语句的方法，如下图所示：这个方法上面的注释大概意思：使用spark执行一条SQL查询语句，将结果作为DataFrame返回。SQL解析使用的方言，可以
后端开发面试必会：数据库基础知识及常见面试问题 CV干饭王面试+学习经验数据库 mysql 索引锁
1、如何设计一个数据库？分为8个模块：1、存储管理，管理存储的数据。2、缓存机制，一次加载多个，增加下次查找的效率。3、sql解析，解析输入的sql语句。4、日志管理，记录数据库的操作。5、权限划分，设定不同用户的不同权限。6、容灾机制，出问题后恢复数据的能力。7、索引管理，优化数据查询效率。8、锁管理，使数据库支持并发操作。注意：索引、索是面试的重点。2、索引有哪些数据结构？各有哪些优缺点？首先
【大数据】Flink 测试利器：DataGen G皮T #Flink 大数据 flink 测试 DataGen 测试数据 Connector FlinkSQL
Flink测试利器：DataGen1.什么是FlinkSQL？2.什么是Connector？3.DataGenConnector3.1Demo3.2支持的类型3.3连接器属性4.DataGen使用案例4.1场景一：生成一亿条数据到Hive表4.2场景二：持续每秒生产10万条数到消息队列5.思考1.什么是FlinkSQL？FlinkSQL是基于ApacheCalcite的SQL解析器和优化器构建的，
mysql 解析json字符串、数组字符串、json数组字符串扫地增 sql mysql json 数据库
背景：笔者使用mysql5.7进行了一次json字符串的解析，因为一直在搞大数据相关的数据库、olap等，太久没有用mysql5.x的版本，一些函数已经不知道支不支持，我的同事建议我使用like、rlike模糊匹配的方式，身为数据人我不太喜欢用这种手段，因为他们比较低效。于是我想这里总结一下，做一下备忘，希望也对大家有帮助。json字符串解析MySQL解析JSON字符串，可以使用MySQL的JSO
MySQL 协议（非常详细适合小白学习） show @@camellia Java MySQL mysql 数据库 JDBC
MySQL查询过程MySQL查询过程大致如下：1）客户端与服务器端建立连接；2）客户端登陆MySQL；3）客户端向服务器端发起一条请求；4）服务器端先检查查询缓存，如果命中缓存，则直接返回结果；否则交给下一阶段；5）服务器进行SQL解析并生成解析树及执行计划（初始执行计划）；6）服务器对解析树进行查询优化（RBO、CBO）并生成最终执行计划；7）MySQL根据执行计划，调用相应API，以进行数据的
OpenGauss SQL解析源码分析 qq_44361136 数据库 sql
OpenGaussSQL解析源码分析SQL引擎简介：SQL引擎整个编译的过程如下图所示，在编译的过程中需要对输入的SQL语言进行词法分析、语法分析、语义分析，从而生成逻辑执行计划，逻辑执行计划经过代数优化和代价优化之后，产生物理执行计划。SQL解析通常包含词法分析、语法分析、语义分析几个子模块。SQL是介于关系演算和关系代数之间的一种描述性语言，它吸取了关系代数中一部分逻辑算子的描述，而放弃了关系
【参赛作品16】openGauss SQL解析源码分析 Gauss松鼠会 sql 数据库 database
作者：梅氵SQL引擎简介：SQL引擎整个编译的过程如下图所示，在编译的过程中需要对输入的SQL语言进行词法分析、语法分析、语义分析，从而生成逻辑执行计划，逻辑执行计划经过代数优化和代价优化之后，产生物理执行计划。SQL解析通常包含词法分析、语法分析、语义分析几个子模块。SQL是介于关系演算和关系代数之间的一种描述性语言，它吸取了关系代数中一部分逻辑算子的描述，而放弃了关系代数中"过程化"的部分，S
JSQLParser 解析复杂SQL 2.0 醒盼梦惜忆甚悠 Ashの代码之路 sql mybatis 数据库 java
前言这段时间，为了开发数据中台项目，我去研究学习了JSQLParser（Java中解析SQL语句的工具），并且结合网上资料，写了一个初步的SQL解析工具类...正文时隔三天，我又回来了，因为之前JSQLParser的使用方式果然不太正确。基本上正常的SQL通过JSQLParser都可以完美解析出它的结构。主要错误如下：表别名的解析是包含from和join两部分的，之前只解析了from，所以无法获得
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s