使用mysql这么多年,以前一直只懂写sql,却不其中运行原理,直至最近抽时间看了一下mysql源代码,
对其事务运行原理及sql解析优化有一些更深入的理解.
本篇是讲述sql解析的开篇之作,希望透过最最简单的sql来让大家了解sql的查询解析过程,
如果本文力图把一个简单sql的执行过程所涉及的方法及其相关值的变化详细讲清楚,如果有问题欢迎留言.
linux下使用eclipse debug mysql5.6
create table wlt_tab1(
id int primary key
);
select * from wlt_tab1 where 1=0 and id=0
如果看不清楚,可在PC端点击查看到大图,
下面会针对上面时序图的每个方法详细解说!
如果线程池中没有可用的缓存线程,则会通过本方法创建线程来处理用户请求.
读取客户端传递的命令并分发
根据用户请求信息的第一个字段表示这个请求类型,以下摘取本方法代表性的简化 代码来说明本方法在查询过程中处理了哪些功能
switch(command){
case COM_INIT_DB: ...;
case COM_CHANGE_USER: ...;
case COM_STMT_PREPARE: ...;
//如果是查询请求
case COM_QUERY:
//从网络数据包中读取Query并存入thd->query
alloc_query(thd,packet,packet_length);
//解析
mysql_parse(thd,thd->query(),thd->query_length(),&parser_state);
...
}
/*
从lex_start方法源代码上看,本方法主要是将thd->lex对象内容重新清理
置为初始化状态.
注: thd是当前线程上下文信息类,后续与用户处理相关函数都会传入这个类,
估计是c++没有像java的ThreadLocal那么方便的类,所以老是要这么麻烦地传
来传去的
lex: 语法分析对象
本方法的实现在:sql_lex.cc
*/
lex_start(thd);
/*
查看query cache中是否有命中,如果有,则返回结果
如果没有,则作如下动作
*/
if(query_cache_send_result_to_client(thd,rawbuf,length)<=0){
//解析sql
bool err = parse_sql(thd,parser_state,NULL);
//执行
mysql_execute_command(thd);
}
mysql解析过程如下:
mysql是使用了开始的bison(即yacc的开源版)作为sql语法解析器
如上图所示,在lex词法解析阶段,会解析出select,from,where这几个token
接下来sql_yacc.cc的MYSQLparse会根据上面的token解析出语法树,yacc是使用巴科斯范式(BNF)表达语法规则,大家可以百度学习一下,下面节选几个与我们相关的表达式:
select_from:
FROM join_table_list where_clause group_clause having_clause
opt_order_clause opt_limit_clause procedure_analyse_clause
{
Select->context.table_list=
Select->context.first_name_resolution_table=
Select->table_list.first;
}
| FROM DUAL_SYM where_clause opt_limit_clause
/* oracle compatibility: oracle always requires FROM clause,
and DUAL is system table without fields.
Is "SELECT 1 FROM DUAL" any better than "SELECT 1" ?
Hmmm :) */
;
where_clause:
/* empty */ { Select->where= 0; }
| WHERE
{
Select->parsing_place= IN_WHERE;
}
expr
{
SELECT_LEX *select= Select;
select->where= $3;
select->parsing_place= NO_MATTER;
if ($3)
$3->top_level_item();
}
;
parse_sql()方法执行完后,我们可以在gdb中查看语法树lex:
##查看select_lex->where
(gdb) call print_where(lex->select_lex->where,"",QT_WITHOUT_INTRODUCERS)
WHERE:() 0x7fff98005e10 ((1 = 0) and (`id` = 0))
(gdb) p lex->select_lex->table_list->first
$9 = (TABLE_LIST *) 0x7fff98005260
##查看sql使用的database
(gdb) p $9->db
$10 = 0x7fff980057c0 "wlt"
(gdb) p $9->table_name
$11 = 0x7fff98005218 "wlt_tab1"
//获取解析后的sql语法树
Lex *lex = thd->lex;
//根据解析后的sql语法树的类型,决定如何作下一步处理
switch(lex->sql_command){
case SQLCOM_SHOW_STATUS:...;
case SQLCOM_INSERT: ...;
case SQLCOM_SELECT:
...
res = execute_sqlcom_select(thd,all_tables);
}
sql真正执行入口,
这里会分别执行:
执行sql查询优化计划前的准备工作
其中 setup_wild()方法会把查询语句中的”*”扩展为表上的所有列
可以看本方法的主要代码:
while (wild_num && (item= it++))
{
if (item->type() == Item::FIELD_ITEM &&
//如果field值为*
((Item_field*) item)->field_name[0] == '*' &&
!((Item_field*) item)->field)
{
if (subsel &&
subsel->substype() == Item_subselect::EXISTS_SUBS)
{
...
}else if (insert_fields(thd, ((Item_field*) item)->context,
((Item_field*) item)->db_name,
((Item_field*) item)->table_name, &it,
any_privileges))
{
...
}
}
//字段迭代器
Field_iterator_table_ref field_iterator;
field_iterator.set(tables);
for (; !field_iterator.end_of_fields(); field_iterator.next())
{
Item *item;
item= field_iterator.create_item(thd);
if (!found)
{
found= TRUE;
it->replace(item);
}
else
it->after(item); /* 将当前sql语句的表的字段一一加到fields_list中 */
}
JOIN::optimize()函数主要功能是对sql各种优化,包括条件下推,关联索引列,计算最优查询优化执行计划…
与本请求sql优化相关的是optimize_cond()方法
处理本sql时,optimize_cond()方法最终会将select_lex->cond_value置为Item::COND_FALSE,针对这个结果,后续处理如下:
if (select_lex->cond_value == Item::COND_FALSE ||
select_lex->having_value == Item::COND_FALSE ||
(!unit->select_limit_cnt && !(select_options & OPTION_FOUND_ROWS)))
{ /* Impossible cond */
zero_result_cause= select_lex->having_value == Item::COND_FALSE ?
"Impossible HAVING" : "Impossible WHERE";
tables= 0;
primary_tables= 0;
best_rowcount= 0;
goto setup_subq_exit;
}
这个方法主要代码可以简化如下:
//等式合并
build_equal_items(thd,conds,NULL,true,join_list,cond_equal);
//常量求值
propagate_cond_constants(thd, (I_List *) 0, conds, conds);
//条件去除
remove_eq_conds(thd, conds, cond_value) ;
在刚进这个方法时,我们可以打印 conds对象的值
(gdb) p call print_where(conds,"",QT_WITHOUT_INTRODUCERS)
WHERE:() 0x7fff98005e10 ((1 = 0) and (`wlt`.`wlt_tab1`.`id` = 0))
remove_eq_conds()方法会优化掉条件中 1=0
本方法会调用: internal_remove_eq_conds(thd, cond, cond_value); // Scan all the condition
while ((item=li++))
{
/×这里会取当前条件组的第一个条件递归调用本方法
在递归的方法中会判断到item->const_item()为true,
并对1=0进行求值:
*tmp_cond_value= eval_const_cond(cond) ? Item::COND_TRUE : Item::COND_FALSE;
×/
Item *new_item=internal_remove_eq_conds(thd, item, &tmp_cond_value);
switch (tmp_cond_value) {
case Item::COND_OK: // Not TRUE or FALSE
if (and_level || *cond_value == Item::COND_FALSE)
*cond_value=tmp_cond_value;
break;
//当前1=0的条件会进入 Item::COND_FALSE
case Item::COND_FALSE:
if (and_level)
{
*cond_value=tmp_cond_value;
return (Item*) 0; // Always false
}
break;
}
这里在gdb中如果输入:
(gdb) call print_where(conds,"",QT_WITHOUT_INTRODUCERS)
WHERE:() (nil)
//
if (zero_result_cause)
{
//返回0结果行
return_zero_rows(this, *columns_list);
DBUG_VOID_RETURN;
}
作者: 吴炼钿