本节介绍索引推荐的功能,共包含三个子功能:单query索引推荐、虚拟索引和workload级别索引推荐。
单query索引推荐功能支持用户在数据库中直接进行操作,本功能基于查询语句的语义信息和数据库的统计信息,对用户输入的单条查询语句生成推荐的索引。本功能涉及的函数接口如下。
表 1 单query索引推荐功能的接口
函数名 | 参数 | 功能 |
---|---|---|
gs_index_advise | SQL语句字符串 | 针对单条查询语句生成推荐索引。 |
说明:
使用方法
使用上述函数,获取针对该query生成的推荐索引,推荐结果由索引的表名和列名组成。
例如:
openGauss=> select "table", "column" from gs_index_advise('SELECT c_discount from bmsql_customer where c_w_id = 10');
table | column
----------------+----------
bmsql_customer | (c_w_id)
(1 row)
上述结果表明:应当在 bmsql_customer 的 c_w_id 列上创建索引,例如可以通过下述SQL语句创建索引:
CREATE INDEX idx on bmsql_customer(c_w_id);
某些SQL语句,也可能被推荐创建联合索引,例如:
openGauss=# select "table", "column" from gs_index_advise('select name, age, sex from t1 where age >= 18 and age < 35 and sex = ''f'';');
table | column
-------+------------
t1 | (age, sex)
(1 row)
则上述语句表明应该在表 t1 上创建一个联合索引 (age, sex), 则可以通过下述命令创建:
CREATE INDEX idx1 on t1(age, sex);
说明: 系统函数gs_index_advise()的参数是文本型,如果参数中存在如单引号(’)等特殊字符,可以使用单引号(’)进行转义,可参考上述示例。
虚拟索引功能支持用户在数据库中直接进行操作,本功能将模拟真实索引的建立,避免真实索引创建所需的时间和空间开销,用户基于虚拟索引,可通过优化器评估该索引对指定查询语句的代价影响。
本功能涉及的系统函数接口如下表所示:
表 1 虚拟索引功能的接口
函数名 | 参数 | 功能 |
---|---|---|
hypopg_create_index | 创建索引语句的字符串 | 创建虚拟索引。 |
hypopg_display_index | 无 | 显示所有创建的虚拟索引信息。 |
hypopg_drop_index | 索引的oid | 删除指定的虚拟索引。 |
hypopg_reset_index | 无 | 清除所有虚拟索引。 |
hypopg_estimate_size | 索引的oid | 估计指定索引创建所需的空间大小。 |
本功能涉及的GUC参数如下:
表 2 虚拟索引功能的GUC参数
参数名 | 功能 | 默认值 |
---|---|---|
enable_hypo_index | 是否开启虚拟索引功能 | off |
使用步骤
openGauss=> select * from hypopg_create_index('create index on bmsql_customer(c_w_id)');
indexrelid | indexname
------------+-------------------------------------
329726 | <329726>btree_bmsql_customer_c_w_id
(1 row)`
`openGauss=> set enable_hypo_index = on;
SET`
开启GUC参数前,执行EXPLAIN + 查询语句:
openGauss=> explain SELECT c_discount from bmsql_customer where c_w_id = 10;
QUERY PLAN
----------------------------------------------------------------------
Seq Scan on bmsql_customer (cost=0.00..52963.06 rows=31224 width=4)
Filter: (c_w_id = 10)
(2 rows)
开启GUC参数后,执行EXPLAIN + 查询语句:
openGauss=> explain SELECT c_discount from bmsql_customer where c_w_id = 10;
QUERY PLAN
------------------------------------------------------------------------------------------------------------------
[Bypass]
Index Scan using <329726>btree_bmsql_customer_c_w_id on bmsql_customer (cost=0.00..39678.69 rows=31224 width=4)
Index Cond: (c_w_id = 10)
(3 rows)
通过对比两个执行计划可以观察到,该索引预计会降低指定查询语句的执行代价,用户可考虑创建对应的真实索引。
3. (可选)使用函数hypopg_display_index展示所有创建过的虚拟索引。例如:
openGauss=> select * from hypopg_display_index();
indexname | indexrelid | table | column
--------------------------------------------+------------+----------------+------------------
<329726>btree_bmsql_customer_c_w_id | 329726 | bmsql_customer | (c_w_id)
<329729>btree_bmsql_customer_c_d_id_c_w_id | 329729 | bmsql_customer | (c_d_id, c_w_id)
(2 rows)
openGauss=> select * from hypopg_estimate_size(329730);
hypopg_estimate_size
----------------------
15687680
(1 row)
openGauss=> select * from hypopg_drop_index(329726);
hypopg_drop_index
-------------------
t
(1 row)
使用函数hypopg_reset_index一次性清除所有创建的虚拟索引。例如:
openGauss=> select * from hypopg_reset_index();
hypopg_reset_index
--------------------
(1 row)
说明:
对于workload级别的索引推荐,用户可通过运行数据库外的脚本使用此功能,本功能将包含有多条DML语句的workload作为输入,最终生成一批可对整体workload的执行表现进行优化的索引。同时,本功能提供从日志中抽取业务数据SQL流水的功能。
数据库状态正常、客户端能够正常连接。
当前执行用户下安装有gsql工具,该工具路径已被加入到PATH环境变量中。
具备Python3.6+的环境。
若使用本功能提供的业务数据抽取功能,需提前将要收集的节点的GUC参数按如下设置:
说明: 业务数据抽取完毕建议将上述GUC参数复原,否则容易导致日志文件膨胀。
python extract_log.py [l LOG_DIRECTORY] [f OUTPUT_FILE] [-d DATABASE] [-U USERNAME][--start_time] [--sql_amount] [--statement] [--json]
其中的输入参数依次为:
使用示例:
python extract_log.py $GAUSSLOG/pg_log/dn_6001 sql_log.txt -d postgres -U omm --start_time '2021-07-06 00:00:00' --statement
python index_advisor_workload.py [p PORT] [d DATABASE] [f FILE] [--h HOST] [-U USERNAME] [-W PASSWORD][--schema SCHEMA]
[--max_index_num MAX_INDEX_NUM][--max_index_storage MAX_INDEX_STORAGE] [--multi_iter_mode] [--multi_node] [--json] [--driver] [--show_detail]
其中的输入参数依次为:
python index_advisor_workload.py 6001 postgres tpcc_log.txt --schema public --max_index_num 10 --multi_iter_mode
推荐结果为一批索引,以多个创建索引语句的格式显示在屏幕上,结果示例。
create index ind0 on public.bmsql_stock(s_i_id,s_w_id);
create index ind1 on public.bmsql_customer(c_w_id,c_id,c_d_id);
create index ind2 on public.bmsql_order_line(ol_w_id,ol_o_id,ol_d_id);
create index ind3 on public.bmsql_item(i_id);
create index ind4 on public.bmsql_oorder(o_w_id,o_id,o_d_id);
create index ind5 on public.bmsql_new_order(no_w_id,no_d_id,no_o_id);
create index ind6 on public.bmsql_customer(c_w_id,c_d_id,c_last,c_first);
create index ind7 on public.bmsql_new_order(no_w_id);
create index ind8 on public.bmsql_oorder(o_w_id,o_c_id,o_d_id);
create index ind9 on public.bmsql_district(d_w_id);
说明: multi_node参数需严格按照当前数据库架构进行指定,否则推荐结果不全,甚至导致无推荐结果。