存储过程优化(来自公司大佬的分享)

一、关于in和exists的使用

  1.当父查询结果集小于子查询结果集则选择exists,如果父查询结果集大于子查询结果集选择in。(可尝试等价改写) in和exists都有子查询优化,提升子查询,有时候这两的执行计划一样。需要注意的是如果子查询包含了父查询里面的条件,in不会被优化。

  2.in里面的值一般不超过100个

  3.单表abase的in和个数关系不大,都可以走索引。

  4.当有连表并且有in的个数很多,count的时候需要解析这些值很慢,所以可以封装成any valuse的形式来求count,而分页还是使用in。此例主要是in和any(values)的等价改写 any values:c_bh=any(values('53'),('530001'),('530002'),...)

abase在查询的时候会自动做表连接。将两张表做hash join操作:

  1.EXPLAIN SELECT * FROM X WHERE x_num IN(SELECT y_num FROM y); 

  2.                              QUERY PLAN                                

  3.----------------------------------------------------------------------  

  4. Hash Join  (cost=23.25..49.88 rows=350 width=86)  

  5.   Hash Cond: (x.x_num = y.y_num)   6.   ->  Seq Scan on x  (cost=0.00..17.00 rows=700 width=86)  

  7.   ->  Hash  (cost=20.75..20.75 rows=200 width=4)  

  8.         ->  HashAggregate  (cost=18.75..20.75 rows=200 width=4)                  ->  Seq Scan on y  (cost=0.00..17.00 rows=700 width=4)

二、关于not in和not exists的使用

  1.建议使用not exists,不使用not in

  2.not in不能提升子查询

  3.当not in中包含null值时,无结果集

三、like条件无索引

  1、前,后模糊匹配,都需要建立索引,防止大量的全表扫描。

  2、全模糊匹配程序上可以控制输入的字符个数,防止全表扫描,返回大量数据。

四、对join,left join的使用,将条件放到on和where后面的区别问题

  postgresql中left join中将条件放入 on和where的区别。

  1.on是肯定会返回左表的数据,所以在on里面的条件都会返回,如果想要过滤数据则需要在where中加条件

  2.由于 inner join是两表都有的,所以,返回的结果是和where条件一样的。

  示例:

  select * form tab1 left join tab2 on (tab1.size = tab2.size) where tab2.name=’AAA’

  select * form tab1 left join tab2 on (tab1.size = tab2.size and tab2.name=’AAA’)

五、滥用索引 

  1.索引过多

    一个表10-20个索引,一个表的索引建议不超过6个。

  2.重复索引

    重复索引,占用空间,字段一样、字段顺序一样,命名不一样

  3.滥用组合索引

    一个组合索引7-8个字段。建议组合字段的个数不超过3个。

六、inser使用 

  1.多条insert数据,建议修改为insert values形式

  2.批量插入的时候values里面的参数个数不能超过32767

     批量插入的时候values里面的参数个数不能超过32767,可以设置300-500个提交一次。

  程序报错: Caused by: java.io.IOException: Tried to send an out-of-range integer as a 2-byte value: 43800

  pg的jdbc driver对prepared Statement的参数 set的时候,client端的一个发送大小限制在2-byte。

  相当于所有的values里面的字段总和不能超过32767,开发环境的数据要少点所以没复现。

7、删除重复数据

  1.常规删除方法 explain analyse delete from deltest a where a.ctid <> (select min(t.ctid) from deltest t where a.id=t.id);

  2.group by删除方法 explain analyse delete from deltest a where a.ctid not in (select min(ctid) from deltest group by id);

  3.row_number删除方法 explain analyze delete from deltest a where a.ctid = any(array (select ctid from (select row_number() over (partition by id), ctid from deltest) t where t.row_number > 1));

  根据某个字段分组删除重复数据,只保留日期最大的一条,建议使用窗口函数效率更高

8、连表更新

  (1)update db_zxzhld_bak.t_zhld_zbajxx set d_larq = (select larq from db_zxzhld_bak.cacheTable where db_zxzhld_bak.t_zhld_zbajxx.c_ajbh = db_zxzhld_bak.cacheTable.c_ajbh) where c_zblx in ('2001','2002'); 更新757726条数据耗时3h。

  (2)update db_zxzhld_bak.t_zhld_zbajxx t1 set d_larq = t.larq from db_zxzhld_bak.cacheTable t where t.c_ajbh = t1.c_ajbh AND t1.c_zblx in ('2001','2002'); 修改过后的sql耗时6.5s 第一个sql查询其实是一个循环查询,特别耗时,类似于: select c_bh,(select d_larq from t2) as larq from t1 ,嵌套循环。

9、nulls last,和null first

  默认情况下,执行器认为Null值要大于所有值,所以,简单的如 dt_qzsj desc降序排序会把所有的null排在最前面,dt_qzsj asc会将null排在最后面。

  某些情况下使用dt_qzsj desc需要将null值放到最后,如下:

     explain analyze

    SELECT

      qzsq.c_id sqId, ...

     FROM ywst.t_qzsq qzsq

    LEFT JOIN ywst.t_qzst_ws ws ON qzsq.c_id_ws = ws.c_id

    LEFT JOIN ywst.t_qzst_aj aj ON qzsq.c_id_aj = aj.c_id

    WHERE qzsq.n_qzzt = 4

    ORDER BY dt_qzsj DESC LIMIT 10 OFFSET 0

    创建了索引create index i_t_qzsq_dt_qzsj on ywst.t_qzsq(dt_qzsj desc last);

    虽然创建了索引,但是并没有走索引,需要在sql中也加入nulls last才行,正确的写法:ORDER BY dt_qzsj DESC nulls last LIMIT 10 OFFSET 0

10、有关日期的查询

  1.获取月份

    select EXTRACT(YEAR FROM ((CURRENT_DATE-1)::date))::VARCHAR||

    CASE WHEN EXTRACT(MONTH FROM (CURRENT_DATE-1)::date)<10 then '0'||(EXTRACT(MONTH FROM(CURRENT_DATE-1)::date))::VARCHAR else (EXTRACT(MONTH FROM(CURRENT_DATE-1)::date))::VARCHAR end;

     该条sql如此复杂,只是为了获取当前月份,月份可以用下面的to_char获取 select to_char(current_date,'YYYYMM');

  2.对字段使用函数

    to_char(cw.d_cjsj, 'yyyy-MM') >= to_char((now() - INTERVAL '1 years' + INTERVAL '1 months'),'yyyy-MM')

    该条sql 修改后:cw.d_cjsj >= '2017-08-01 00:00:00' 对字段使用to_char后,不能使用默认索引。

  3.对字段使用函数

    to_char(dt_tskssj, 'yyyy-MM') = to_char(now(), 'yyyy-MM')

    修改后: dt_tskssj>='2018-08-01 00:00:00.000' and dt_tskssj < '2018-08-31 24:00:00.000' 同实例2,该sql可以直接传入日期查询。

  4.使用like获取当月数据

    1、explain analyze select count(*) from t_wj where to_char(d_crsj,'yyyymmdd') like '%201803%';      --768ms

     Aggregate (cost=26658.85..26658.86 rows=1 width=0)

        ---> Index Only Scan using t_wj_i_crsj on t_wj (cost=0.42..26658.33 rows=205 width=0)

              Filter: (to_char(d_crsj, 'yyyymmdd'::text) ~~ '%201803%'::text)

 

 

    2、explain analyze select count(*) from t_wj where d_crsj>'20180301' and d_crsj < '20180401';       --0.069ms

    Aggregate (cost=1002.18..1002.19 rows=1 width=0)

        ---> Index Only Scan using t_wj_i_crsj on t_wj (cost=0.42..990.34 rows=4738 width=0)

              Index Cond: ((d_crsj >= '2018-03-01 00:00:00'::timestamp without time zone) AND (d_crsj < '2018-04-01 00:00:00'::timestamp without time zone))

  5.字段顺序不规范

    1.不规范写法 select *from db_yzgl.t_zfxx where '2018-06-17 11:07:22.694' <= dt_create_time

    2.正常写法 select *from db_yzgl.t_zfxx where dt_create_time>'2018-06-17 11:07:22.694'

    两种写法其实效果一样,但是如果是涉及到字段的计算或者对字段使用了函数,则会影响使用索引。

11、建议使用count(*)

  平时写count()语句时,括弧里面写的是什么? count(*)?count(1)?count(主键)? 有对比过他们的效率,看过执行计划吗? 针对上面疑问,楼主做了实验,并得出以下结论:

  1、abase执行计划:count(*)、count(1)是选取了一个整型索引字段进行查询的。

  2、sybase执行计划:count(*)、count(1)、count(主键)是选取了一个整型索引字段进行查询的。

  3、abase执行效率:count(*)>=count(1)>=count(整型索引字段)>count(字符索引字段)>count(字符主键)>count(整型非索引字段)

  4、sybase执行效率:count(*)=count(1)=count(整型主键)>count(整型索引字段)>count(字符索引字段)>count(整型非索引字段)

  5、abase与sybase的count() 括号里面都是是判断是否为空的,空则不参与计算(李贵阳曰) 6、非特殊场景查询,统一要求使用count(*)

12、对表设计不熟悉

  优化前:

  SELECT

    COUNT (DISTINCT cwjb.c_bh) cwsl

  FROM

     db_sacw.t_aj_ajjbxx ajjb,

    db_sacw.t_aj_ajfbxx ajfb,

    db_sacw.t_cw_cwjbxx cwjb,

    db_sacw.t_cw_cwfbxx cwfb

  WHERE ajjb.c_bh = cwjb.c_ajbh AND ajjb.c_bh = ajfb.c_ajbh AND cwjb.c_bh = cwfb.c_cwbh

  修改后sql:

    select count(*) from db_sacw.t_cw_cwjbxx cwjb;

  此例主要说明在写sql的过程中最好了解表的设计,表间关系,原本可以直接从一个表里面获得的数据,经过大量的连表查询耗时几十秒。

13、频繁的查询

  序号 : 1

  最长运行时间 : 44ms

  执行次数 : 358186

  平均执行时间 : 1ms

  最早运行日期 : 2019-01-15 00:08:35.999

  最晚运行日期 : 2019-01-15 21:28:31.0

  PSQL内容 : select c_bmid from db_uim.t_ywgy_qx_rysj where c_corpid is null and c_ryid=? and c_sysid=?

  除了参数不一样,在短时间内,对一张表大量的执行同一条sql。

14、=null问

  null只能使用is null和is not null来判断

15、order by使用索引问题

  如果order by要用上索引,那么必须order by的写法要与创建索引时指定的顺序一致。 例如select * from tbl where a=? order by a,b desc nulls last;

16、数据加压问题

  加压数据分布不均,如时间,类型等不均。造成查询缓慢。

17、长事务问题

  长事务导致数据库缓慢,select * from pg_stat_activity ; 可以设置数据库参数:idle_in_transaction_session_timeout为60s

18、使用exists替换distinct

  and c_ajbh in (select distinct c_ajbh from db_zxzhld.t_zhld_zbajxx where n_dbzt = 1 and c_zblx = '1003' and c_gy = '2550' )

  改写为: and exists (select c_ajbh from db_zxzhld.t_zhld_zbajxx where n_dbzt = 1 and c_zblx = '1003' and c_gy = '2550' )

  一旦满足条件则立刻返回。所以使用exists的时候子查询可以直接去掉distinct。从执行计划来看使用exists可以消除分组,提高效率。

你可能感兴趣的:(存储过程优化(来自公司大佬的分享))