提高Oracle历史数据查询速度研究
1、Oracle数据库基础
数据库实例(instance)
一个Oracle数据库服务器可以创建多个实例,每一个实例是一套系统(如电厂状态检修系统),由唯一的SID来标示。
模式(Schema)
也叫方案,在一个实例下,不同的用户有不同的使用方案,每个数据库用户都对应一个模式,模式对象的集合构成模式。
超大型数据库(very large database, VLDB)
数据量在G以上的数据库,有些甚至达到T,一个未分区的表达到100M数据量以上查询速度会非常慢。
表空间和数据段
表空间有永久表空间,临时表空间,回滚表空间。
数据段有数据段,索引段,临时段,回滚段。
它们的包含关系为永久表空间包含数据段和索引段,临时表空间包含临时段,回滚表空间包含回滚段。
用户角色和权限
数据库中权限的分配按照,用户->角色->权限的顺序来分配。
SGA和PGA
系统全局区和进程全局区,也就是SGA(system global area),PGA(process global area)
2、分区表和分区索引
分区的定义:
满足VLDB查询需求的一条途径就是建立和使用分区表和分区索引(也叫局部索引)。基于特定的数据值,一般是按照时间字段,将分区表和分区索引分割成具有相同逻辑属性的多个分区(partition),物理属性可以是不同的。当创建一个分区表时,Oracle会动态地创建一个跨越所有分区的视图。因此尽管数据在物理上是分开的,但从逻辑上看是在一起的。可以像一个表一样向分区表中插入数据。
一旦建立了分区,SQL语句就可以操作和存取分区,而不是整个表或索引。对每个分区的操作是相互独立的。
表和索引分区可以将管理工作分割成若干个子任务,从而简化了超大表的管理,同时子任务也可以实行并行处理。每个分区可以独立的脱机、联机、备份、恢复、导入和导出以及装入,而不管不相干的分区。
分区在数据仓库应用(它一般保存和分析大量的历史数据)中特别有用。
分区的种类:
分区包括范围分区,散列分区和复合分区。
范围分区是将表按某一字段或若干个字段的取值范围分区分配数据行到不同的分区。每个分区被分配一段范围的数据,Oracle当前只支持表上的范围分区(range partitioning)。
散列(hash)分区是各分区表中的数据不是按照一定范围存放的,而是按照一定的查询规则存放,形式上是分散的。将表按某一字段的值均匀地分布到若干个指定的分区。
复合分区是先采用范围分区再采用散列分区的方式,他的特点是结合了范围分区和散列分区的优点,查询一段范围内的数据和查询单个数据都很快。结合了前面两种分区类型的优点,首先通过值范围将表进行分区,然后以hash模式将数据进一步均匀分配至物理存储位置。
每个分区保存在单独的一个数据段(表分区)或索引段(索引分区)中。可以在单独的表空间中保存每个分区。
创建分区的语句:
在CREATE TABLE 和CREATE INDEX语句使用分区选项建立分区。
分区名可以在DDL和DML语句及程序语句中引用。它们总是出现在主表或索引的名称上下文中,它们从不由模式名限定(模式名可以用于限定其主表或索引)。
=================================================================
范围分区由表或索引的分区说明定义:
PARTITION BY RANGE ( column_list )
且每个单独分区的分区说明为:
VALUES LESS THAN ( value_list )
其中:column_list为列的顺序列表,这些列即为分区列,特定行的分区列值组成行的分区键;value_list是column_list中列的值列表,每个值必须是文字或变元为常数的TO_DATE()或RPAD()函数。
每个表和索引分区有一个不包括的上限,它由VALUES LESS THAN 子句指定。每个分区也有一个下限,它由下个更低的分区中的VALUES LESS THAN指定。
这些分区限制(partition bound)共同定义表或分区中分区的顺序。“第一个”分区是有最低VALUES LESS THAN子句的分区,“最后的”或“最高的”分区是有最高VALUES LESS THAN子句的分区。
分区表不可以是聚集的一部分,不可以包括LOB(BLOB、CLOB、NCLOB、BFILE)、LONG或LONG RAW数据类型或对象类型,也不可以是索引组织表。
创建分区需要注意的问题:
选择适当的分区关键字列 主关键字很少作为适当的分区关键字列。应该选择在查询的where子句中最频繁使用的列,它用于数据的逻辑划分。分区经常在数据仓库中使用(典型的包含时间dimension),所以与时间有关的列经常用作分区关键字列。
ORACLE8的分区管理
摘要:本篇文章介绍了ORACLE数据库的新特性—分区管理,并用例子说明使用方法。
关键词:ORACLE,分区
一、 分区概述:
为了简化数据库大表的管理,ORACLE8推出了分区选项。分区将表分离在若干不同的表空间上,用分而治之的方法来支撑无限膨胀的大表,给大表在物理一级的可管理性。将大表分割成较小的分区可以改善表的维护、备份、恢复、事务及查询性能。针对当前社保及电信行业的大量日常业务数据,可以推荐使用ORACLE8的该选项。
二、分区的优点:
1 、增强可用性:如果表的一个分区由于系统故障而不能使用,表的其余好的分区仍然可以使用;
2 、减少关闭时间:如果系统故障只影响表的一部分分区,那么只有这部分分区需要修复,故能比整个大表修复花的时间更少;
3 、维护轻松:如果需要重建表,独立管理每个分区比管理单个大表要轻松得多;
4 、均衡I/O:可以把表的不同分区分配到不同的磁盘来平衡I/O改善性能;
5 、改善性能:对大表的查询、增加、修改等操作可以分解到表的不同分区来并行执行,可使运行速度更快;
6 、分区对用户透明,最终用户感觉不到分区的存在。
三、分区的管理:
1 、分区表的建立:
某公司的每年产生巨大的销售记录,DBA向公司建议每季度的数据放在一个分区内,以下示范的是该公司1999年的数据(假设每月产生30M的数据),操作如下:
STEP1、建立表的各个分区的表空间:
CREATE TABLESPACE ts_sale1999q1
DATAFILE ‘/u1/oradata/sales/sales1999_q1.dat’
SIZE 100M
DEFAULT STORAGE (INITIAL 30m NEXT 30m MINEXTENTS 3 PCTINCREASE 0)
CREATE TABLESPACE ts_sale1999q2
DATAFILE ‘/u1/oradata/sales/sales1999_q2.dat’
SIZE 100M
DEFAULT STORAGE (INITIAL 30m NEXT 30m MINEXTENTS 3 PCTINCREASE 0)
CREATE TABLESPACE ts_sale1999q3
DATAFILE ‘/u1/oradata/sales/sales1999_q3.dat’
SIZE 100M
DEFAULT STORAGE (INITIAL 30m NEXT 30m MINEXTENTS 3 PCTINCREASE 0)
CREATE TABLESPACE ts_sale1999q4
DATAFILE ‘/u1/oradata/sales/sales1999_q4.dat’
SIZE 100M
DEFAULT STORAGE (INITIAL 30m NEXT 30m MINEXTENTS 3 PCTINCREASE 0)
STEP2、建立基于分区的表:
CREATE TABLE sales
(invoice_no NUMBER,
...
sale_date DATE NOT NULL )
PARTITION BY RANGE (sale_date)
(PARTITION sales1999_q1
VALUES LESS THAN (TO_DATE(‘1999-04-01’,’YYYY-MM-DD’)
TABLESPACE ts_sale1999q1,
PARTITION sales1999_q2
VALUES LESS THAN (TO_DATE(‘1999-07-01’,’YYYY-MM-DD’)
TABLESPACE ts_sale1999q2,
PARTITION sales1999_q3
VALUES LESS THAN (TO_DATE(‘1999-10-01’,’YYYY-MM-DD’)
TABLESPACE ts_sale1999q3,
PARTITION sales1999_q4
VALUES LESS THAN (TO_DATE(‘2000-01-01’,’YYYY-MM-DD’)
TABLESPACE ts_sale1999q4 );
2 、分区表的扩容:
到了1999年年底,DBA应向表中加入2000年的表空间,同样是每季度一个表空间,由于公司业务欣欣向荣,预计每个分区为40M,操作如下。 *
STEP1、建立表空间:
CREATE TABLESPACE ts_sale2000q1
DATAFILE ‘/u1/oradata/sales/sales2000_q1.dat’
SIZE 130M
DEFAULT STORAGE (INITIAL 40m NEXT 40m MINEXTENTS 3 PCTINCREASE 0)
其他表空间ts_sale2000q2,ts_sale2000q3,ts_sales2000q4如法炮制。
STEP2、为表添加表空间:
ALTER TABLE sales
ADD PARTITION sales2000_q1
VALUES LESS THAN (TO_DATE(‘2000-04-01’,’YYYY-MM-DD’)
TABLESPACE ts_sale2000q1;
其他分区sales2000_q1,sales2000_q1,sales2000_q1如法炮制。
3 、删除不必要的分区:
公司规定:销售的明细数据两年内必须保存在线。到2001年,DBA必须将1999年的数据备份(备份方法见5、EXPORT分区),将1999年的分区删除,将空间供后来的数据使用。如此循环,永远保持两年的销售数据在线。
STEP1、DROP 分区:
ALTER TABLE sales
DROP PARTION sales1999_q1;
ALTER TABLE sales
DROP PARTION sales1999_q2;
ALTER TABLE sales
DROP PARTION sales1999_q3;
ALTER TABLE sales
DROP PARTION sales1999_q4;
STEP2、利用操作系统的工具删除以上表空间占用的文件(表空间基于裸设备无须次步),UNIX系统为例:
oracle$ rm /u1/oradata/sales/sales1999_q1.dat
oracle$ rm /u1/oradata/sales/sales1999_q2.dat
oracle$ rm /u1/oradata/sales/sales1999_q3.dat
oracle$ rm /u1/oradata/sales/sales1999_q4.dat
4 、分区的其他操作:
分区的其他操作包括截短分区(truncate),将存在的分区划分为多个分区(split),交换分区(exchange),重命名(rename),为分区建立索引等。DBA可以根据适当的情况使用。
以下仅说明分裂分区(split),例如该公司1999年第四季度销售明细数据急剧增加(因为庆国庆、迎千禧、贺回归),DBA向公司建议将第四季度的分区划分为两个分区,每个分区放两个月份的数据,操作如下:
STEP1、按(1)的方法建立两个分区的表空间ts_sales1999q4p1,
ts_sales1999q4p2;
STEP2、给表添加两个分区sales1999_q4_p1,sales1999_q4_p2;
STEP3、分裂分区:
ALTER TABLE sales
SPLIT PARTITON sales1999_q4
AT TO_DATE (‘1999-11-01’,’YYYY-MM-DD’)
INTO (partition sales1999_q4_p1, partition sales1999_q4_p2)
5 、查看分区信息:
DBA要查看表的分区信息,可查看数据字典USER_EXTENTS,操作如下:
SVRMGRL>SELECT * FROM user_extents WHERE SEGMENT_NAME=’SALES’;
SEGMENT_NA PARTITION_ SEGMENT_TYPE TABLESPACE
---------- ------------ --------------- --------------
SALES SALES1999_Q1 TABLE PARTITION TS_SALES1999Q1
SALES SALES1999_Q2 TABLE PARTITION TS_SALES1999Q2
SALES SALES1999_Q3 TABLE PARTITION TS_SALES1999Q3
SALES SALES1999_Q4 TABLE PARTITION TS_SALES1999Q4
SALES SALES2000_Q1 TABLE PARTITION TS_SALES1999Q1
SALES SALES2000_Q2 TABLE PARTITION TS_SALES1999Q2
SALES SALES2000_Q3 TABLE PARTITION TS_SALES1999Q3
SALES SALES2000_Q4 TABLE PARTITION TS_SALES1999Q4
5 、EXPORT分区:
ORACLE8的EXPORT 工具可在表的分区以及导出数据,例如到2001年,DBA必须将1999年的数据按分区导出,操作如下:
oracle$ exp sales/sales_password tables=sales:sales1999_q1 rows=Y
file=sales1999_q1.dmp
oracle$ exp sales/sales_password tables=sales:sales1999_q2 rows=Y
file=sales1999_q2.dmp
oracle$ exp sales/sales_password tables=sales:sales1999_q3 rows=Y
file=sales1999_q3.dmp
oracle$ exp sales/sales_password tables=sales:sales1999_q4 rows=Y
file=sales1999_q4.dmp
6 、IMPORT分区:
ORACLE8的IMPORT 工具可在表的分区以及导入数据,例如在2001年,用户要查看1999年的数据,DBA必须导入1999年的数据,使之在线,操作如下:
STEP1、建立表的1999年的四个表空间和相应的分区,参照(2);
STEP2、导入数据:
oracle$ imp sales/sales_password FILE =sales1999_q1.dmp
TABLES = (sales:sales1999_q1) IGNORE=y
oracle$ imp sales/sales_password FILE =sales1999_q2.dmp
TABLES = (sales:sales1999_q2) IGNORE=y
oracle$ imp sales/sales_password FILE =sales1999_q3.dmp
TABLES = (sales:sales1999_q3) IGNORE=y
oracle$ imp sales/sales_password FILE =sales1999_q4.dmp
TABLES = (sales:sales1999_q4) IGNORE=y
遗留的一些问题:
1、分区是否用测点作为索引。
2、分区用主键作为分区索引。
3、重审分区维护操作技术研究,在实施分区数据库之前要熟练维护操作。
4、表尺寸计算。
5、全局分区索引和局部分区索引:还没有搞清楚。