检索可分为精确检索和广泛检索。有三种常用的检索方法:一,通过散列方法直接访问记录;二,按关键码排序的简单线性表可以作为一个存储记录的文件的索引;三,树形检索。
一基本术语:
输入顺序文件:按记录进入系统的顺序把记录存储在磁盘中,相当于一个未排序的线性表
索引:把一个关键码和相应数据记录的位置相关联的过程
主码:查找记录的唯一标识,比如学生的学号
辅码:辅码索引用于主码索引,比如学生的名字
二 线性索引
1.简单的一级线性索引
线性索引的索引文件是一组关键码/指针对。关键码字段定长,指针定长。
优点:提供了对边长数据库记录方便的访问方式,可以高效检索和随机访问,适用二分搜索法。
缺点:记录太多时,线性索引本身会因为太大无法储存到主存中,造成多次磁盘访问,抵消了二分搜索法的优点。
—–>>二级线性索引改进
2.二级线性索引
两次磁盘读取:一次读索引文件,一次读数据库文件
缺点:插入/删除记录时,所有相关的二级线性索引也需要更改(线性表中将会涉及大量数据的移动);如果有很多条记录有相同的辅码值,会导致辅码在二级索引中占据很多空间。
—->>二维数组改进
3.二维数组线性索引
比如在这个例子里,辅码Jones对应着4个主码,但是就不会导致辅码Jones在数据库中存储了四次。缺点是数组的大小需要提前固定好,而且像Zukowski这些辅码对应的主码较少,则会导致空间的浪费。