1. 对象-关系数据库
对象-关系数据库基于对象-关系数据模型构造。这种模型通过提供处理复杂对象的丰富数据类型和对象定位,扩充关系模型。因为大部分复杂的数据库应用需要处理复杂的对象和结构,对象-关系数据库在业界和应用中日趋流行。
从概念上讲,对象-关系数据库模型继承了面向对象数据库的基本概念。其中,用一般术语,把每个实体看作一个对象。涉及一个对象的数据和代码封装在一个单元中。每个对象关联:
? 一个变量集,描述对象。这对应于实体-联系和关系模型的属性。
? 一个消息集,对象可以使用它们与其他对象或与数据库系统的其他部分通信。
? 一个方法集,其中每个方法存放实现一个消息的代码。每收到一个消息,方法就返回一个响应值。例如,消息get_photo(employee)的方法将检索并返回给定雇员对象的照片。
共享公共特性集的对象可以归入一个对象类。每个对象都是其对象类的实例。对象类可以组成类/子类层次结构,使每个类代表该类对象共有特性。
对于对象-关系系统中的数据挖掘,需要开发新的技术,处理复杂的对象结构、复杂的数据类型、类和子类层次结构、特性继承以及方法和过程。
2. 时间数据库、序列数据库和时间序列数据库
时间数据库(temporal database)通常存放包含时间相关属性的关系数据。这些属性可能涉及若干时间标签,每个都具有不同的语义。序列数据库(sequence database)存放具有或不具有具体时间概念的有序事件的序列。例子包括顾客购物序列、Web点击流和生物学序列。时间序列数据库(time-series database)存放定时(如每小时、每天、每周)重复测量得到的值或事件的序列。例子包括股票交易、库存控制和自然现象(如气温和风力)观测收集的数据。
3. 空间数据库和时间空间数据库
空间数据库(Spatial database)包含涉及空间的信息。例子包括地理(地图)数据库、超大规模集成电路(VLSI)或计算机辅助设计数据库以及医疗和卫星图像数据库。空间数据可能用光栅格式(raster format)表示,由n维位图或像素图构成。例如,一个2维卫星图像可以用光栅数据表示,每个像素存放一个给定区域的降水量。地图也可以用向量格式表示,其中路、桥、建筑物和湖泊可以用诸如点、线、多边形和这些形状形成的划分和网络等基本几何结构的组合或叠加表示。
你可能会问:“对于空间数据库可以进行何种数据挖掘?”数据挖掘可以发现描述坐落在特定类型地点(如公园)附近的房屋特征。其他模式可能描述不同海拔高度的山区气候,或根据城市离主要高速公路的距离描述大城市贫困率的变化趋势。可以考察空间对象集之间的联系,发现空间自相关或关联的对象子集。通过空间聚类分析可以发现簇和离群点。此外,还可以进行空间分类,根据空间对象的相关特征集构造预测模型。进一步,可以构造“空间数据立方体”,将数据组织到多维结构和层次结构中,可以对其进行OLAP操作(如下钻和上卷)。
存放随时间变化的空间对象的空间数据库称作时间空间数据库(spatiotemporal database),从这种数据库可以挖掘有趣的信息。例如,我们可以将移动对象的趋势分组,识别移动怪异的车辆;或者根据疾病随时间的地理分布,区别生物恐怖攻击与正常的流感爆发。
4. 文本数据库和多媒体数据库
文本数据库是包含对象的词描述的数据库。通常,这种词描述不是简单的关键词,而是长句或短文,如产品介绍、错误或故障报告、警告信息、汇总报告、笔记或其他文档。文本数据库可能是高度非结构化的(如万维网上的Web页面)。有些文本数据库可能是半结构化的(如email消息和许多HTML/XML网页),而其他的可能是良结构化的(如图书馆目录数据库)。
多媒体数据库存放图像、音频和视频数据。应用于基于内容的图片检索、声音传递系统、视频点播系统、万维网和识别口语命令的基于语音的用户界面等方面。多媒体数据库必须支持大对象,因为像视频这样的数据对象可能需要数兆字节的存储。还需要特殊的存储和搜索技术,因为视频和音频数据需要以稳定的、预先确定的速率实时检索,防止图像或声音间断和系统缓冲区溢出,因此,这种数据称为连续媒体数据(continuous-media data)。
5. 异构数据库和遗产数据库
异构数据库(heterogeneous database)由一组互连的、自治的成员数据库组成。这些成员相互通信,以便交换信息和回答查询。一个成员数据库中的对象可能与其他成员数据库中的对象很不相同,很难将它们的语义吸收进一个整体的异构数据库中。
许多企业都需要遗产数据库作为信息技术长时间开发(包括使用不同的硬件和操作系统)的历史结果。遗产数据库(legacy database)是一组异构数据库,将不同类型的数据系统组合在一起。这些数据系统可以是关系或面向对象数据库、层次数据库、网状数据库、电子数据表、多媒体数据库或文件系统。遗留数据库中的异构数据库可以通过内部计算机网络或互联计算机网络连接。
这种数据库之间的信息交换是困难的,因为需要考虑多种多样的语义,制定从一种表示到另一种表示的精确转换规则。例如,考虑不同学校之间学生学业情况数据交换问题。每个学校可能有自己的计算机系统,使用自己的课程表与记分制。一所大学可能采用四学期学年制,开三门数据库系统课程,并按由A+到F评定成绩;而另一所可能采用学期系统,开两门数据库课程,并按由1到10评定成绩。很难制定这两所大学的课程-成绩转换精确的规则,使得信息交换很困难。通过进行统计数据分布和相关分析,将给定的数据转换到较高的、更一般的概念层(对于学生成绩,如及格、良好或优秀),数据挖掘技术可以对此信息交换问题提供有趣的解,使得信息交换可以更容易地进行。
其实个人看来,遗产数据库也就是异构数据库,只不过是异构的夸张了些,比如说现在的很多企事业单位中,服务器硬件升级,操作系统也变化了,但是以前的资源总不能不要吧,这就不要对数据库进行迁移;再比如说有可能一个公司里面用的不只一种类型数据库,这样的话就需要对不同的数据库进行迁移。不过,系统环境不同、组织方式不同、实现的原理不同,这样也就造成了数据迁移的困难。
这句话是从一篇论文上copy下来的“所谓遗留关系数据库系统是指那些正在使用中,但前期有关的数据和元数据文档部分或完全丢失的关系型数据库系统;或者是指使用的数据库系统不适用于系统扩展和优化的,必须迁移或升级到别的数据库平台的关系型数据库系统。”
根据这段话来讲,还是蛮复杂的了,元数据文档丢失的话,很多数据结构信息丢失了,想要重建或迁移就太难了,如果直接迁移或者扩充,还有可能破坏原来的一些关系(例如约束、关联等等),导致数据库崩溃,总之一句字——难!