我们知道当存在大量数据需要处理分析的话,最好是把这些数据放到数据库中,所以几乎所有大型的商业应用系统都是和数据库相关联的,所以如果XML需要在商业领域大展宏图的话,也必须要和数据库相联系。所以这里首先需要讨论的一点问题是,XML本身是不是数据库,从严格的意义上来说,XML仅仅意味着XML文档。因为尽管一个XML文档包含数据,但是如果不通过其他的软件的软件来进行数据处理的话,它本身只不过是一个文本文件。所以XML本身不不能和数据库挂上钩,但是加上一些其他的辅助工具,我们可以把整个XML看成是一个数据库系统,XML文本本身可以看成是数据库中的数据区,DTD或者Schemas可以看成是数据库模式设计,XQL可以看成是数据库查询语言,SAX或DOM可以看成是数据库处理工具。当然它还是缺少数据库所必须的一些东西,比如有效的存储组织、索引结构、安全性、事务处理、数据完整性、触发器、多用户处理机制等等。
但是为什么要把XML和数据库相联系呢?举个例子来说明这个问题,比如你有一个电子商务的应用程序需要使用XML来进行数据传输。你所关心的是数据本身应该具有的结构,你并不关心它在文档中实际的存储结构。如果你的应用程序很简单的话,基本的文件系统将满足你的需求,但如果应用本身很复杂的话,你就需要一个完整的开发应用环境来支持XML。从另一个方面来说,假设你有一个Web站点,它的内容是由一系列XML文档构成的,你不仅要管理这个站点,同时你需要提供给用户一个搜索该站点内容的机制。而这些都需要借助数据库来实现。选择一个数据库的最重要的因素是你是否需要数据库来存储数据或者是文档,如果你想要存储数据的话,你需要一个关系数据库或者是对象数据库来存储实际的数据,同时你需要中间件在数据库和XML文档之间建立桥梁关系,从另一方面来说,如果你想要存储文档,你需要一个内容管理系统,通过它进行文档的存储。实际上,XML文档可以分到两大类:以数据为中心或者以文档为中心。
以数据为中心的文档:数据为中心的文档有非常规则的结果,比如关于销售订单或者是饭店菜单的XML文档。以数据为中心的文档通常是为机器设计的,也就是说主要是方便机器进行处理。通常,任何Web站点可以动态的构建HTML文档,其步骤如下,根据用户的查询请求找到相关的面向数据的XML文档,然后通过XSL对XML文档进行转化,让基于HTML的浏览器能够方便的浏览结果。
以文档为中心的文档:以文档为中心的文档具有不规则的结构,而且数据的粒度也比较大。具体的例子如书本、电子邮件、广告等等。以文档为中心的文档主要是用人类而设计的。
为了存储或提取数据,你可以使用数据库和中间件,或者你可以使用XML服务器,或者是基于XML的Web服务器。为了存储文档,你需要一个内容管理系统或者是可持久化的DOM实现。可以在数据库或者是XML文档中发现大量基于数据为中心的文档。这样我们就需要工具把数据从数据库转化成XML文档,或者把一个XML文档转换到数据库中。同时需要注意的是,当把数据存储到数据库中的时候,需要抛弃一个文档的很多信息,比如它的名称和DTD,它的物理结构,比如实体定义和使用,一个节点下元素的位置排列,二进制数据的存储方式等等。同样,当从数据库中提取数据的时候,产生的XML文档通常不包含CDATA或者是实体使用的说明,而且节点下元素的排列位置只和数据库中记录的顺序位置一致。实际上一个XML文档存储到数据库中,再由该数据库生成此XML文档,这前后两个文档格式几乎不可能完全一样。
为了在数据库和XML文档之间传递数据,必须在文档结构和数据库结构之间建立映射,这种映射可以有两个分类:模板驱动和模型驱动。
1.基于模板驱动的映射:需要在一个模板中嵌入命令,并用数据传输中间件进行处理。比如,考虑下面的模板:
<?xml version="1.0"?>
<FlightInfo>
<Intro>The following flights have available seats:</Intro>
<SelectStmt>SELECT Airline, FltNumber, Depart, Arrive FROM Flights</SelectStmt>
<Conclude>We hope one of these meets your needs</Conclude>
</FlightInfo>
注意其中嵌入了一个SELECT语句。当用数据传输中间件进行处理的时候,每一个SELECT语句都会被它的结果所代替,用XML格式化形式表现为:
<?xml version="1.0"?>
<FlightInfo>
<Intro>The following flights have available seats:</Intro>
<Flights>
<Row>
<Airline>ACME</Airline>
<FltNumber>123</FltNumber>
<Depart>Dec 12, 1998 13:43</Depart>
<Arrive>Dec 13, 1998 01:21</Arrive>
</Row>
...
</Flights>
<Conclude>We hope one of these meets your needs</Conclude>
</FlightInfo>
基于模板驱动的映射可以是相当灵活的,比如,一些产品允许你把结果集放到XML文档的任何位置,同时可以对SELECT语句设置参数,并且可以使用for循环语句和if条件语句等。值得注意的是,当前基于模板驱动的映射只能应用于在关系数据库和XML文档之间传递数据。
基于模型驱动的映射:也就是说把数据从数据库传送到XML文档是用一个具体的模型实现的,这样,XSL可以被结合到基于模型映射的产品上。在XML文档中,两种模型是很常见的:表格模型(table model)和数据专用对象模型(data-specific object model)。
2 表格模型:许多中间件软件包用表格模型在XML文档和关系数据库之间传递数据。它把XML文档表示为一个单一的表格或者是表格的集合。这样,一个XML文档的结构可以用如下的形式表示:
<database>
<table>
<row>
<column1>...</column1>
<column2>...</column2>
...
</row>
...
</table>
...
</database>
这里关键字"talbe"在把数据从数据库传递到XML文档的时候,表示一个单一的结果集,把数据从XML文档传递到数据库的时候,表示表示一个单一的表格或者视图。但是,当结果集合不只一个的时候,或者当XML文档包括多个复杂嵌套的时候,这种传递方式就不能适应了。
2 数据专用的对象模型:把一个XML文档表示为由数据对象构成的树,每一个元素类型和对象相对应。主要在面向对象和层次数据库中使用,通过传统的关系-对象模型也可以映射到关系数据库中。注意这种模型并不是文档对象模型(DOM)。比如,销售订单文档可以被看成一个对象树,其中包括五个类:Orders, SalesOrder, Customer, Line, 和Part。如下所示:
当把一个XML文档看成是一个以数据为中心的对象树的时候,元素不一定和对象相对应,比如,一个元素只包含PCDATA,它能够被当成一个属性,它包括一个单一的,标量值。
实际上在XML和数据库之间进行数据转化的时候,需要考虑两个过程:一个是从数据库模式中产生DTD,另外一个是根据DTD生成数据库模式
从一个DTD中生成一个关系模式的步骤如下:
1. 对每一个元素,产生一个表和一个主键列。
2. 对每一个有混合内容的元素,产生一个独立的表格,用来存储PCDATA,并通过父表的主键和父表相联。
3. 对元素类型中的每一个单一值的属性,对具有只有PCDATA内容的子元素(该子元素按顺序出现),产生一个单独的列,如果子元素类型或者值是可以选择的话,该列就应该可以允许为NULL类型。
4. 对有多个值的属性和可以出现多次的子元素(该子元素PCDATA)的话,需要创建一个单独的表来存储这些值,并通过父表的主键和父表相联。
5. 对每一个包含元素或者混合内容的子元素来说,通过父表的主键把父元素和子元素联接起来。
从一个关系数据库模式构建DTD步骤如下:
1. 对每一个表,创建一个元素。
2. 对表中的每一列,创建一个属性或者是一个只有PCDATA 内容的子元素。
3. 根据表中的每一主键/外键关系,创建该表元素的子元素。
基于XML的数据库产品分类
根据Ronald Bourret在XML Database Products一文中的描述,XML Database中包含有七种类型的产品,分别为:
2 中间件(Middleware )
1、 与XML相结合能驱动XML的数据库(XML-Enabled Databases),比如Oralce和微软都宣称在它们最新的数据库产品都都能够和XML进行无缝的衔接。
2、 原始的XML数据库(Native XML Database)
3、 XML服务器(XML Servers)
4、 XML应用服务器,比如IBM的WebSphere
5、 内容管理系统(Content Management Systems)
2 可持久化的DOM实现(Persistent DOM Implementations)
下面我们对每一种产品做一个具体的说明和介绍
中间件:所谓中间件就是用来在XML文档和数据库之间进行处理和转化的软件。主要应用于以数据为中心的应用里面,它可以用各种各样的语言编写,一般来说它需要用到ODBC, JDBC,或者是 OLE DB. 尽管它可以通过Internet进行是数据的传输,但是一般它都是通过Web服务器来实现数据的传输。
下面我们需要考虑当把XML文档存储到数据库中,如何选择适合你应用程序的中间件。
实际上,在我们选择中间件的时候,我们要考虑下面一些因素
1. 数据类型: XML不支持数据类型,也就是说,在XML文档中的所有数据都是文本,即使数据它本身代表了另外一种数据类型,比如日期或者整数。通常,数据传输中间件将把数据转化为其他类型。
2. 二进制数据处理:有两种通常的方法存储XML文档中的二进制数据:未经过解析的实体(unparsed entities)和Base64编码。
3. Null类型处理:在关系数据库世界中,NULL表示该数据不存在,它和0或者是空字符串当然是不一样的。当然,XML也支持NULL的概念。如果一个可选择的元素类型或者属性是NULL的话,它就不包括在这个文档里面。当映射一个XML文档的结构到数据库或者根据数据库内容生成XML文档的时候,你需要考虑可选元素类型和属性跟可NULL的列之间的映射。
4. 字符集:一个XML文档可以包含任何Unicode字符,而不幸的是,许多数据库并不支持Unicode。因此如果你的数据包括非ASCII字符的时候,需要注意数据库和中间件对这些字符的处理。
5. 关于XML中的处理指令:处理指令并不是XML文档中的数据,因此中间件就很难决定如何存储它们。所以在选择中间件的时候,要看它们对处理指令的处理情况。
6. 标记存储:注意不同的中间件对标记的处理是不一样的。而且在数据库中的存储模式也不同,见下面的例子:
<description>
<b>Confusing example:</b>
</description>
在数据库中存储的形式如下:
<b>Confusing example:</b> <foo/>
这主要是因为数据库不能识别<b>和<foo>是标记还是文字。
典型的中间件有:
ADO:它可以实现数据库和XML文档之间的双向转换。XML支持把一个记录集合对象保存为一个XML文档,它也能够把一个XML文档作为一个记录集合进行处理,这样就在XML文档和数据库之间提供了一个桥梁。这种映射实际上是模型驱动的,数据可以被看成是一棵对象树,一个具有嵌套结构的树可以作为一个嵌套的记录结果集被显示,反之也是如此。另外,如果记录集合数据有变化的话,可以反映到相应的XML文档中,而XML文档中内容的变化也可以导致数据库内容的变化。
ASP2XML:主要是通过一个COM对象实现XML文档和基于ODBC或者是OLE DB的数据库之间数据的传递。该产品实际上是基于模型驱动的,把XML文档看成是一个单一的表,当把数据从数据库传递到XML文档的时候,用户指定一个SELECT语句,输出包含了ASP2XML专用的标签。当把XML文档的数据传递到数据库的时候,XML文档必须包含ASP2XML专用的标签。该COM对象是支持自动化的,也就是说它能够在剧本语言中使用,比如ASP。
支持XML的数据库系统(XML-Enabled Databases):数据库提供了扩展的功能,能够在XML文档和数据库之间进行数据的传输。通常是设计成为能够存储和提取以数据为中心的文档。一般来说是把XML文档进行解析以后,存储到相应的表格中,当然,也可以存储以文档为中心的文档,也就是说把整个文档作为一个单一的表中的一个字段,然后通过文本检索机制进行查询。因为许多数据库现在能够把内容发布到网站上,基于XML的数据库和XML服务器之间的差别就变得很模糊。
典型的产品有:微软的SQL Server 2000。SQL Server2000通过三种方式支持XML技术:
1 在SELECT语句中增加了FOR XML条件子句:FOR XML条件子句有三种选择,用来指定如何把SELECT语句映射到XML上去。RAW模式指定结果集为一个表格,表格中的每一行对应一个元素,每一列对应元素的属性或者是它包含的子元素。AUTO和RAW的区别在于:行的元素名称和表格名称一致,产生的XML文档是线性嵌套的,和表格在SELECT语句中出现的顺序相对应。EXPLICIT允许你使用一系列的SELECT语句的UNION来构建一个XML文档。
2 通过XPath进行信息定位:通过模式映射的方式,也就是在XML文档的元素和属性以及在数据库中的表和字段之间建立映射关系。这里把XML看成是一棵对象树,而使用XPath的一个子集来进行查询。
3 在存储过程中使用OpenXML函数:OpenXML函数被用来提取XML文档的任何一个部分,并把它当作一个表格,然后就可以用SELECT语句中的FROM指定这个表格,并通过INSERT语句在XML文档和数据库之间传递数据。并可以用XPath来指定具体的元素或者属性。
原始的XML数据库(Native XML Database):实际上,在一个数据库中存储XML文档可以有四种选择:
1. 以文本形式存储整个文档,比如在关系数据库中用BLOB类型,在文件系统用文件类型。
2. 在文件系统中以修改过的形式存储整个文档,比如,以压缩的形式或者事先解析过的形式。
3. 把文档结构映射到数据库中,比如把DOM模式映射成为数据库中表格的形式。如何建立映射,各个数据库可以有不同的实现,。
4. 把数据结构映射到数据库中,比如,把一个包含销售订单的XML文档映射到Order,Itmes,Parts和客户等表格中去。
原始的XML数据库和支持XML的数据库的区别在于原始的XML数据库一般使用方法2和方法3。而支持XML的数据库一般选用方法4。
典型的产品有斯坦福大学开发的Lore系统,它的数据库实际上是一个半结构化的数据库。所谓半结构化的例子就是我们的简历,其中既有一些结构化的信息,比如性别,年龄,通讯电话等等,也有非结构化的信息,比如个人特长等的描述。XML本身就是一个非常好的半结构化数据模式的例子,它本身是自描述的,包含了很多元数据。而且它同时可以扩展或增加新的元数据(或者说是新的字段)。
Lore是用来存储半结构化的数据库。它最开始是用来存储HTML文档数据的,但现在已经可以被用来作为XML数据库。它包括了一个查询语言(Lorel),多索引机制,查询优化器,多用户支持,日志记录和恢复等功能,并且能够倒入外部数据。因为Lore支持半结构化,所以它也能够存储没有DTD定义的XML文档。
XML服务器:一般认为,XML服务器是一个提供数据服务的平台,而这里的数据就是以XML形式出现的,而这些数据主要是为分布式应用程序服务的,比如电子商务和B2B应用等。XML服务器通常包括了一个完整的应用开发环境,并通过各种数据存储方式来使应用程序可以方便的获取和使用这些数据。存储的数据包括传统的数据库数据、电子邮件信息和文件系统等等。我们知道传统的Web服务器都是基于HTML文本进行信息传送的,随着XML技术的出现,对于基于XML的Web服务器的需求也就产生了。那么到底什么是XML服务器呢?准确定义XML Server这个概念是困难的,因为这实在是一个比较新,而且概念很广泛的东西,虽然已经有许多的产品称自己为XML Server,比如DataChannel公司的DataChannel Server 4.1;Software AG公司的Tamino;Excelon公司的excelon,但在应用的范围上以及功能上,每种产品都各不相同,因此这里也就不为XML Server进行定义,而是归纳这几种产品的共同拥有的一些特点,以说明的方式来向大家解释XML Server这个概念。 简单地讲,XML Server是一个提供数据的平台,它能够以XML文档的形式与分布式的应用进行数据交互。比如电子商务这一类的应用。这听上去和传统的数据库非常的相似,它和数据库一样提供数据的存贮与提取功能,但数据的格式的是基于XML的,因此在数据的处理方面,所用的是和传统数据库完全不同的技术了。
所以XML Server被认为是XML Database其中的一种,XML-enabled Server则相对来讲比较容易理解,因为它本质上就是一个Web Server,对于客户端而言,浏览Web,客户端不会感觉它和传统Web Server有什么太大的区别,但实际上Server端在对请求(REQUEST)处理方法上,XML-enabled Web Server和传统Web Server是完全两种不同的方式,这是由于XML文档与HTML文档本身的特性所决定的。我们大家都知道,XML文档是一种以数据为中心的文档,XML文档本身没有表示格式化的信息,而是通过特定的XSL或者CSS来表现,也就是说数据和表现是分离的。而在客户端提交需求后由XML-enabled Web Server将内容与形式结合后把最终结果发布给客户端的Web Server。因此这是一种胖服务器,瘦客户的模式。这种模式同微软将XSL Parser集成到IE中的设计思想是完全不同的。它的优点是能够对不同的设备浏览Web的提供各自相应的格式的文档,而不需要人工的干涉。
从另外一个角度讲,XML Server可以提供比单纯XML文档更强的管理XMl格式数据的能力,而且可以避免用传统数据库时需要进行数据转换的过程(因为XML是标准的扩展标记语言,并不是各个公司专属的技术,而数据库厂家对自己的数据库都有不同的格式,所以必须通过一些中间件进行转换),而获得高效。
当然,任何技术都不是尽良尽美的,任何一项新的技术在没有完全成熟以前都会存在许多的缺点,XML Server同XML-enabled Server也不会例外,它们分别存在下面一些缺点或问题:
对于XML Server而言:XML Server的性能如何还没有得到验证,因为它采用的是一种全新的数据组织方式,而这种方式在过去还没有得到过广泛的应用。正如我们有理由看好XML Server发展前景的同时,我们也有理由对这种没有经过大范围使用的产品持怀疑态度。我们可以看一下几种典型XML Server产品的配置需求。
△ DataChannel Server 4.1 在Windows环境下的硬件要求:
500MHz or faster Pentium III processor with at least 256MB of RAM
△ DataChannel Server 4.1 在Windows环境下的硬件要求:
Sun Ultra 10 or equivalent. At least 256MB of RAM
△ Tamino 在Windows环境下的硬件要求:
At least 300MHZ or faster. At least 256MB of RAM
对于XML-enabled Web Server而言:最大的问题是XML-enabled Web Server太复杂了,比较起原来用Html和传统Web Server建设Web,懂得使用XML这些先进技术的人还是太少了,而且Server的安装也显得太复杂,而开发工具则又太专业了。如何使电脑的初级用户能很快的学会使用它,是它需要解决的另外一个问题。 基于XML的Web服务器体系结构如下所示:
最后,我们看一下微软对基于XML的Web服务器的支持,它的实际实现方法是通过IIS的ISAPI扩展用以提供通过HTTP直接访问SQL Server并将查询结果形成XML返回到客户端而完成的。最简单的访问方法是直接HTTP的URL中使用SQL语句:
http://IISServer/VirtualRoot?sql=SELECT+*+FROM+Customers+FOR+XML+AUTO
同时需要注意的,我们可以在URL中执行存储过程和使用xml文档模板。
XML应用服务器:XML应用服务器实际上是支持XML的Web应用服务器,它们通常是模板驱动的,通过在一个剧本语言中嵌入使用SQL语句来提取数据并动态构建XML文档。
内容管理系统:内容管理系统是用来存储、提取和装配XML文档的系统。它们通常包括以下一些特征:编辑器、版本控制和多用户并发处理,它们本身的对数据库实现对用户是透明的。它们的主要目的是用来管理文档。文档一般是以XML格式或者其他的如RTF、PDF或者SGML的形式出现的,对于非常简单的文档集合,文件系统就能够满足你的要求,但是,如果你有一个复杂的文档集合的话,你通常需要一个内容管理系统。这里的内容管理系统的含义就是说允许你把文档分割成具体的内容片段,比如例子、过程、章节或者是工具条和其他的一些元数据比如:作者名字、版本号等等。然后可以根据需要来重新装配XML文档。你也可以根据这些片段来合成一个新的XML文档。
内容管理系统通常具有下面的一些功能:
1.版本和可获取性控制
2.搜索引擎
3.编辑器
4.发布引擎,把内容发布到书本、CD或者Web上
5.内容和形式的分离
6.通过剧本和接口进行扩展
7.和数据库数据集成
采用对象-关系模型,把DOM映射到数据库中,你需要为DOM中的每一个对象在数据库中建立对应的表格。一般来说,系统需要包括五个表:
1 属性定义:定义属性,包括他们的类型,合法的值等等。
2 元素/属性关联:定义哪些属性是和哪些元素相关联的。
3 内容模型定义:定义哪些元素能够包含其他的元素。
4 属性值:包含属性值和指向在属性定义表和元素/属性关联表中的相关行的指针。
5 元素值:包括元素值(PCDATA或者指向其他元素值的指针),元素在它的父节点中出现的次数,指向包含父节点元素值所在行的指针,指向在元素/属性表中的相应行的指针。
前三个表和一个简单的DTD是等价的,接下来的两个表包含了实际的数据。通过反复的查询后面两个表,就有可能构建XML文档的任意一个部分。
可持久化的DOM实现(Persistent DOM Implementations):使用数据库来进行DOM实现的考虑是为了加快速度和避免机器内存不够,尤其是在XML文档非常大的时候。它们存储了XML文档的结构,可持久化的DOM实现能够被用来存储、提取和查询XML文档,也可以从现在的文档中创建新的文档。也就是说能够通过编程实现基于DOM的应用。
实际上,你可以在自己的应用程序中,通过编写代码来整合中间件、支持XML的数据库,原始XML数据库、XML服务器和永久DOM实现等技术。这里XML应用服务器需要你编写一些剧本代码,内容管理系统需要你做一些系统的配置。