SOAP(简单对象访问协议) 1.1规范简介
SOAP(Simple Object Access Protocal
,简单对象访问协议
)
技术有助于实现大量异构程序和平台之间的互操作性,从而使存在的应用能够被广泛的用户所访问。
SOAP
是把成熟的基于
HTTP
的
WEB
技术与
XML
的灵活性和可扩展性组合在了一起。
SOAP
由
MS
和
IBM
共同制定
用于规范
WEB
服务标准
实现异构程序与平台间的数据交换
它是基于
XML
的协议,包括三个部分:
封套
(envelope)
定义了消息内容和处理的框架、一套编码规则用来表达应用定义数据类型的实例以及表达远程过程调用和响应的协定。
与已定义的中间件不同
SOAP
只是定义了一种基于
XML
的文本格式
而没有定义什么
ORB
代理或是
SOAP API
因此用户可以方便的开发自己的应用而不必担心兼容性
(corba
与
dcom
间的兼容性在
soap
中不会再出现
)
简介
"SOAP
是一种基于
XML
的、在非集中的、分布式环境中交换结构化和固化信息的轻量级协议。
SOAP
可以和现存的许多因特网协议和格式结合使用,包括超文本传输协议
( HTTP)
,简单邮件传输协议
(SMTP)
,多用途网际邮件扩充协议
(MIME)
。它还支持从消息系统到远程过程调用(Remote Procedure Call Protocol ---
RPC
)等大量的应用程序。
SOAP
包括三个部分:
1
、
SOAP
封装:它定义了一个框架
,
该框架描述了消息中的内容是什么,谁应当处理、以及它是可选的还是必须的。
2
、
SOAP
编码规则:它定义了一种序列化的机制,用于交换应用程序所定义的数据类型的实例。
3
、
SOAP RPC
表示:它定义了用于表示远程过程调用和应答的协定。
SOAP
消息基本上是从发送端到接收端的单向传输,但它们常常结合起来执行类似于请求
/
应答的模式。所有的
SOAP
消息都使用
XML
编码。一条
SOAP
消息就是一个包含有一个必需的
SOAP
的封装包,一个可选的
SOAP
标头和一个必需的
SOAP
体块的
XML
文档。把
SOAP
绑定到
HTTP
提供了同时利用
SOAP
的样式和分散的灵活性的特点以及
HTTP
的丰富的特征库的优点。在
HTTP
上传送
SOAP
并不是说
SOAP
会覆盖现有的
HTTP
语义,而是
HTTP
上的
SOAP
语义会自然的映射到
HTTP
语义。在使用
HTTP
作为协议绑定的场合中,
RPC
请求映射到
HTTP
请求上,而
RPC
应答映射到
HTTP
应答。然而,在
RPC
上使用
SOAP
并不仅限于
HTTP
协议绑定。
第一节
SOAP
简介
SOAP(Simple Object Access Protocal
,简单对象访问协议
)
技术有助于实现大量异构程序和平台之间的互操作性,从而使存在的应用能够被广泛的用户所访问。
SOAP
是把成熟的基于
HTTP
的
WEB
技术与
XML
的灵活性和可扩展性组合在了一起。
SOAP
的一个主要目标是使存在的应用能被更广泛的用户所使用。为了实现这个目的,没有任何
SOAP API
或
SOAP
对象请求代理(
SOAP ORB
),
SOAP
是假设你将使用尽可能多的存在的技术。几个主要的
CORBA
厂商已经承诺在他们的
ORB
产品中支持
SOAP
协议。微软也承诺在将来的
COM
版本中支持
SOAP
。
DevelopMentor
已经开发了参考实现,它使得在任何平台上的任何
Java
或
Perl
程序员都可以使用
SOAP
。而且
IBM
和
Sun
也陆续支持了
SOAP
协议,和
MS
合作共同开发
SOAP
规范和应用。目前
SOAP
已经成为了
W3C
和
IETF
的参考标准之一。
SOAP
的指导理念是
“
它是第一个没有发明任何新技术的技术
”
。它采用了已经广泛使用的两个协议:
HTTP
和
XML
。
HTTP
用于实现
SOAP
的
RPC
风格的传输,而
XML
是它的编码模式。采用几行代码和一个
XML
解析器,
HTTP
服务器(如
MS
的
IIS
或
Apache
)立刻成为了
SOAP
的
ORB
。因为目前超过一半的
Web
服务器采用
IIS
或
Apache, SOAP
将会从这两个产品的广泛而可靠的使用中获取利益。这并不意味着所有的
SOAP
请求必须通过
Web
服务器来路由,传统的
Web
服务器只是分派
SOAP
请求的一种方式。因此
Web
服务如
IIS
或
Apache
对建立
SOAP
性能的应用是充分的,但决不是必要的。
注:
对象请求代理
(ORB)
是
CORBA
的核心组件。
ORB
提供了识别和定位对象、处理连接管理、传送数据和请求通信所需的框架结构。
CORBA
对象之间从不直接进行通信,对象通过远程桩对运行在本地计算机上的
ORB
发出请求。本地
ORB
使用
Internet Inter-Orb
协议(
IIOP
为缩写形式)将该请求传递给其他计算机上的
ORB
。然后,远程
ORB
定位相应的对象、处理该请求并返回结果。
使用
RMI-IIOP
,应用程序或对象可将
IIOP
用作远程方法调用
(RMI)
协议。企业
Bean
(
EJB
模块)的远程客户机通过
RMI-IIOP
与
Application Server
进行通信。
SOAP
把
XML
的使用代码化为请求和响应参数编码模式,并用
HTTP
作传输。这似乎有点抽象。具体地讲,一个
SOAP
方法可以简单地看作遵循
SOAP
编码规则的
HTTP
请求和响应。一个
SOAP
终端则可以看作一个基于
HTTP
的
URL
,它用来识别方法调用的目标。与
CORBA/IIOP
一样,
SOAP
不需要具体的对象被绑定到一个给定的终端,而是由具体实现程序来决定怎样把对象终端标识符映射到服务器端的对象。
SOAP
请求是一个
HTTP POST
请求。
SOAP
请求的
content-type
必须用
text/xml
。而且它必须包含一个请求
-URI
。服务器怎样解释这个请求
-URI
是与实现相关的,但是许多实现中可能用它来映射到一个类、或者一个对象。一个
SOAP
请求也必须用
SOAPMethodName HTTP
头来指明将被调用的方法。
简单地讲,
SOAPMethodName
头是被
URI
指定范围的应用相关的方法名,它是用
#
符作为分隔符将方法名与
URI
分割开:
SOAPMethodName: urn:strings-com:IString#reverse
这个头表明方法名是
reverse
,范围
URI
是
urn:strings-com:Istring
。
在
SOAP
中,规定方法名范围的名域
URI
在功能上等同于在
DCOM
或
IIOP
中规定方法名范围的接口
ID
。
简单的说,一个
SOAP
请求的
HTTP
体是一个
XML
文档,它包含方法中
[in]
和
[in,out]
参数的值。这些值被编码成为一个显著的调用元素的子元素,这个调用元素具有
SOAPMethodName HTTP
头的方法名和域名
URI
。调用元素必须出现在标准的
SOAP ;
和
;
元素内(后面会更多讨论这两个元素)。下面是一个最简单的
SOAP
方法请求:
POST /string_server/Object17 HTTP/1.1
Host: 209.110.197.2
Content-Type: text/xml
Content-Length: 152
SOAPMethodName: urn:strings-com:IString#reverse
;
;
;
;Hello, World;
;
;
;
SOAPMethodName
头必须与
下的第一个子元素相匹配,否则调用将被拒绝。这允许防火墙管理员在不解析
XML
的情况下有效地过滤对一个具体方法的调用。
SOAP
响应的格式类似于请求格式。响应体包含方法的
[out]
和
[in,out]
参数,这个方法被编码为一个显著的响应元素的子元素。这个元素的名字与请求的调用元素的名字相同,但以
Response
后缀来连接。下面是对前面的
SOAP
请求的
SOAP
响应:
200 OK Content-Type: text/xml
Content-Length: 162
;
;
;
;dlroW ,olleH;
;
;
;
这里响应元素被命名为
reverseResponse
,它是方法名紧跟
Response
后缀。要注意的是这里是没有
SOAPMethodName HTTP
头的。这个头只在请求消息中需要,在响应消息中并不需要。
附:URI、URL和URN之间的区别与联系
URI
、
URL
和
URN
是识别、定位和命名互联网上的资源的标准途径。
URI
:
Uniform Resource Identifier
,统一资源标识符;
URL
:
Uniform Resource Locator
,统一资源定位符;
URN
:
Uniform Resource Name
,统一资源名称。
其中,
URL,URN
是
URI
的子集
。
Web
上地址的基本形式是
URI,
它代表统一资源标识符。有两种形式:
URL
:目前
URI
的最普遍形式就是无处不在的
URL
或统一资源定位器。
URN
:
URL
的一种更新形式,统一资源名称
(URN, Uniform Resource Name)
不依赖于位置,并且有可能减少失效连接的个数。但是其流行还需假以时日,因为它需要更精密软件的支持。
URI
是以某种统一的(标准化的)方式标识资源的简单字符串。
URI
一般由三部分组成:
1.
访问资源的命名机制。
2.
存放资源的主机名。
3.
资源自身的名称,由路径表示。
典型情况下,这种字符串以
scheme
(命名
URI
的名字空间的标识符
——
一组相关的名称)开头,语法如下:
[scheme:] scheme-specific-part
URI
以
scheme
和冒号开头。
Scheme
用大写
/
小写字母开头,后面为空或者跟着更多的大写
/
小写字母、数字、加号、减号和点号。冒号把
scheme
与
scheme-specific-part
分开了,并且
scheme-specific-part
的语法和语义(意思)由
URI
的名字空间决定。
如下面的例子:
http://www.cnn.com
,其中
http
是
scheme
,
//www.cnn.com
是
scheme-specific-part
,并且它的
scheme
与
scheme-specific-part
被冒号分开了。
URI
有绝对和相对之分,绝对的
URI
指以
scheme
(后面跟着冒号)开头的
URI
。前面提到的
http://www.cnn.com
就是绝对的
URI
的一个例子。你可以把绝对的
URI
看作是以某种方式引用某种资源,而这种方式对标识符出现的环境没有依赖。如果使用文件系统作类比,绝对的
URI
类似于从根目录开始的某个文件的径。
与绝对的
URI
不同的,相对的
URI
不是以
scheme
(后面跟着冒号)开始的
URI
。
例子
: articles/articles.html
。你可以把相对的
URI
看作是以某种方式引用某种资源,而这种方式依赖于标识符出现的环境。如果用文件系统作类比,相对的
URI
类似于从当前目录开始的文件路径。
URL
是
Uniform Resource Location
的缩写,译为
"
统一资源定位符
"
。通俗地说,
URL
是
Internet
上用来描述信息资源的字符串,主要用在各种
WWW
客户程序和服务器程序上,特别是著名的
Mosaic
。采用
URL
可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。
URL
的格式由下列三部分组成:
第一部分是协议(或称为服务方式);
第二部分是存有该资源的主机
IP
地址(有时也包括端口号);
第三部分是主机资源的具体地址。,如目录和文件名等。
第一部分和第二部分之间用
"
:
//"
符号隔开,第二部分和第三部分用
"/"
符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。
目前最大的缺点是当信息资源的存放地点发生变化时,必须对
URL
作相应的改变。因此人们正在研究新的信息资源表示方法,例如:
URI(Universal Resource Identifier)
即
"
通用资源标识
"
(参见
RFC 1630
)、
URN
(
Uniform Resource Name
)即
"
统一资源名
"
和
URC
(
Uniform Resource Citation
)即
"
统一资源引用符
"
等。
第二节
SOAP
体的核心
SOAP
的
XML
特性是为把数据类型的实例序列化成
XML
的编码模式。为了达到这个目的,
SOAP
不要求使用传统的
RPC
风格的代理。而是一个
SOAP
方法调用包含至少两个数据类型:请求和响应。考虑这下面这个
COM IDL
代码:
[uuid(DEADF00D-BEAD-BEAD-BEAD-BAABAABAABAA) ]
interface IBank : IUnknown {
HRESULT withdraw([in] long account,
[out] float *newBalance,
[in, out] float *amount
[out, retval] VARIANT_BOOL *overdrawn);
}
在任何
RPC
协议
下,
account
和
amount
参数的值将出现在请求消息中,
newBalance
、
overdrawn
参数的值,还有
amount
参数的更新值将出现在响应消息中。
SOAP
把方法请求和方法响应提升到了一流状态。在
SOAP
中,请求和响应实际上类型的实例。为了理解一个方法比如
IBank::withdraw
怎样映射一个
SOAP
请求和响应类型,考虑下列的数据类型:
struct withdraw {
long account;
float amount;
};
这时所有的请求参数被打包成为单一的结构类型。同样下面的数据表示打包所有响应参数到单一的数据类型。
struct withdrawResponse {
float newBalance;
float amount;
VARIANT_BOOL overdrawn;
};
再给出下面的简单的
Visual Basic
程序,它使用了以前定义的
Ibank
接口:
Dim bank as IBank
Dim amount as Single
Dim newBal as Single
Dim overdrawn as Boolean
amount = 100
Set bank = GetObject("soap:http://bofsoap.com/am")
overdrawn = bank.withdraw(3512, amount, newBal)
这里,在发送请求消息之前,参数被序列化成为一个请求对象。同样被响应消息接收到的响应对象被反序列化为参数。一个类似的转变同样发生在调用的服务器端。
当通过
SOAP
调用方法时,请求对象和响应对象被序列化成一种已知的格式。每个
SOAP
体是一个
XML
文档,它具有一个显著的称为
< Envelope>;
的根元素。标记名
;
由
SOAP URI (urn:schemas-xmlsoap-org:soap.v1)
来划定范围,所有
SOAP
专用的元素和属性都是由这个
URI
来划定范围的。
SOAP Envelope
包含一个可选的
元素,紧跟一个必须的
;
元素。
;
元素也有一个显著的根元素,它或者是一个请求对象或者是一个响应对象。下面是一个
IBank::withdraw
请求的编码:
;
;
;
;
;
;
下列响应消息被编码为:
;
;
;
;0;
;true;
;
;
;
注意
[in, out]
参数出现在两个消息中。在检查了请求和响应对象的格式后,你可能已经注意到序列化格式通常是:
;
;field1value;
;field2value;
......
;
在请求的情况下,类型是隐式的
C
风格的结构,它由对应方法中的
[in]
和
[in, out]
参数组成。对响应来说,类型也是隐式的
C
风格的结构,它由对应方法中的
[out]
和
[in, out]
参数组成。这种每个域对应一个子元素的风格有时被称为元素正规格式
(ENF)
。一般情况下,
SOAP
只用
XML
特性来传达描述包含在元素内容中信息的注释。
与
DCOM
和
IIOP
一样,
SOAP
支持协议头扩展。
SOAP
用可选的
元素来传载被协议扩展所使用的信息。如果客户端的
SOAP
软件包含要发送头信息,原始的请求将可能如图
9
所示。在这种情况下命名
causality
的头将与请求一起序列化。收到请求后,服务器端软件能查看头的名域
URI
,并处理它识别出的头扩展。这个头扩展被
http://comstuff.com URI
识别,并期待一个如下的对象:
struct causality {
UUID id;
};
在这种情况下的请求,如果头元素的
URI
不能被识别,头元素可以被安全地忽略。
但你不能安全的忽略所有的
SOAP
体中的头元素。如果一个特定的
SOAP
头对正确处理消息是很关键的,这个头元素能被用
SOAP
属性
mustUnderstand=’true’
标记为必须的。这个属性告诉接收者头元素必须被识别并被处理以确保正确的使用。为了强迫前面
causality
头成为一个必须的头,消息将被写成如下形式:
;
;
;
;362099cc-aa46-bae2-5110-99aac9823bff;
;
;
;
SOAP
软件遇到不能识别必须的头元素情况时,必须拒绝这个消息并出示一个错误。如果服务器在一个
SOAP
请求中发现一个不能识别的必须的头元素,它必须返回一个错误响应并且不发送任何调用到目标对象。如果客户端在一个
SOAP
请求中发现一个不能识别出的必须的头元素,它必须向调用者返回一个运行时错误。在
COM
情况下,这将映射为一个明显的
HRESULT
。
第二节
SOAP
数据类型
在
SOAP
消息中,每个元素可能是一个
SOAP
结构元素、根元素、存取元素或一个独立的元素。在
SOAP
中,
soap:Envelope
、
soap:Body
和
soap:Header
是唯一的组成元素。它们的基本关系由下列
XML Schema
所描述
:
;
;
;
;
;
;
;
;
在
SOAP
元素的四种类型中,除了结构元素外都被用作表达类型的实例或对一个类型实例的引用。
根元素是显著的元素,它是
soap:Body
或是
soap:Header
的直接的子元素。其中
soap: Body
只有一个根元素,它表达调用、响应或错误对象。这个根元素必须是
soap:Body
的第一个子元素,它的标记名和域名
URI
必须与
HTTP SOAPMethodName
头或在错误消息情况下的
soap:Fault
相对应。而
soap:Header
元素有多个根元素,与消息相联系的每个头扩展对应一个。这些根元素必须是
soap:Header
的直接子元素,它们的标记名和名域
URI
表示当前存在扩展数据的类型。
存取元素被用作表达类型的域、属性或数据成员。一个给定类型的域在它的
SOAP
表达将只有一个存取元素。存取元素的标记名对应于类型的域名。考虑下列
Java
类定义:
package com.bofsoap.IBank;
public class adjustment {
public int account ;
public float amount ;
}
在一个
SOAP
消息中被序列化的实例如下所示:
;
;
在这个例子中,存取元素
account
和
amount
被称着简单存取元素。对引用简单类型的存取元素,元素值被简单地编码为直接在存取元素下的字符数据,如上所示。对引用组合类型的存取元素(就是那些自身用子存取元素来构造的存取元素),有两个技术来对存取元素进行编码。最简单的方法是把被结构化的值直接嵌入在存取元素下。考虑下面的
Java
类定义:
package com.bofsoap.IBank;
public class transfer {
public adjustment from;
public adjustment to;
}
如果用嵌入值编码存取元素,在
SOAP
中一个序列化的
transfer
对象如下所示:
;
;
;
;
;
;
在这种情况下,
adjustment
对象的值被直接编码在它们的存取元素下。在考虑组合存取元素时,需要说明几个问题。先考虑上面的
transfer
类。类的
from
和
to
的域是对象引用,它可能为空。
SOAP
用
XML Schemas
的
null
属性来表示空值或引用。下面例子表示一个序列化的
transfer
对象,它的
from
域是空的:
xmlns:xsd=''http://www.w3.org/1999/XMLSchema/instance''>;
;
;
;
;
在不存在的情况下,
xsd:null
属性的隐含值是
false
。给定元素的能否为空的属性是由
XML Schema
定义来控制的。例如下列
XML Schema
将只允许
from
存取元素为空:
;
;
;
;
在一个元素的
Schema
声明中如果没有
nullable
属性,就意味着在一个
XML
文档中的元素是不能为空的。
Null
存取元素的精确格式当前还在修订中
要了解用更多信息参考最新版本的
SOAP
规范。
与存取元素相关的另一个问题是由于类型关系引起的可代换性。由于前面的
adjustment
类不是一个
final
类型的类,
transfer
对象的
from
和
to
域实际引用继承类型的实例是可能的。为了支持这种类型兼容的替换,
SOAP
使用一个名域限定的类型属性的
XML Schema
约定。这种类型属性的值是一个对元素具体的类型的限制的名字。考虑下面的
adjustment
扩展类:
package com.bofsoap.IBank;
public class auditedadjustment extends adjustment {
public int auditlevel;
}
给出下面
Java
语言:
transfer xfer = new transfer();
xfer.from = new auditedadjustment();
xfer.from.account = 3514;
xfer.from.amount = -100;
xfer.from.auditlevel = 3;
xfer.to = new adjustment();
xfer.to.account = 3518;
xfer.from.amount = 100;
在
SOAP
中
transfer
对象的序列化形式如下所示:
xmlns:t=''urn:develop-com:java:com.bofsoap.IBank''>;
;
;
;
;
;
在这里
xsd:type
属性引用一个名域限定的类型名,它能被反序列化程序用于实例化对象的正确类型。因为
to
存取元素引用到一个被预料的类型的实例(而不是一个可代替的继承类型),
xsd:type
属性是不需要的。
刚才的
transfer
类设法回避了一个关键问题。如果正被序列化的
transfer
对象用下面这种方式初始化将会发生什么情况:
transfer xfer = new transfer();
xfer.from = new adjustment();
xfer.from.account = 3514; xfer.from.amount = -100;
xfer.to = xfer.from;
基于以前的议论,在
SOAP
中
transfer
对象的序列化形式如下所示:
;
;
;
;
;
;
这个表达有两个问题。首先最容易理解的问题是同样的信息被发送了两次
,
这导致了一个比实际所需要消息的更大的消息。一个更微妙的但是更重要的问题是由于反序列化程序不能分辨两个带有同样值的
adjustment
对象与在两个地方被引用的一个单一的
adjustment
对象的区别,两个存取元素间的身份关系就被丢失。如果这个消息接收者已经在结果对象上执行了下面的测试,
(xfer.to == xfer.from)
将不会返回
true
。
void processTransfer(transfer xfer) {
if (xfer.to == xfer.from)
handleDoubleAdjustment(xfer.to);
else
handleAdjustments(xfer.to, xfer.from);
}
为了支持必须保持身份关系的类型的序列化,
SOAP
支持多引用存取元素。目前我们接触到的存取元素是单引用存取元素,也就是说,元素值是嵌入在存取元素下面的,而且其它存取元素被允许引用那个值(这很类似于在
NDR
中的
[unique]
的概念)。多引用存取元素总是被编码为只包含已知的
soap:href
属性的空元素。
soap:href
属性总是包含一个代码片段标识符,它对应于存取元素引用到的实例。如果
to
和
from
存取元素已经被编码为多引用存取元素,序列化的
transfer
对象如下所示:
;
;
;
;
这个编码假设与
adjustment
类兼容的一个类型的实例已经在
envelope
中的其它地方被序列化,而且这个实例已经被用
soap:id
属性标记,如下所示:
;
;
第三节
结语
一个遗留的
HTTP
问题还需要进一步阐明。
SOAP
支持
(
但不需要
)HTTP
扩展框架约定来指定必须的
HTTP
头扩展。这些约定主要有两个目的。首先,它们允许任意的
URI
被用于限定给定的
HTTP
头的范围
(
类似
XML
名域
)
。第二
,
这些约定允许把必须的头与可选的头区分开来
(
象
soap: mustUnderstand)
。下面是一个使用
HTTP
扩展框架来把
SOAPMethodName
头定义成为一个必须的头扩展:
M-POST /foobar HTTP/1.1
Host: 209.110.197.2
Man: "urn:schemas-xmlsoap-org:soap.v1; ns=42"
42-SOAPMethodName: urn:bobnsid:IFoo#DoIt
Man
头映射
SOAP URI
到前缀为
42
的头,并表示没有认出
SOAP
的服务器必须返回一个
HTTP
错误,状态代码为
501 (
没有被实现
)
或
510 (
没有被扩展
)
。
HTTP
方法必须是
M-POST
,表明目前是必须的头扩展。
SOAP
是一个被类型化的序列化格式,它恰巧用
HTTP
作为请求
/
响应消息传输协议。
SOAP
被设计为与正将出现的
XML Schema
规范密切配合,并支持在
Internet
的任何地方运行的
COM
、
CORBA
、
Perl
、
Tcl
、和
Java
、
C
、
Python
或
PHP
等程序间的互操作性。