元数据是一种二进制信息,用以对存储在公共语言运行库可移植可执行文件 (PE) 文件或存储在内存中的程序进行描述。将您的代码编译为 PE 文件时,便会将元数据插入到该文件的一部分中,而将代码转换为 Microsoft 中间语言 (MSIL) 并将其插入到该文件的另一部分中。在模块或程序集中定义和引用的每个类型和成员都将在元数据中进行说明。当执行代码时,运行库将元数据加载到内存中,并引用它来发现有关代码的类、成员、继承等信息。
元数据以非特定语言的方式描述在代码中定义的每一类型和成员。元数据存储以下信息:
程序集的说明。
标识(名称、版本、区域性、公钥)。
导出的类型。
该程序集所依赖的其他程序集。
运行所需的安全权限。
类型的说明。
名称、可见性、基类和实现的接口。
成员(方法、字段、属性、事件、嵌套的类型)。
属性。
修饰类型和成员的其他说明性元素。
一、元数据的优点
对于一种更简单的编程模型来说,元数据是关键,该模型不再需要接口定义语言 (IDL) 文件、头文件或任何外部组件引用方法。元数据允许 .NET 语言自动以非特定语言的方式对其自身进行描述,而这是开发人员和用户都无法看见的。另外,通过使用属性,可以对元数据进行扩展。元数据具有以下主要优点:
自描述文件。
公共语言运行库模块和程序集是自描述的。模块的元数据包含与另一个模块进行交互所需的全部信息。元数据自动提供 COM 中 IDL 的功能,允许将一个文件同时用于定义和实现。运行库模块和程序集甚至不需要向操作系统注册。结果,运行库使用的说明始终反映编译文件中的实际代码,从而提高应用程序的可靠性。
语言互用性和更简单的基于组件的设计。
元数据提供所有必需的有关已编译代码的信息,以供您从用不同语言编写的 PE 文件中继承类。您可以创建用任何托管语言(任何面向公共语言运行库的语言)编写的任何类的实例,而不用担心显式封送处理或使用自定义的互用代码。
二、属性。
.NET Framework 允许您在编译文件中声明特定种类的元数据(称为属性)。在整个 .NET Framework 中到处都可以发现属性的存在,属性用于更精确地控制运行时您的程序如何工作。另外,您可以通过用户定义的自定义属性向 .NET Framework 文件发出您自己的自定义元数据。有关更多信息,请参见利用属性扩展元数据。
三、元数据的意义
说到元数据的意义,可以从其应用目的来谈的。虽然做数据仓库言必称元数据,必称技术、业务元数据,但其到底用于何处?离开了目标去谈元数据,就发现元数据包含太多的东西,因为他是描述数据的数据嘛。
还是那客户关系系统来比喻,这个系统维护客户信息当然是有目的的,是要用这些信息进行一些自动的流程处理、去挖掘一些客户潜在的价值、做好客户服务。当然没有必要去维护客户的生命特征信息,诸如指纹、犯罪史等,这些信息跟客户关系管理的目标关系不大。元数据也是如此,你可以将所以数据的结构、大小、什么时间创建、什么时间消亡、被那些人使用等等,这些信息可以延伸得太广,如果不管目标,而试图去建一个非常完美的元数据管理体系,这是一种绝对的"自上而下" 做法,必败无疑。
四、元数据列举
基于应用,可以将元数据分成以下的若干中。
数据结构:数据集的名称、关系、字段、约束等;
数据部署:数据集的物理位置;
数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;
质量度量:数据集上可以计算的度量;
度量逻辑关系:数据集度量之间的逻辑运算关系;
ETL过程:过程运行的顺序,并行、串行;
数据集快照:一个时间点上,数据在所有数据集上的分布情况;
星型模式元数据:事实表、维度、属性、层次等;
报表语义层:报表指标的规则、过滤条件物理名称和业务名称的对应;
数据访问日志:哪些数据何时被何人访问;
质量稽核日志:何时、何度量被稽核,其结果;
数据装载日志:哪些数据何时被何人装载;
五、元数据开发应用的标准化框架
1、数字图书馆资源组织框架
2. 元数据开发应用框架
2.1 元数据的基本意义 Metadata(元数据)是“关于数据的数据”;
元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;
元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。
离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。
3. 元数据应用环境
3.1 Metadata的应用目的
(1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。
(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。
(3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。
(4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。
3.2 Metadata在不同领域的应用 根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现
例如:
网络资源:Dublin Core、IAFA Template、CDF、Web Collections
文献资料:MARC(with 856 Field),Dublic Core
人文科学:TEI Header
社会科学数据集:ICPSR SGML Codebook
博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core
政府信息:GILS
地理空间信息:FGDC/CSDGM
数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images
档案库与资源集合:EAD
技术报告:RFC 1807
连续图像:MPEG-7
3.3 Metadata格式的应用程度
不同领域的Metadata处于不同的标准化阶段:
在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;
在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经成为政府信息描述标准,并在世界若干国家得到相当程度的应用,与此类似的还有地理空间信息处理的FGDC/CSDGM;
但在某些领域,由于技术的迅速发展变化,仍然存在多个方案竞争,典型的是数字图像的Metadata,现在提出的许多标准都处于实验和完善的阶段。
3.4 Metadata格式“标准化”程度问题
Metadata开发应用经验表明,很难有一个统一的Metadata格式来满足所有领域的数据描述需要;即使在同一个领域,也可能为了不同目的而需要不同的但可相互转换的Metadata格式。
同时,统一的集中计划式的Metadata格式标准也不适合Internet环境,不利于充分利用市场机制和各方面力量。
但在同一领域,应争取“标准化”,在不同领域,应妥善解决不同格式的互操作问题。
4. 元数据结构
4.1 总体结构定义方式 一个Metadata格式由多层次的结构予以定义:
(1)内容结构(Content Structure),对该Metadata的构成元素及其定义标准进行描述。
(2)句法结构(Syntax Structure),定义Metadata结构以及如何描述这种结构。
(3)语义结构(Semantic Structure),定义Metadata元素的具体描述方法。
4.2 内容结构
内容结构定义Metadata的构成元素,可包括: 描述性元素、技术性元素、管理性元素、结构性元素(例如与编码语言、Namespace、数据单元等的链接)。
这些数据元素很可能依据一定标准来选取,因此元数据内容结构中需要对此进行说明,例如MARC记录所依据的ISBD,EAD所参照的ISAD(G),ICPSR所依据的ICPSR Data Preparation Manual。
4.3 句法结构
句法结构定义格式结构及其描述方式,例如元素的分区分段组织、元素选取使用规则、元素描述方法(例如Dublin Core采用ISO/IEC 11179标准)、元素结构描述方法(例如MARC记录结构、SGML结构、XML结构)、结构语句描述语言(例如EBNF Notation)等。
有时,句法结构需要指出元数据是否与所描述的数据对象捆绑在一起、或作为单独数据存在但以一定形式与数据对象链接,还可能描述与定义标准、DTD结构和Namespace等的链接方式。
4.4 语义结构 语义结构定义元素的具体描述方法,例如 描述元素时所采用的标准、最佳实践(Best Practices)或自定义的描述要求(Instructions)。
有些元数据格式本身定义了语义结构,而另外一些则由具体采用单位规定语义结构,例如Dublin Core建议日期元素采用ISO 8601、资源类型采用Dublin Core Types、数据格式可采用MIME、识别号采用URL或DOI或ISBN;
又如OhioLink在使用VRA Core时要求主题元素使用A&AT、TGM和TGN,人名元素用ULAN。
5. 元数据编码语言与制作方式
5.1 元数据编码语言
元数据编码语言(Metadata Encoding Languages)指对元数据元素和结构进行定义和描述的具体语法和语义规则,常称为定义描述语言(DDL)。
在元数据发展初期人们常使用自定义的记录语言(例如MARC)或数据库记录结构(如ROADS等),但随着元数据格式的增多和互操作的要求,人们开始采用一些标准化的DDL来描述元数据,例如SGML和XML,其中以XML最有潜力。
5.2 元数据制作方式
(1)专门编制模块(例如对MARC、GILS、FGDC等)
(2)数据处理时自动编制(例如对Dublin Core等)
(3)数据物理处理时自动编制(例如数字图像扫描时的某些元数据参数)
(4)共享元数据(例如OCLC/CORC、IMESH
6. 元数据互操作性
6.1 元数据互操作性问题
由于不同的领域(甚至同一领域)往往存在多个元数据格式,当在用不同元数据格式描述的资源体系之间进行检索、资源描述和资源利用时,就存在元数据的互操作性问题(Interoperability):
多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索。
6.2 元数据格式映射
利用特定转换程序对不同元数据元格式进行转换,称为元数据映射(Metadata Mapping/Crosswalking)。
目前已有大量的转换程序存在,供若干流行元数据格式之间的转化,例如
Dublin Core与USMARC; Dublin Core与EAD
Dublin Core与GILS; GILS与MARC TEI
Header与MARC FGDC与MARC
也可利用一种中介格式对同一格式框架下的多种元数据格式进行转换,例如UNIverse项目利用GRS格式进行各种MARC格式和其它记录格式的转换。格式映射转换准确、转换效率较高。不过,这种方法在面对多种元数据格式并存的开放式环境中的应用效率明显受到限制。
6.3 标准描述框架
解决元数据互操作性的另一种思路是建立一个标准的资源描述框架,用这个框架来描述所有元数据格式,那么只要一个系统能够解析这个标准描述框架,就能解读相应的Metadata格式. 实际上,XML和RDF从不同角度起着类似的作用。
XML通过其标准的DTD定义方式,允许所有能够解读XML语句的系统辨识用XML_DTD定义的Metadata格式,从而解决对不同格式的释读问题。
RDF定义了由Resources、Properties和Statements等三种对象组成的基本模型,其中Resources和Properties关系类似于E-R模型,而Statements则对该关系进行具体描述。
RDF通过这个抽象的数据模型为定义和使用元数据建立一个框架,元数据元素可看成其描述的资源的属性。
进一步地,RDF定义了标准Schema,规定了声明资源类型、声明相关属性及其语义的机制,以及定义属性与其它资源间关系的方法。另外,RDF还规定了利用XML Namespace方法调用已有定义规范的机制,
6.4 数字对象方式
建立包含元数据及其转换机制的数字对象可能从另一个角度解决元数据互操作性问题。
Cornell/FEDORA项目提出由内核(Structural Kernel)和功能传播层(Disseminator Layer)组成的复合数字对象。
内核里,可以容纳以比特流形式存在的文献内容、描述该文献的元数据、以及对这个文献及元数据进行存取控制的有关数据。
功能传播层,主功能传播器(PrimitiveDisseminator)支持有关解构内核数据类型和对内核数据读取的服务功能,还可有内容类型传播器(Content-Type Disseminators),它们可内嵌元数据格式转换机制。
例如,在一个数字对象的内核中存有MARC格式的元数据,在功能传播层装载有请求Dublin Core格式及其转换服务的内容类型传播器。当数字对象使用者要求读取以Dublin Core表示的元数据时,相应的内容类型传播器将通过网络请求存储有Dublin Core及其转换服务程序的数字对象,然后将被请求数字对象中的MARC形式元数据转换为Dublin Core形式,在输出给用户。
7. 几点建议
跟踪元数据发展、积极参与制定元数据标准、加快元数据应用、注意国际接轨。
加快研究有效利用元数据进行检索(包括异构系统透明检索)、相关性学习、个性化处理等的机制。
加快研究元数据与数字对象和数字化资源体系有机整合的途径与方法。
推进研究利用元数据进行基于知识的数据组织和知识发现。
**************************************
元数据接口使用详解
*******************************
Statement stmt= con . createStatement();现在可以使用rsmd调用ResultSetMetaData的方法来访问与rs中的列有关的信息。除了方法 getColumnCount给出结果集中总的列数外,所有的ResultSetMetaData方法都返回与单个列有关的信息,并都接受一个表示对应列 号的参数。
ResultSet rs = stmt.executeQuery(“select * from sales”);
ResultSetMetaData rsmd = rs.getMetaData();
需要注意的是,用于检索所有列值的ResultSet方法是getString。当不知道每一列的类型,这是比较容易的方法;如果希望能检索所有的数据类型(包括SQL 99数据型),则可以使用方法getObject,这是保证能够检索所有列值得唯一方法。1 ResultSet rs = stmt.executeQuery(“select * from sales”);
2 ResultSetMetaData rsmd = rs.getMetaData();
3 int numberOfColumns = rsmd.getColumnCount();
4 while (rs.next()){
5 for ( int i = 1 ;i <= numberOfColumn;i ++ ){
6 String s = rs.getString(i);
7 System.out.println(“Column ” + i + ”: ” + s + ” ”);
8 }
9 }
ResultSetMetaData rsmd = rs.getMetaData();
int jdbcType = rsmd.getColumnType(2);
isAutoIncrement
isCurrency
isSigned
getPrecision
getScale
isNullable
getColumnDisplaySize
如果主键多余一列的话,那么方法getPrimaryKeys等将详细描述每一列。列key_seq中的值表示描述的是哪一列。1 import java.sql. * ;
2 public class static PrimaryKeysExample{
3 public static void main(String args[]){
4 String url = ”jdbc:mySubprotocol:myDataSource”;
5 Connection con;
6 String createString = ”create table supplierspk” +
7 “(sup_id integer not null ,” +
8 “sup_name varchar( 40 ),” +
9 “street varchar( 40 ),” +
10 “city varchar( 20 )” +
11 “state char ( 10 ),” +
12 “zip char ( 10 ),” +
13 “primary key(sup_id))”;
14 Statement stmt;
15 try {
16 Class.forName(“myDriver.className”);
17 } catch (java.lang.ClassNotFoundException e){
18 System.err.println(“ClassNotFoundException: ”);
19 System.err.println(“e.getMessage()”);
20 }
21 try {
22 con = DriverManager.getConnection(url,”username”,”pwd”);
23 stmt = con.createStatement;
24 stmt.executeUpdate(createString);
25 DatabaseMetaData dbmd = con.getMetaData();
26 ResultSet rs = dbmd.getPrimaryKey( null , null ,”suplierspk”);
27 While(rs.next()){
28 String name = rs.getString(“table_name”);
29 String columnName = rs.getString(“column_name”);
30 String keySeq = rs.getString(“key_seq”);
31 String pkName = rs.getString(“pk_name”);
32 System.out.println(“table name :” + name);
33 System.out.println(“column name: ” + columnName);
34 System.out.println(“sequence in key:” + keySeq);
35 System.out.println(“primary key name:” + pkName);
36 }
37 rs.close();
38 stmt.close();
39 con.close();
40 } catch (SQLException ex){
41 System.err.println(“SQLException: ” + ex.getMessage());
42 }
43 }
44 }
可以使用ParameterMetaData对象来获取与PreparedStatement对象或者CallableStatement对象 有关的信息。这些参数由”?”占位符表示,”?”占位符是提供给Connection方法prepareStatement和prepareCall的 SQL语句。下面的代码行使用两个参数占位符来创建一个PreparedStatement对象。
PreparedStatement pstmt=con.prepareStatement(“select id from employees where dept=? and salary>?”);
这些参数根据其序号来编号,因此第一个参数编号1,第二个参数编号2,依此类推。在上面的代码行中,参数1是列dept中的一个值,参数2是 salary中的一个值。下面的代码段用于找出PreparedStatement pstmt有多少个参数。首先创建pstmt并用它来创建ParameterMetaData对象pmd,这个对象包含与pstmt中的参数有关的信息。 接着调用pmd上的方法getColumnCount来找出pstmt有多少参数。
变量count的值应该等于2。方法getParameterCount不接受参数,因为它返回与PreparedStatement对象的所有参数有关的信息。ParameterMetaData接口中的所有其他方法都接受序号来表示作为要查询的信息的参数。1 PreparedStatement pstmt = con.prepareStatement(
2 “update employees set salary =? Where level =? ”);
3 ParameterMetaData pmd = pstmt.getParameterMetaData();
4 int count = pmd.getParameterCount();
DatabaseMetaData | 有关整个数据库的信息:表名、表的索引、数据库产品的名称和版本、数据库支持的操作。 |
ResultSet | 关于某个表的信息或一个查询的结果。您必须逐行访问数据行,但是您可以任何顺序访问列。 |
ResultSetMetaData | 有关ResultSet中列的名称和类型的信息。 |
尽管每个对象都有大量的方法让您获得数据库元素的极为详细的信息,但在每个对象中都有几种主要的方法使您可获得数据的最重要信息。然而,如果您希望看到比此处更多的信息,建议您学习文档以获得其余方法的说明。
· ResultSet
ResultSet 对象是 JDBC 中最重要的单个对象。从本质上讲,它是对一个一般宽度和未知长度的表的一种抽象。几乎所有的方法和查询都将数据作为 ResultSet 返回。 ResultSet 包含任意数量的命名列,您可以按名称访问这些列。它还包含一个或多个行,您可以按顺序自上而下逐一访问。在您使用 ResultSet 之前,必须查询它包含多少个列。此信息存储在 ResultSetMetaData 对象中。// 从元数据中获得列数 ResultSetMetaData rsmd; rsmd = results.getMetaData(); numCols = rsmd.getColumnCount(); |
当您获得一个ResultSet时,它正好指向第一行之前的位置。您可以使用 next() 方法得到其他每一行,当没有更多行时,该方法会返回 false 。由于从数据库中获取数据可能会导致错误,您必须始终将结果集处理语句包括在一个 try 块中。
try { rsmd = results.getMetaData(); numCols = rsmd.getColumnCount(); boolean more = results.next(); while (more) { for (i = 1; i <= numCols; i++) System.out.print(results.getString(i)+” ”); System.out.println(); more = results.next(); } results.close(); } catch(Exception e) {System.out.println(e.getMessage());} |
您可以多种形式获取 ResultSet 中的数据,这取决于每个列中存储的数据类型。另外,您可以按列序号或列名获取列的内容。请注意,列序号从 1 开始,而不是从 0 开始。 ResultSet 对象的一些最常用方法如下所示。
getInt(int); | 将序号为 int 的列的内容作为整数返回。 |
getInt(String); | 将名称为 String 的列的内容作为整数返回。 |
getFloat(int); | 将序号为 int 的列的内容作为一个 float 型数返回。 |
g<tt>etFloat(String);</tt> | 将名称为 String 的列的内容作为 float 型数返回。 |
getDate(int); | 将序号为 int 的列的内容作为日期返回。 |
getDate(String); | 将名称为 String 的列的内容作为日期返回。 |
next(); | 将行指针移到下一行。如果没有剩余行,则返回 false 。 |
close(); | 关闭结果集。 |
getMetaData(); | 返回 ResultSetMetaData 对象。 |
· ResultSetMetaData
您使用 getMetaData() 方法从 ResultSet 中获取 ResultSetMetaData 对象。您可以使用此对象获得列的数目和类型以及每一列的名称。
|
返回 ResultSet 中的列数。 | ||
getColumnName(int); | 返回列序号为 int 的列名。 | ||
getColumnLabel(int); | 返回此列暗含的标签。 | ||
isCurrency(int); | 如果此列包含带有货币单位的一个数字,则返回 true 。 | ||
isReadOnly(int); | 如果此列为只读,则返回 true 。 | ||
isAutoIncrement(int); | 如果此列自动递增,则返回 true 。这类列通常为键,而且始终是只读的。 | ||
getColumnType(int); | 返回此列的SQL数据类型。这些数据类型包括
|
· DatabaseMetaData
DatabaseMetaData对象可为您提供整个数据库的信息。您主要用它获取数据库中表的名称,以及表中列的名称。由于不同的数据库支持不同的 SQL 变体,因此,也有多种方法查询数据库支持哪些 SQL 方法。getCatalogs() | 返回该数据库中的信息目录列表。使用 JDBC-ODBC Bridge 驱动程序,您可以获得用 ODBC 注册的数据库列表。这很少用于 JDBC-ODBC 数据库。 |
getTables(catalog, schema, tableNames, columnNames) | 返回表名与 tableNames 相符而且列名与 columnNames 相符的所有表的说明。 |
getColumns(catalog, schema, tableNames,columnNames) | 返回表名与 tableNames 相符而且列名与 columnNames 相符的所有表列说明。 |
getURL(); | 获得您所连接的URL名称。 |
getDriverName(); | 获得您所连接的数据库驱动程序的名称。 |
· 获取有关表的信息
您可以使用 DataBaseMetaData 的 getTables() 方法来获取数据库中表的信息。这个方法有如下 4 个 String 参数:
results = dma.getTables(catalog, schema, tablemask, types[]); |
其中参数的意义是:
catalog | 要在其中查找表名的目录名。对于 JDBC-ODBC 数据库以及许多其他数据库而言,可将其设置为 null。这些数据库的目录项实际上是它在文件系统中的绝对路径名称。 |
schema | 要包括的数据库“方案”。许多数据库不支持方案,而对另一些数据库而言,它代表数据库所有者的用户名。一般将它设置为 null 。 |
tablemask | 一个掩码,用来描述您要检索的表的名称。如果您希望检索所有表名,则将其设为通配符 % 。 请注意, SQL 中的通配符是 % 符号,而不是一般PC用户的*符号。 |
types[] | 这是描述您要检索的表的类型的String数组。数据库中通常包括许多用于内部处理的表,而对作为用户的您没什么价值。如果它是空值,则您会得到所有这些表。如果您将其设为包含字符串“ TABLES ”的单元素数组,您将仅获得对用户有用的表格。 |
用于从数据库中获取表名的简单代码相当于获取 DatabaseMetaData 对象,并从其中检索表名:
con = DriverManager.getConnection(url); //获取数据库的元数据 dma =con.getMetaData(); String[] types = new String[1]; //请注意通配符是 results = dma.getTables(null, null, ”%”, types); |
然后,我们可以打印出表名,正如我们上面所做的那样:
boolean more = results.next(); while (more) { for (i = 1; i <= numCols; i++) System.out.print(results.getString(i)+” ”); System.out.println(); more = results.next(); } |