信息孤岛的解决方案
樊梦真
内容提要:产生信息孤岛的根本原因在于当前的软件设计模式存在问题,人们是先设计出数据结构各不相同的信息系统,然后再通过转化数据结构而实现互联互通,犹如火车通过换车轮而实现互通。火车之所以可以互通是因为火车是以标准化的钢轨为基础而设计。本文的独立数据库技术借鉴“以标准的钢轨为基础而设计火车”的“标准化模式”,通过“数据结构的标准化”及“数据的标准化”方式而从根本上避免信息孤岛问题的产生。
火车之所以能够在全国各地互联互通,是因为全国的钢轨都是标准的,我国的各种火车都是以标准的钢轨为基础而设计的。机械零部件的互换性是机械中的一个非常重要特性。机械工程师在设计机械设备时都要尽量采用标准的零部件。火车的互联互通及机械零部件的互换性都是以“标准化”为基础。
然而,对IT行业的软件工程师而言,他们几乎没有标准的概念。软件设计人员在设计软件系统时几乎不考虑任何标准,各种信息系统中的数据完全由软件设计人员自己任意定义,其结果就是各种信息系统中的数据全是不标准、不规范的异构数据。
如果全国各地的火车钢轨都是不标准的,那么火车要在全国各地行驶,就必须不断地“换车轮”,火车换一次车轮需要80分钟。
当前的信息系统通过转换数据结构的方法实现互联互通就犹如火车“换车轮”。铁路交通以“钢轨的标准化”而从根本上避免了“铁路交通孤岛”问题的产生。如果各种信息系统的数据及数据结构也采用标准化的数据和数据结构,那么,也可以从根本上实现各种信息系统之间的互联互通!然而利用关系数据库技术,不可能使数据结构标准化、统一化。独立数据库(源于发明专利技术“医学信息的结构化存贮方法”)中的“事物信息表”可存贮各种各样的结构化数据,可以成为标准的数据结构表。
从关系数据库的角度而言,产生信息孤岛的根本原因有两个,一是各个信息系统中的数据结构多种多样、各不相同,二是各个信息系统中的数据不标准、不规范,因此,当一个信息系统中的数据发送到另一个信息系统时,数据的接收方不能存贮、识别处理接收到的数据。当前解决信息孤岛、实现数据的共享交换的方法是:“转换数据结构,把数据转换为数据的接收方可以存贮、识别处理的形式”,例如BI、EAI、EDI、ETL、ESB等都是通用转换数据结构模式,犹如火车通过换车轮而实现互通。
独立数据库是一种与关系数据库理论完全不同的新型数据库理论。对于关系数据库而言,数据库中的数据的结构完全由设计人员自己决定,设计人员可以随意地定义数据的结构。然而利用独立数据库设计各种信息系统时,不允许设计人员随意定义数据的结构,存贮所有数据时都必须全部采用统一的、标准的、固定的数据结构,即必须全部采用“事物信息表”来存贮数据,这样做的目的是为了让数据可以象火车那样在全国各地的标准的钢轨上互联互通。
下面的表1是独立数据库的“事物信息表”,“事物信息表”是通用表,可以只用一张表而存贮各种关系数据库中的任意结构的数据。表1只用一张表就存贮了“1、动物档案;2、销售订单表;3、销售订单明细表;4、患者基本情况;5、症状;6、员工身高体重;7、通信录;8、医疗费用”的数据。若用关系数据库理论中的方法来存贮这些数据就需要8张结构各不相同的表。
表1:事物信息表只用一张即可存贮各种各样的结构化数据
ID |
事物代号 |
事物特征 |
事物特征值 |
超长特征值 |
单位 |
附件 |
时间 |
65 |
2367 |
事物分类 |
动物管理系统 |
|
|
|
|
66 |
2367 |
事物分类 |
企鹅 |
|
|
|
|
67 |
2367 |
事物分类 |
帝企鹅 |
|
|
|
|
68 |
2367 |
事物分类 |
动物档案 |
|
|
|
|
69 |
2367 |
动物编号 |
3 |
|
|
|
|
70 |
2367 |
名字 |
汉武帝 |
|
|
|
|
81 |
2367 |
动物简介 |
|
帝企鹅(学名:Aptenodytes forsteri):也称皇帝企鹅,是企鹅家族中个体最大的,一般身高在90厘米以上,最大可达到120厘米,体重可达50千克。其形态特征是脖子底下有一片橙黄色羽毛,向下逐渐变淡,耳朵后部最深。全身色泽协调。颈部为淡黄色,耳朵的羽毛鲜黄橘色,腹部乳白色,背部及鳍状肢则是黑色,鸟喙的下方是鲜桔色。帝企鹅在南极严寒的冬季冰上繁殖后代,雌企鹅每次产1枚蛋,雄企鹅孵蛋。雄帝企鹅双腿和腹部下方之间有一块布满血管的紫色皮肤的育儿袋,能让蛋在环境温度低达零下40摄氏度的低温中保持在舒适的36摄氏度。群居性动物。每当恶劣的气候来临,它们会挤在一起防风御寒。可以潜入水底150至500米,最深的潜水记录甚至可达565米。主要以甲壳类动物为食,偶尔也捕食小鱼和乌贼。唯一一种在南极洲的冬季进行繁殖的企鹅。在南极以及周围岛屿都有分布。 |
|
|
|
71 |
2367 |
购入日期 |
2013/3/21 |
|
|
|
|
72 |
2367 |
身高 |
1.2 |
|
m |
|
|
73 |
2367 |
体重 |
20 |
|
kg |
|
|
74 |
2367 |
出生日期 |
2011/4/2 |
|
|
|
|
75 |
2367 |
照片 |
|
|
|
JPG |
|
76 |
2367 |
笼舍编号 |
98 |
|
|
|
|
77 |
2367 |
管理员 |
张三 |
|
|
|
|
78 |
2367 |
父 |
1 |
|
|
|
|
79 |
2367 |
母 |
2 |
|
|
|
|
80 |
2367 |
性别 |
雄 |
|
|
|
|
|
|
|
|
|
|
|
|
2 |
128 |
事物分类 |
销售订单表 |
|
|
|
|
3 |
128 |
订单ID |
10248 |
|
|
|
|
4 |
128 |
客户名称 |
山泰企业 |
|
|
|
|
5 |
128 |
销售负责人 |
赵军 |
|
|
|
|
6 |
128 |
订购日期 |
1996/7/4 |
|
|
|
|
7 |
128 |
到货日期 |
1996/8/1 |
|
|
|
|
8 |
128 |
发货日期 |
1996/7/16 |
|
|
|
|
9 |
128 |
运货商 |
联邦货运 |
|
|
|
|
10 |
128 |
运货费 |
32.38 |
|
元 |
|
|
11 |
128 |
货主名称 |
余小姐 |
|
|
|
|
12 |
128 |
货主地址 |
光明北路12号 |
|
|
|
|
|
|
|
|
|
|
|
|
14 |
9813 |
事物分类 |
产品销售系统 |
|
|
|
|
15 |
9813 |
事物分类 |
销售订单明细表 |
|
|
|
|
16 |
9813 |
订单ID |
10248 |
|
|
|
|
17 |
9813 |
产品名称 |
猪肉 |
|
|
|
|
18 |
9813 |
单位 |
14 |
|
元 |
|
|
19 |
9813 |
数量 |
12 |
|
Kg |
|
|
20 |
9813 |
折扣 |
0 |
|
% |
|
|
|
|
|
|
|
|
|
|
37 |
28 |
事物分类 |
住院病历 |
|
|
|
|
38 |
28 |
事物分类 |
患者基本情况 |
|
|
|
|
39 |
28 |
病案号 |
199109-2-215 |
|
|
|
|
40 |
28 |
身份证号 |
XXXXXXXXXXXX |
|
|
|
|
41 |
28 |
姓名 |
徐XX |
|
|
|
|
42 |
28 |
工作单位 |
石化总厂 |
|
|
|
|
43 |
28 |
职务 |
机械工 |
|
|
|
|
44 |
28 |
地址 |
上海市南京路 |
|
|
|
|
45 |
28 |
年龄 |
43 |
|
|
|
|
46 |
28 |
入院日期 |
1991/8/19 |
|
|
|
|
47 |
28 |
婚否 |
已婚 |
|
|
|
|
48 |
28 |
病史采取日期 |
1991/8/19 |
|
|
|
|
49 |
28 |
籍贯 |
浙江省宁波市 |
|
|
|
|
50 |
28 |
病史记录日期 |
1991/8/19 |
|
|
|
|
51 |
28 |
民族 |
汉 |
|
|
|
|
52 |
28 |
病情陈述者 |
患者本人 |
|
|
|
|
|
|
|
|
|
|
|
|
54 |
29 |
事物分类 |
住院病历 |
|
|
|
|
55 |
29 |
事物分类 |
现病历 |
|
|
|
|
56 |
29 |
事物分类 |
症状 |
|
|
|
|
57 |
29 |
病案号 |
199108-2-215 |
|
|
|
|
58 |
29 |
身份证号 |
XXXXXXXXXXX |
|
|
|
|
59 |
29 |
姓名 |
张三丰 |
|
|
|
|
60 |
29 |
症状 |
寒战 |
|
|
|
|
61 |
29 |
症状 |
腹泻 |
|
|
|
|
62 |
29 |
诱因 |
洗澡时着凉 |
|
|
|
|
63 |
29 |
症状开始时间 |
1991/8/16 |
|
|
|
|
|
|
|
|
|
|
|
|
82 |
280 |
事物分类 |
人事管理系统 |
|
|
|
|
83 |
280 |
事物分类 |
员工身高体重 |
|
|
|
|
84 |
280 |
姓名 |
张三 |
|
|
|
|
85 |
280 |
性别 |
男 |
|
|
|
|
86 |
280 |
年龄 |
56 |
|
岁 |
|
|
87 |
280 |
体重 |
72 |
|
KG |
|
|
88 |
280 |
身高 |
180 |
|
CM |
|
|
89 |
280 |
身份证号 |
410305XXXXX |
|
|
|
|
|
|
|
|
|
|
|
|
91 |
9753 |
事物分类 |
通信录 |
|
|
|
|
92 |
9753 |
姓名 |
张三 |
|
|
|
|
93 |
9753 |
手机 |
1366086XXXX |
|
|
|
|
94 |
9753 |
单位 |
广州软件公司 |
|
|
|
|
95 |
9753 |
|
6667567XXX |
|
|
|
|
96 |
9753 |
邮件 |
|
|
|
|
|
97 |
9753 |
地址 |
广州大道2号 |
|
|
|
|
98 |
9753 |
照片 |
|
|
|
JPG |
|
|
|
|
|
|
|
|
|
100 |
1280 |
事物分类 |
住院病历 |
|
|
|
|
101 |
1280 |
事物分类 |
医疗费用 |
|
|
|
|
102 |
1280 |
身份证号 |
XXXXXXXXXX |
|
|
|
|
103 |
1280 |
住院号 |
XXXXXXXXXX |
|
|
|
|
104 |
1280 |
姓名 |
张三 |
|
|
|
|
105 |
1280 |
性别 |
男 |
|
|
|
|
106 |
1280 |
中药费 |
56 |
|
元 |
|
|
107 |
1280 |
西药费 |
72 |
|
元 |
|
|
108 |
1280 |
其它费用 |
180 |
|
元 |
|
|
109 |
1280 |
事物分类 |
住院病历 |
|
|
|
|
|
|
|
|
|
|
|
|
当前的信息孤岛问题之所以非常严重,就是因为利用关系数据库理论在设计各种信息系统时,各信息系统的数据结构(犹如钢轨)各不相同。要使数据在各个信息系统之间互联互通,就必须转换数据的结构(犹如火车在不同的钢轨之间行驶时需要换车轮一样)。当前的各种信息系统之间的数据的互联互通全部都是采用这种“换车轮(转换数据结构)”的方式来实现。随着信息系统的数量的增多,数据量的增加,信息孤岛问题已成为大数据时代的一个非常严重的问题。因为信息系统越多、数据量越大,在实现互联互通时“换车轮”的次数也随着增加。
独立数据库所考虑的最重要的一个问题就是如何让数据在各个信息系统之间互联互通,这就需要做到不但要自己可以存贮、识别处理自己的数据,还要使其它信息系统也可以存贮、识别处理接收到的数据。
关系数据库中的二维表非常符合人们的日常使用报表的习惯。然而这种结构形式的数据在互联互通时就会遇到严重的问题:由于数据的接收方的数据库中没有相应的表结构而无法直接把数据存贮到数据的接收方的数据库中。
独立数据库之所以采用“事物信息表”存贮数据,其根本目的就是让“事物信息表”成为标准的数据结构(犹如标准的钢轨),有了标准的数据结构,各种各样的结构化数据就可以很容易地存贮到数据接收方的数据库中,只要数据的接收方建立一张事物信息表即可。
由于利用本发明所设计的各种各样的信息系统的数据的结构都是统一的、标准的、固定的,全部都采用“事物信息表”(犹如标准的钢轨)存贮数据,因此使数据在这样的信息系统之间的互联互通非常容易。对于利用本发明所设计的信息系统而言,(在技术上)不存在信息孤岛问题,因为数据可以象火车那样在标准的钢轨(事物信息表)上高速运行而不必“换车轮”。
有人会认为采用独立数据库设计信息系统会出现性能问题,以及多占用存贮空间的问题。所有的事物都是有一利必有一弊,利用事物需要权衡利弊。当前的信息孤岛为社会带来了巨大的损失,仅我国就拥有数百万个以上的各种各样的信息系统,数万亿条结构各不相同的数据,若用当前的转换数据结构这种“换车轮”的方式实现数据的互联互通、共享交换,代价非常高,不可承受。计算机的速度及存贮容量以摩尔定律的速度飞速发展,计算速度及存贮容量已不是问题,独立数据库的确多占用了一倍左右的存贮空间,但其代价非常低。利用本发明也会使表的记录数增加10倍左右,专业人士认为会产生大表问题,针对此问题的解决方案很简单,只要把大表分成若干个小表即可。独立数据库的突出优势是面对数百万以上的信息系统、数万亿条以上的数据的大数据环境,若这些信息系统中的数据的结构都是相同的,数据都满足数据的完整性,那么,实现数据的互联互通、共享交换以及数据挖掘非常容易,两相权衡,利远大于弊!
产生信息孤岛的根源在于当前的软件设计模式有问题,当前的各种信息系统全部采用“换车轮模式”而实现互联互通。如果全国各地的火车的钢轨都是不标准的,那么火车要在全国行驶就必须不断地更换车轮,更换一次车轮需要80分钟的时间。我国的火车全部是以标准的钢轨为基础而设计各种各样的火车,从而很容易地实现了铁路交通的互联互通。当前的BI、EAI、ETL、EDI、ESB等等都是采用“换车轮模式”而实现互联互通,事实表明这些方法的效果不能令人满意。
独立数据库采用全新的软件设计模式“标准化模式”,“数据结构的标准化”及“数据的标准化”,在软件的设计阶段就从根本上避免了信息孤岛问题的产生。
人们从20年前就已注意到了信息孤岛问题。为了解决信息孤岛问题人们发明了BI、EAI、ETL、EDI、ESB等等,然而事实表明,这些解决信息孤岛的方法都不能令人满意。
通过下面的分析、计算就会发现当前的信息孤岛是不治之症,因为设计人员在开发各种信息系统时都没有考虑数据的互联互通问题,没有通用的数据接口。如果需要与某个系统实现数据的互联互通,则需要开发专用的“点对点式的数据接口”。如果与N个系统实现数据的互联互通,那么至少要开发N个数据接口。从理论上而言,利用现有技术可以通过转换数据结构的方式而实现任意两个信息系统之间的特定数据的互联互通、开放共享,然而由于全球的各种信息系统的数量超过千万,全球所产生的数据超过数万亿条,而且信息系统及数据还在不断地增加,面对如此海量的异构的、不标准的数据,“转换数据结构”的方法所花的成本非常高、不可承受。因此,当前的信息孤岛只能在局部进行缓解,而不能整体上得到根治。利用现有技术设计信息系统时,每增加一个信息系统,就增加了一个孤岛。
两个系统之间的互联互通约需要1个人月的工程量;三个系统之间的互联互通约需要(3-1)+(3-2)=3个人月的工程量;四个系统之间的互联互通约需要(4-1)+(4-2)+(4-3)=6个人月的工程量;N个信息系统之间的互联互通约需要((N-1)+(N-2)+(N-3)+……+3+2+1)个人月的工程量。由计算公式可看出,随着信息系统的数量的增多,系统之间的互联互通的工程量十分巨大,无法承受。因此,当前的信息孤岛是不治之症。这与当前的事实是相符的,自从关系数据库理论产生的40多年来,世界各地的信息孤岛问题都未能得到有效解决。
用关系数据库理论开发信息系统,会产生无穷无尽的数据结构,也会产生无穷无尽的不标准、不规范的数据。仅我国就会有数千万个以上的信息系统,数万亿条以上的数据。
对于用关系数据库理论所设计的信息系统而言,随着信息系统的数量的增加,信息孤岛问题也将会更加严重。也可以说关系数据库理论是信息孤岛的发源地,人们虽说想尽各种方法来解决信息孤岛让数据互联互通,然而信息孤岛问题不降反增。
信息孤岛一旦产生,就不可根治。因为当前的信息系统中的数据的数据结构是不标准的、数据是不标准的,数据与数据库系统密不可分,数据与应用程序密不可分,数据只有在原系统中才是有意义的,一旦脱离了原来的系统,就会变成无意义的数据。当前解决信息孤岛实现互联互通的方法(例如BI、EAI、EDI、ETL、ESB等等)都是通过转换数据结构(换车轮模式)、开发点对点式的数据接口而实现,然而这种方法只能治标,不能治本。利用现有技术无法开发出通用的数据接口。
产生信息孤岛的根本原因在于关系数据库理论,因为关系数据理论单机时代的产物,创始人当时未考虑数据在各个信息系统之间的互联互通问题!关系数据库理论是在互联网产生之前的单机时代创立的。关系数据库理论于1970年6月由IBM公司的埃德加考特(Edgar Frank Codd)创立。ORACLE诞生于1979年。互联网诞生于1973年至1984年之间。1984年,美国国防部将TCP/IP作为计算机网络的标准。
关系数据库理论中没有数据交换共享的概念,也没有数据接口的概念。关系数据库所关心的只是如何处理自己的数据(单机中的数据),而未考虑如何处理从其它数据库发过来的数据,也未考虑如何把数据发送到其它数据库。关系数据库的特点是:“你的数据库处理你的数据,我的数据库处理我的数据。我不处理你的数据,你也不处理我的数据,你我之间是没有关系的。”
在单机时代、局域网时代,关系数据库在处理结构化数据方面发挥出了巨大的作用。然而,随着互联网时代的到来,人们不但希望信息系统处理自己的数据,还希望各个信息系统之间可以共享交换数据,希望数据可以互联互通。为了解决信息孤岛问题,人们发明了BI、EAI、EDI、ETL、ESB等等很多方法。随着IT技术的飞速发展,全世界的各行各业建立了大量的信息系统,然而人们注意到虽说20多年来全世界花费了巨大的人力、物力来解决信息孤岛问题,到如今,信息孤岛问题不但没有根除,反而比以前更严重,信息系统之间的互联互通、数据的开放共享还是非常困难!
当前的信息系统软件开发模式是先设计出数据结构各不相同的系统,然后再通过转换数据结构而实现互联互通,犹如先设计出“结构各不相同的车轮”的火车,然后再换车轮互通,这种软件开发模式可称作是“换车轮模式”、“后ETL模式”。
在小数据时代,各行各业的信息系统中的数据及数据结构基本上都是不标准、不规范的,各个信息系统中的数据完全由系统的设计人员任意定义,因此,各信息系统中的数据都是异构的、不标准的,结果导致了非常严重的信息孤岛问题。不同的信息系统要实现互联互通、共享交换,就必须通过转换数据结构的方式来实现。然而面对全球数千万个以上的信息系统,数万亿条以上的异构的、不标准的数据,要实现各个信息系统之间的互联互通、共享交换,用传统的转换数据结构的方法就非常困难,甚至可以说根本不可能在可承受的时间内实现。