值得关注的事05-12-15
12月15日,由中国软件行业协会、北京软件行业协会、北京书生公司共同举办的“让梦想点亮世界——SEP文档库技术发布暨UOML联盟成立大会”在北京人民大会堂举行。SEP文档库技术是书生公司继SEP数字纸张技术、SEP智能文档技术之后推出的第三代SEP技术。尊敬的许嘉璐委员长,范伯元市长,各位领导、各位来宾,大家下午好。
今天对书生是一个不平凡的日子,对中国软件业也是一个不平凡的日子,我们在这里欢聚一堂,共同见证这样一个历史性时刻:中国软件业第一次在软件技术核心领域达到全球领先。书生SEP文档库技术在软件业历史上第一次为文档互操作提供了可行之路。SEP文档库技术是我们十年心血的成果,我难以在这短短的时间内做详细阐述。我只能简单介绍几点,欢迎各位专家和业界同行在今后跟我们做进一步的交流。
我的汇报分四个部分,首先介绍我们取得的突破,然后说明文档不能互操作形成对信息产业发展的重要障碍,然后介绍解决文档互操作的文档库技术,接下来是UOML联盟相关情况的介绍。
大家都知道,中国软件业长期以来核心技术掌握在他人手中,产业发展受制于人,处于一种被动局面。在制约我们发展的核心技术中就包含了数据库技术。数据库是比结构化数据更为重要的领域,领域目前存在一个重大问题就是文档的互操作问题,如果能够解决这个问题,就能够在这个领域里取得重大突破,我们将能够获得比数据库更大的。历经十年的发展,SEP文档库技术第一次为文档互操作提供了可行之路。事实证明,我们虽然起步比较晚,但是只要我们敢于创新、坚持创新、善于创新,我们还是能够有所作为的。SEP技术第一代技术是1995年发表的,SEP数字纸张技术,当时仅比国外落后两年。应该算是中国软件业在核心技术领域差距最小的技术。在2000年我们取得了局部的突破,在数字全县管理方面达到了国际领先水平。我们是在全球第一家推出在线的DRM技术,而且这个技术到现在也是安全可靠程度最高的。2004年我们基本上与国外同步推出了第二代SEP(智能文档技术),我们在开发第二代技术的同时发现,文档互操作并不能被第二代技术解决。我们认为这个技术还会往上发展,经过市场的分析技术研究文档未来十年的需求,就产生了这样的想法,同步开发第三代技术,就是今天发表的SEP文档库技术,这个技术比国外技术整整领先了一代。
信息产业就是对信息进行处理的技术,信息可以分为结构化数据、书面文档和流媒体,结构化数据大约占20%左右的比例,剩下的80%是非结构化信息,其中书面文档占了主要的份额,如果能够在这个领域取得成绩的话,它的意义和价值应该不亚于在结构化领域取得的成绩。但是现在正在被一个问题困扰着,这就是文档的互操作。目前不同软件不能对同一文档进行操作。不管是封闭格式,还是开放格式,最后的结果都是被电脑软件所垄断。但是一种软件是不可能包含所有功能的,就算是微软的Word、Excel等等。更重要的是不可能涵盖信息信息处理的所有环节,这样造成的结果是信息流难以贯穿各个环节,形成了信息孤岛。文档 世界杯分割得四分五裂。而且由于被个别大公司垄断,中小企业缺乏生存空间。我们也发现,到现在为止纸张还是一个最好的互操作平台,可以在纸上用不同的笔写写画画,可以用圆珠笔、彩笔、毛笔等等。于是我们投入巨资做无纸化改造,结果纸张没有减少,反而剧增。
为了解决这个问题,这么多年来国内国外无数的业界精英,大家小小的组织都为这个目标进行了很多努力。但是到现在为止解决方案基本上都局限在制定文档存储格式标准的技术路线上。经过十几年的产业实践可以证明这条路线是有局限性的,是不可行的。时间的关系,我不能在这里做详细论述,只简单说一点,如果最简单的文档格式(如TXT)不能满足各类软件的需求。全球只有几家专业厂商具备足够的专业水平、研发经费能够完整准确地处理,而其他数十万家软件企业做不到,这样同一软件会出现不同的结果。还存在着阻碍创新、影响性能等无法克服的困难。
我们可以看一下在结构化数字领域,数据流往往是贯穿各个环节的,比如说数据的采集、报送、统计等等。但是在这个领域里目前不同软件之间没有出现这个问题。很久以前数据库也存在着格式标准,大家都知道当年有一个标准很流行,后来改成SQL标准准。只要符合这个标准就能够对同一个数据库进行操作,这样就实现了数据的互操作。我们借鉴这种思路,在文档领域如果也改变存储格式标准的思路,而改为以操作为标准是不是就能够解决互操作问题呢?文档库技术就这样诞生了。文档库技术是以操作为标准,是对书面文档进行描述、存储、处理、管理的基础技术平台,为应用软件提供数文档的通用操作功能。通过非结构化操作标记语言(UOML)统一面向书面文档处理的操作标准。不同的文章只要按照同一个标准就能够对同一文档进行操作。
我们看一下在发明了这个技术后产业格局是什么样的。在这个书面文档领域里也是跟数据库相似的产业结构。有几家专业厂商来提供通用的技术平台,各个软件只需要通过UOML,相当于数据库的SQL就能够实现互操作。
它的意义和价值是非常多的,简单总结几点。首先最重要的是不同软件可以对同一文档进行操作,可以使信息流畅通无阻。实现产业分工,避免重复开发。由于可以把各个软件的编辑功能合并到一起来,所以可以编辑、使用复杂文档。而且文档库提供了多文档的组织管理。通过开放的UOML标准,可以打破垄断,使中小企业有更大的生存空间。最后文档库有可能会形成一个比数据库还规模庞大的新兴产业,成为新兴产业一个新的增长点。
在使用文档库技术之前,每个公司都有各自的模式,相互之间都是隔绝的。使用文档库技术后,不同软件通过同一个操作标准就可以实现对同一文档的互操作,信息流就能够畅通了。
这是另外一个例子,这是一个比较复杂的文档,包括文字、图像、五线谱、电子表格、条形码,可以用不同的软件对它进行编辑、处理,而不再要求有一个软件具备所有的复杂功能。这是数据库产业的规模,而且仅仅只包括了数据库本身直接的效益,没有包含间接带来的效益。到现在已经发展为一年超过一百多亿美元的庞大队伍。可以想象一下,如果占信息总量20%的结构化数据能够孕育出原产值一百多亿美元的产业,那么占空间更大的书面文档领域又能够孕育出多大的产业规模呢?
为了推广应用文档库技术,为了早日实现这个梦想,我们成立了UOML联盟。UOML联盟是由遵守UOML标准的企业、机构、组织、个人自愿组成的联合体,旨在通过共同的标准实现文档的互操作。UOML联盟为联盟成员之间提供了免费授权技术支持,使联盟成员开发的软件相互之间可以实现文档可交换、互操作,让信息流能够畅通无阻,优化非结构化文档领域的产业分工,能够保证UOML标准被广泛地使用。
总结一下今天的发言。首先文档互操作对IT产业的发展是至关重要的,而SEP文档库技术第一次为文档互操作提供了可行之路。文档库技术有望成为一个比数据库技术更为重要的产业核心技术。UOML联盟为文档库技术的推广、普及将提供强有力的支持。
信息产业是全球化程度很高的行业,谁率先掌握的未来的IT核心技术,谁就能掌握全球信息产业的未来。SEP文档库技术和UOML标准的出现给我们带来了这样的机会,只要大家共同努力,就完全有可能在非结构化文档领域打破国外软件巨头的垄断,改变我们受制于人的被动局面,并成为我国软件产业腾飞的一个契机。
过去十多年间,数据库技术培育了一批美国软件巨头,我们期待,未来十年时间,文档库技术也将会培育一批世界级的中国软件企业。
最后我在这里代表书生公司感谢中国软件行业协会和北京软件行业协会,感谢信息产业部、科技部、北京市科委、北京市信息办、北京市高企协等长期以来对书生的帮助和支持。正是因为你们的鼓励和支持给了书生极大的信心和勇气,使书生能够一直专注于开发核心技术。十年来坚守理想、坚持自主创新、坚定开发自主 知识产权的核心技术,终于在今天取得了这样的成绩。当然我们最重要的支持来自于我们的用户。另外也要特别感谢业界同行的紧密合作和媒体界朋友的帮助、支持,使的我们取得的成果能够得到广泛的宣传和应用。我们无法预言,但我们相信文档库产业的形成和发展将为人类带来无法估量的价值!谢谢大家!
主持人:
我想代表大家提几个小问题。SEP文档库诞生从某种意义上说是民族产业、软件产业在核心技术领域一个罕见的重大突破。我想您现在一定很激动,因为毕竟奋斗了十年的时间。中国人的智慧确实是全世界公认的,但是软件产业做了这么多年,一直没有形成比较有规模的像国际上的微软公司的企业,说一下你的体会。
王东临:
中国软件业虽然起步比较晚,这是一个原因,但是更重要的原因是因为我们缺乏核心技术。中国软件企业里大多数都是做的应用开展软件开发的,做产品开发的比较少,做核心技术的应该讲是凤毛麟角。因为我们缺乏核心技术所以产业发展就受制于人,未来要想改变这个局面就应该加强核心技术的开发,而且应该加强对未来核心技术的开发,使我们在信息产业,因为这是一个创新的行业,如果我们能够率先创新,今天可能我们已经是被动了,但是明天我们还有未来。
主持人:
很多朋友还不是很了解这个复杂的技术,这个核心技术能够对行业有多大影响呢?
王东临:
我想它的影响会分几个方面,首先通过实现信息的互联互通,通过这种互操作,能够扩大 信息化的应用面,能够增大产业规模,能够优化产业结构。我们以后可能不会再有从用户界面到存储是同一个软件包打天下,会形成更好的产业分工。第三点通过开放标准、打破垄断,可以给更多企业带来生存空间。
主持人:
最后一个问题,在这么多巨头的占领下怎么开拓市场?
王东临:
我想新的产业形成肯定是需要一定的时间,当是我相信这么一个开放标准能够得到业界和用户认可的,如果我们有更的多软件厂商能够支持这样的标准,如果更多用户能够选择这样一个标准,开放将会成为一个主流,垄断就会退居后面。我想我们的核心技术能够得到更广泛的应用,业界的其他同行、我们的用户将会得到一个更大的收益。书生在这个领域里已经做了十年了,我相信会等到这一天。