大数据的需求来自哪里?美国的一些大型互联网厂商,比如Google、Yahoo、Facebook等,它们拥有的用户数和每日必须处理的数据量都多得惊人。基于此,这些互联网厂商开始利用一些新技术构建庞大的信息处理平台,其中开源产品尤其受到欢迎,比如Hadoop随之逐渐盛行起来。商业企业看到互联网厂商发生的这些变化,也开始关注大数据。
专注于数据集成的Informatica公司企业数据集成产品管理总监郑玮介绍说:“其实,在大数据这个概念出现以前,大规模并行处理(MPP)的需求早就出现了,横向扩展技术也已得到应用。但是,这些处理大数据的解决方案性价比不高。大数据的概念出现后,越来越多的厂商开始在提高大数据解决方案的经济性方面下功夫。”
Informatica的主要客户是像金融公司这样的传统企业。它们是否也面临着大数据的挑战呢?郑玮的回答是肯定的。像德意志银行、摩根士丹利等金融机构普通采用的风险分析就是大数据的实际应用。
与硬件保持距离
为了满足大数据的需要,数据集成产品本身会不会做出改变?郑玮表示:“回顾信息技术的发展历史,其实每五六年就会出现一次新的技术浪潮。我们时刻关注这些变化,而且走在这种变化的前面。因此,对于Informatica来说,大数据的出现并不意外,这种变化是自然而然发生的。Informatica只用了6个月的时间就开发出支持Hadoop的解决方案。大数据的出现并不会改变Informatica软件开发的底层技术核心。但是,由于数据量的快速增长,资源的调配方式或用户的一些使用方式可能会发生改变。”
对业界流行的软硬件集成的一体化解决方案,Informatica敬而远之。“Informatica只做软件。Informatica将与硬件厂商以及数据仓库厂商进行广泛合作,但自己不会涉足这些领域。”郑玮表示,“未来,我们的产品也不会与硬件或数据仓库产品进行绑定。Informatica将继续保持中立的地位。我们会更加专注,只做与数据集成、数据质量、主数据管理等相关的业务。”
由于产品的特殊性,Informatica将数据集成比喻成一座桥梁,它可以连接硬件、数据仓库、商务智能等产品。郑玮表示,Informatica最大的竞争对手其实是传统的手工处理方式。
一家知名的卡车运输公司采用Informatica Hadoop产品对其半结构化数据进行处理,从而提高了卡车的调配效率。以前,调配一辆卡车至少需要半天时间,而现在只要几分钟而已。
国内一家全球500强企业近日主动找到Informatica,希望借助Informatica的数据集成产品实现知识管理。
处理好非结构化数据
由于非结构化数据量猛增,用户必然面临如何同时处理好结构化数据和非结构化数据的问题,比如什么时候将数据放在传统的数据仓库中,什么时候要用开源的Hadoop处理数据。Informatica能帮助用户在同一个平台上处理结构化和非结构化数据。郑玮认为,处理好结构化数据和非结构化数据的关键是系统能够根据数据类型的不同,自动将结构化的数据分配到能处理结构化数据的系统中,而将非结构化的数据分配到能处理非结构化数据的系统中。
能不能将结构化数据和非结构化数据先统一成一种格式的数据,然后再进行处理或分析呢?郑玮表示:“在进行数据处理之前,没有必要对数据类型进行转化或解析,因为预处理过程会浪费很多时间。现在,业内一些主流的厂商采取的都是将结构化数据和非结构化数据分开处理的方式。”在处理非结构化数据方面,Hadoop已经成了一个事实上的标准。
郑玮表示:“大数据仍处于应用的初始阶段。我们曾经访问过40位行业客户,他们对大数据处理表现出浓厚的兴趣。大数据的应用会很快铺开,相关的成功案例也会不断涌现。”