今天的重复数据删除技术在 EMC 以总价 21 亿美元收购 Data Domain 之后,骤然达到了最顶点。这也符合业界对以 DeDUPlication 发家的 Data Domain 公司股票代码的定义: DDUP ——“ Day Day UP ”,天天向上。这个说法多少来源自其三位创始人之一的李凯,其正牌身份是普林斯顿大学计算机学院教授,在海外学人圈里,他被推崇为华人北美第一人。
 
早在20058月,记者采访来到北京的李凯时,他还是成立仅仅四年时间的Data Domain 公司的首席技术官。就在那时,记者比较系统的了解到了 Data Domain 口中的“容量优化磁盘恢复设备”,也就是今天市场上热门的重复数据删除产品。当时隔四年之后,李凯又一次与媒体会面,职位变为了首席科学家,但 Data Domain 已经成为 EMC 大家庭的一员。特意强调其与媒体会面是因为,作为清华大学以及中科院计算所的访问教授,他基本每年都会回来一次,以帮助国内相关科研机构就大型机、超大型计算机的系统架构设计。他开创了共享虚拟内存领域( DSM ,分布式共享内存),他的研究领域包括分布式和并行系统,曙光的超级计算机就有其一直参与。
 

Data Domain首席科学家兼创始人李凯
 
李凯被海外学人推崇的除了技术水平之外,还有其敏锐的商业头脑。在接受媒体采访时,他就表示,最开始创立 DataDomain 的时候,他们并不是和其他学校里面的教授那样,想把实验室里的实验品产品化,等技术成熟了在做产品。而是先做市场调查,了解市场缺少什么,才去做什么,以市场的需求为最优先考虑。这恐怕也是 DataDomain 的产品一直被市场推崇,以至今天被 EMC 收购的最主要原因。
Data Domain 公司 2003 年首次推出重复数据删除 NAS 2004 年推出重复数据删除卷复制、 2005 年推出重复数据删除网关、 2006 年推出重复数据删除虚拟磁带库 (VTL) 2007 年推出重复数据删除指向复制……而在市场方面, Data Domain 发展之快也令人称道:目前已在 24 个国家设有办事处、 3 个研发中心、超过 2100 家企业级用户、连续多个季度实现超高速增长、 2007 6 月在纳斯达克成功上市、 2009 年更是被 EMC 24 亿美金收入囊中。
 
能在成立不到十年时间,就完成从公司成立到纳斯达克上市到被高价收购,究竟靠的是什么?重复数据删除技术肯定是其中之一,但更深层次方面是:自从 2000 年以后,信息爆炸的趋势日渐显著,企业数据量快速增长、数据类型增多。数据量飞速增长促使企业花费在存储容量的成本上升,企业迫切需要降低数据存储的成本,企业的这种需求无形中给重复数据删除形成了一个隐性、未开拓的市场。而李凯在公司成立之初正是看到了这个隐性的市场,并抓住机会率先推出了重复数据删除产品,从而满足了市场的迫切需求,这才有了今日犹如时势造英雄般的成功。
 
对于重复数据删除技术的未来发展,李凯抱有极大的信心。在他看来,到今天磁带还没有被完全取代的主要原因,一是因为任何产品的消亡都会有一个时间周期,二则是其他产品的速度不够快。正是因为大多数产品的性能不足以完全替代磁带,用户完全可以接受的性能以及高可靠性才是用户最终舍弃磁带选择新产品的重要因素。所以, DataDomain 的产品是在不停的做校验,写进去马上读出来校验,之后每天每星期都在校验,李凯认为磁带库不能够校验,可靠性的量级是不一样的。
 
备份数据里面存在大量的重复部分,很多人把数据比作游泳池加水:每天加的水并不多,但是整个的游泳池很大。如果每天备份的话,每次都备份一个游泳池就太不合算了,应该是备份每天加的那些水,这就是我们常会提到的增量备份与全备份。具体到实际操作,因为数据并非简单的添加,而是对很多原有的数据进行修改,所以也并不是备份增量那么简单。
 
另外一个难点,就是对磁盘上面的海量数据进行操作的时候,如何才能高效的寻找到数据,并对数据进行有效操作。在计算机体系结构里面,存储层次从 CPU cache 到内存,再到硬盘,每个层次的存取速度,都是上面一个层次的千分之一,如何利用有限的内存来处理海量的低速硬盘,里面有很多的技巧。这里面的技术,很多都是目前文件系统和数据库使用的技巧,但是技巧如何合理组合,就是一个技术公司成功的秘密之一了。
 
很多家公司都有自己的数据备份产品, Data Domain 的一个显著差别就是他们的硬件,就是普通的 PC 。而从 Data Domain 的应用来说,他们要处理的数据通路很宽,通用 CPU 的数据通路都很窄。所以为什么不和大多数存储厂商一样订制自己的硬件呢?李凯对此解释是,由于特制硬件,特别是特制的芯片,如基于 FPGA 的可编程芯片,虽然可以提供足够的数据通路宽度,但是由于摩尔定律对硬件速度的提升,以及英特尔对 CPU 质量的保证,使得使用通用 CPU 比用特制硬件的开发周期大大减少,只要专注开发自己的软件, 18 个月以后,就可以得到免费的性能提升,几年之内就可以超越使用特制芯片的对手。
 
究其上面种种,这大抵就是 Data Domain 今天的成功秘诀。 其实,这些内容也是整个计算机行业众所周知的东西,而李凯和 Data Domain 之所以凭借这些内容取得的今天的成功,也是国内存储厂商需要借鉴的地方——把大家都知道的东西,巧妙组合,从而形成自己的竞争力。