谈到大数据,张安站认为大数据本质上是两个根本性的问题,一个是数据很大,如何存储?另外一个是数据很大,如何分析?第一个问题,对于存储厂商来说,就是构建Scalability更好的存储系统,来适应这个超大规模数据存储的需求。第二就是大数据的分析,随着以Hadoop生态环境为代表的分布式计算/ 存储集群的蓬勃发展与成熟,大数据的分析变得越来越高效和准确,原来的离线数据挖掘现在可以做到在线,甚至通过在线挖掘在数分钟内对用户产生基于当前行为的推荐。
张安站,EMC中国卓越研发集团的资深工程师,毕业于南开大学,毕业后加入EMC,在存储部门担任软件工程师。在读研期间,主要从事了基于手持阅读器的在线读物聚合的研究与实现,编码超过30K,积累了丰富的编码实战经验。
并且也研究了基于地理位置的在线广告投放并且成功在手持阅读器上做过原型开发。校招时收到了百度、阿里、搜狗、EMC、 SonicWALL和创新工场等多个知名企业的offer ,并且保持了面试必过的记录。
加入EMC后,主要负责存储系统管理和监控的研究与开发,积累了丰富的系统调试经验;设计实现了存储控制协议SMIS并在系统性能调优方面积累了实战经验;承担了项目组的代码管理工作和Scrum的管理工作。 近半年工作重心在构建下一代的商业存储的管理框架,通过重新设计获得存储系统的可靠性(Reliability)、可用性(Availability )、可扩展性(Scalability)和性能(Performance )得到质的提升。下个月将加入百度的网页搜索部担任系统架构高级研发工程师,负责网页搜索产品服务架构和数据存储架构的设计与升级。
谈到如何学习Hadoop和Spark,他觉得精读源码是必须的,同时还要学会比较,另外,Scala语言是他认为最酷的语言。一个优秀的程序员,肯定会喜欢Scala。以下是对张安站的采访实录:
CSDN:可否介绍一下目前从事的工作?
张安站:当前主要工作在构建EMC中高端存储的下一代管理控制平台上。这是一个全新的平台。不同与去年发布的VNX2,VNX2实际上还是分File 和Block,它们分别使用不同的CPU,物理上是隔离的。我们现在做的平台是真正的Unified,可以在一个节点上提供File Service, Block Service。由于采用了全新的架构,整个存储系统的可靠性(Reliability)、可用性(Availability)、可扩展性(Scalability)和性能(Performance)得到质的提升。传统的存储系统扩展性是Scale-in的,做不到Scale-out。因此你可以看到每个系统不同的产品型号支持的最大硬盘数量是固定的,因此最大的存储空间也是确定的。为了扩容,不得不买更多的设备,这无疑增加了IT运维的成本。我们现在关注的就是解决传统架构的局限,适应现在云计算,大数据对存储系统新的需求,从而使我们的产品仍然在新的环境中主导存储系统的发展。
不过遗憾的是六月份是我在EMC工作的最后一个月。七月初我会加入百度的网页搜索部,担任系统架构资深研发工程师,负责网页搜索产品服务架构和数据存储架构的设计与升级,包括网页抓取、海量数据处理平台和分布式检索系统。也是正式开始我在职场上的大数据生涯。
CSDN:谈谈您对大数据的理解?
张安站:大数据,不同的人在不同的角度都会有不同的理解。但是归根结底,是两个根本性的问题,一个是数据很大,如何存储?另外一个是数据很大,如何分析?第一个问题,对于我们存储厂商来说,就是构建Scalability更好的存储系统,来适应这个超大规模数据存储的需求。第二个问题,就是大数据的分析。随着以Hadoop生态环境为代表的分布式计算/ 存储集群的蓬勃发展与成熟,大数据的分析变得越来越高效和准确,原来的离线数据挖掘现在可以做到在线,甚至通过在线挖掘在数分钟内对用户产生基于当前行为的推荐。
因此,可以说,这些技术的发展,也催生了更多的商业模式,也正在改变我们周围的生活。比如借助大数据分析,交通违章监控可以使用更短的时间通知违章车辆;医院可以使用更多的用户数据的建立更好的模型以获得更好的治疗方案;金融行业可以基于用户的投资行为为用户推荐最佳的理财产品。而这些,无一不和我们的生活息息相关。大数据方兴未艾,机遇与挑战并存,让我们这些可爱的程序猿们更好的为人民服务吧!
CSDN: EMC 不久前收购了初创公司DSSD,您怎么看?
张安站:EMC是一个收购了或者说“融合”了很多公司的公司。EMC历史上最著名的收购莫过于2003年以6亿多美元收购VMware。其实对于EMC的多次收购,从另外一个方面也反应了EMC对于行业趋势的把握和敏感,EMC通过多次收购,不断的加强和巩固在行业内的领导地位,从而也影响了行业的发展趋势。这是EMC 继收购闪存公司XtremIO后在闪存市场的又一举动。其实,2013年发布的EMC中端存储的巅峰之作VNX Rockies也发布了VNX-F的全闪存阵列,最高的IOPS达到了110W。虽然EMC相信磁盘阵列在可以遇见的未来仍将存在,但是也可以从它一系列的动作可以看出,EMC非常重视闪存市场。收购DSSD也是这个战略的一部分。
在EMC World 2014上宣布这个消息,足以说明对DSSD的重视。DSSD的核心团队来自ZFS。ZFS可以说是世界上最先进的文件系统,为什么叫ZFS,就是因为Z是最后一个英文字母,而在这之后,无需再有其他文件系统了。让我们拭目以待,期待2015年Andy Bechtolsheim带领的开发团队将给市场带来的EMC DSSD。Andy在斯坦福读博士时就创立了Sun。因此有足够理由相信Andy会给闪存市场带来惊喜。
CSDN: EMC World 2014 提到了EMC 存储产品对Open-Stack的支持,能不能谈一些这方面的具体内容?
张安站:商业的存储系统如何融入到云计算的集群环境?毕竟,云计算提供了三种基本的服务,即计算资源、网络资源和存储资源。EMC存储部门关注的就是如何将我们的存储产品融入到Open-Stack中,使得Open-Stack可以无缝的使用EMC的存储产品。由于EMC各个存储产品的相对独立性,不同的产品线可能都会支持Open-Stack。其实技术上说白了就是实现一个Open-Stack Cinder的驱动,实现一些Open-Stack的API以使得Open-Stack可以使用存储系统上的存储资源。在这里不得不提的是EMC的软件定义存储的实现ViPR。ViPR 2.0未来将成为其所有存储的核心数据平台。通过添加对OpenStack Clinder插件的支持,ViPR可以与更广泛的第三方存储系统和商品驱动器兼容,EMC认为ViPR 2.0现在能够处理所有现有存储容量的80%。
但是从Business Value来说,EMC对于Open-Stack的支持是为了将我们的存储产品更好的融入Open-Stack中。使得它能够充分利用我们的存储服务。其实从这一点上来讲,和Intel积极推动很多OpenSource的项目一样,最终的目的都是使得这些开源项目更好的运行在公司的核心的软硬件平台上。当然了,也不可否认,这些大公司的推动对于这些项目起到了非常积极的作用。有了大公司在人力物力的投入,这些开源项目都能在各自的领域有了更好的发展。
CSDN:传统商业存储的在云计算背景下的机遇与挑战?
张安站:这个问题,不得不提一下EMC现在力推的第三平台战略。简单来说,第二平台就是传统的数据中心,EMC已经确定了领先的地位。第三平台是建立在移动设备、云服务、社交网络和大数据的基础之上。但是现在科技的发展可以说是重新定义了许多东西,就如EMC World 2014的主题 REDEFINE一样。在这次平台转型的过程中,注定有一些公司被淘汰;一些公司会站在新的浪潮之巅。EMC的传统存储部门肯定会受到影响,但是影响究竟有多大谁都不敢断言。我们现在也是Redesign我们的产品架构,很多模块推倒重来,以更好的适应第三平台的需要。
CSDN:对于学习Hadoop和Spark的同学有什么好的建议?
张安站:学习最重要的是兴趣,还有激情。不能说现在什么技术热就去学什么,那么你可能永远在追随这些技术,无法真正的在技术方面提升自己。从我自己学习Hadoop和Spark的经验来说,熟读源码,精读源码是必须的,特别是你需要做二次开发时。当然了博客是一个很重要的渠道,但是博主是把自己的知识进行提炼,总结形成博文的,可能他知道的一个实现的80%,但是博文可能只能展现60%。所以自己在精读了文章后,一定要深入源码去精读,去对比。比如我学习HDFS时,每次看到一个模块都会和我们公司的产品实现进行横向的对比。举个例子来说,HDFS的服务器端分名字节点(NameNode)和数据节点(DataNode),而我们的产品实现分ControlPath和DataPath。所以从大的架构上来说,二者是想通的,虽然一个是分布式存储系统,一个是中心式的存储系统。
Spark的学习也是,而且Spark的源码无疑更加简练,相信大家能够从源码中学到很多东西。大家都知道Spark是用Scala语言实现的。Scala语言是我认为最酷的语言。一个优秀的程序员,肯定会喜欢Scala。
写在最后:
在采访中,我们能感觉到张安站的激情、睿智以及文采,正如在他的最新博文Redefine:Change in the Changing World中所说,科技的发展重新定义了技术,影响了生活,改变了你我。
点击张安站博客,查看更多技术性文章!
HDFS追本溯源:租约,读写过程的容错处理及NN的主要数据结构