“大数据”自诞生之日起,业界对它的概念、技术和应用就存在一定争议。究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解。在大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的“大数据”是什么样的?
容力现任雅虎北京全球研发中心研发总监,负责雅虎在线广告精准投放产品的北京研发团队,致力于基于海量数据的用户行为分析和挖掘,以及在大数据平台上优化显示广告的个性化投放。在加入雅虎北京全球研发中心之前,容力曾经在美国微软公司担任资深研发经理,领导多个工程师和研究工程师团队,负责有关显示广告和内容广告产品的算法与平台技术的研发。
大数据从互联网迈向企业级
谈到大数据的概念,容力表示,“大数据”的概念是在十多年前伴随着互联网的迅猛发展而诞生的。虽然它由互联网而生,其应用却早已不限于互联网行业。简单地说,“大数据”就是超越传统数据处理软件(如关系型数据库)处理能力的超大规模的数据集,大数据技术可以及时地、在应用所需求的时间内实现有效信息的获取、组织、管理和处理。最为关键的是,大数据技术代表着对数据资源的思维方式的转变——我们从哪里获取数据,如何分析数据,以及如何从分析结果中实现盈利。近几年来,大数据技术的变革主要集中在从传统数据源之中以及之外寻求新的价值点。
容力认为,大数据技术的发展存在三个方面的挑战:数据量、处理速度和数据多样性。目前IT行业的大数据技术主要致力于解决前两个方面的问题。如果从另一个角度来看,在商业实践中, 这两方面的挑战可以归为两类典型的大数据问题--计算密集型(computing intensive ,比如天气预报)和数据密集型(data intensive,比如互联网数据分析)。常用的用于解决这两类问题的技术有:Hadoop、MapReduce、Big Table/HBase、Hive、SAP HANA、Dremel、Storm和Spark等。
随着近年半导体技术和应用的飞速发展,得益于硬件价格的不断降低,容力注意到大数据技术发展的重点正在从网格批处理计算处理方式,转向内存中(in-memory)实时流数据计算的处理方式。 近来流行的Storm、Kafka和SAP HANA都是这一类的大数据处理技术。随着实时流数据分析和实时决策技术的成熟,大数据应用得以迅速从互联网领域延伸到提供企业级的大数据解决方案,例如提供金融服务和智能商业信息。
大数据人才短缺面临挑战
谈到大数据的技术趋势,容力表示,随着大数据技术从概念走向成熟, 商业智能的决策响应时间将成为许多公司成功与否的关键。数据分析进行的越快,商业决策就越有潜在价值。许多企业已经通过从大数据的批处理到实时流数据处理的转变获得了竞争优势。大数据解决方案在企业数据快速分析方面的贡献有目共睹,更快速高效的数据分析有助于企业获取更有价值的信息,继而实现关键的商业决策。
同时,企业在享受大数据便利的同时也面临着相关人才短缺的挑战。一份麦肯锡公司的研究报告表明,预计至2018年,仅美国就将有14-19万名拥有大数据深度分析能力的人才缺口,同时还需要150万位可以通过大数据分析做出有效决策的经理人和分析师。