林仕鼎:大数据需要三类人才

百度公司是一个典型的大数据公司,公司几乎所有的业务都与大数据密切相关,比如搜索引擎、广告等。在百度公司大数据首席架构师林仕鼎看来,大数据业务的发展需要多种人才,包括数据科学家、数据架构师以及数据工程师等。

  在这里,数据科学家是一种狭义上的定义,指的是那些具有数据分析能力,精通各类算法,直接处理数据的人员。经数据科学家加工和分析后得到的信息可以作为业务处理流程的输入数据,用来驱动业务的发展。

  数据架构师则要精通业务,了解业务的需求和业务系统的架构,这样才可能把数据和业务进行对接。

  还有一类大数据人才是数据工程师,他们具有很强的编程能力特别是系统级编程能力。他们的工作是搭建数据存储、管理以及处理的平台,支撑数据科学家提出的数学模型或算法的运行。

  大数据大不同

  大数据一定是那些用传统的数据处理技术和方法没法处理、管理和使用的数据。大数据的“4V”特征简而言之,就是需要对多源多样的动态数据做实时的关联分析和挖掘。这也决定了传统的商业智能、数据库技术等已无法发挥其作用。举例来说,传统数据库面对的数据容量通常是TB级,而现在互联网行业需要处理的数据一般都是PB级甚至是EB级。不仅如此,数据的来源正变得多样化,而且不是静态的,这些都给数据的处理带来了新挑战。大数据要求将这些不同来源、不同结构的数据全部结合在一起进行关联分析,并从中提取所需的价值。

  因此,大数据需要全新的大数据处理系统,也需要专业的大数据人才。

  上文提到的数据科学家、数据架构师和数据工程师,其实是一个有机的整体,是有效处理大数据所不可缺少的专业人才。林仕鼎表示:“大数据行业迫切需要这三类人才,而企业也各有分工,有的是大数据技术的建设者,更多的是大数据技术的应用者。企业可以根据自身的定位和需求来选择需要的人才。”

  一个企业的大数据业务通常涉及系统、数据和业务三个层面的问题。

  系统是一个提供数据管理和服务并支持模型和算法的基础架构,数据工程师的主要工作就是负责搭建这样一个运行平台。

  数据是指数据处理和分析,这是数据科学家的工作职责。

  业务是指企业的业务需求、流程等,数据架构师要熟悉本行业的业务需求,并且要知道如何让大数据服务于业务。

  “数据科学家必须了解数据意味着什么,并且能够通过提供一定的算法或模型将数据的价值挖掘出来。”林仕鼎补充说,“以前,企业通常是采购成熟的IT解决方案,比如OA、ERP或CRM系统等,企业的技术人员做一些二次开发然后管理和维护这些系统即可。但是现在,市场上没有成熟的完全适合企业需求的大数据解决方案。因此,企业迫切需要像数据科学家、数据架构师甚至数据工程师这样的专业技术人才。”

  数据科学家注重实践

  现在,社会上关于Hadoop技术培训的消息铺天盖地。掌握Hadoop技术的人才实际上属于数据工程师这一类,但是仅仅掌握了Hadoop这一工具,距离实施大数据项目所应具备的技能还有很大差距。

  北京航空航天大学与慧科教育联合开办的大数据技术与应用研究生班,将培养理论结合实际,同时将更突出实战性的大数据通用人才作为培养目标。许多老师都是在业界工作多年、具有丰富实践经验的专家。林仕鼎本人是这个研究生项目的专业主任。

  “我们教授的是大数据基础知识,同时鼓励学生更多地参与企业实践,让他们所学的大数据知识在实践中得到检验。”林仕鼎表示,“我们不会平铺直叙讲述知识点,而是通过应用场景来串联知识点,然后再解释其中的原理。同时,我们也会更加强调实践的重要性,安排更多大作业项目。大数据需要的是复合型的人才,不仅要具备扎实的基础知识,更重要的是有充足的实践经验。”

你可能感兴趣的:(林仕鼎:大数据需要三类人才)