一、数据技术是朝阳产业
数据的价值需要依赖数据技术去挖掘。如谷歌首席经济学家哈尔*范里安所说,如今我们已真正拥有的实质上免费的和无所不在的数据,因此,与此互补的稀缺要素是理解这些数据并从中提取价值的能力。
数据技术人才会长期供不应求。需求呈指数增长趋势,但供给增长缓慢。(1)需求呈指数增长趋势:国家在战略层面提出了“互联网+”的概念。随着诸多传统行业向“互联网+”转型,基于数据的应用需求越来越多,对数据技术人才的需求会呈现指数增长的态势。标准化的数据软件无法满足企业个性化的应用需求。(2)供给缓慢增长 随着薪资的提高会有更多人愿意从事这个行业,但数据技术涉及的知识较广泛且有深度,数据技术人才供给的增长会相对缓慢。
二、 数据技术的职业选择
1. 数据技术涉及业务分析、数据分析、数据挖掘、机器学习、人工智能五个领域
从1->5,越来越需要技术背景;从5->1,越来越贴近具体业务。
(1)业务分析
- 工作内容:包括市场需求、产品设计、运营流程、企业战略等诸多业务内容的分析。
- 人才特点:与其他偏技术的领域相比,该领域更需要懂业务、知识面丰富(如经济、财务、营销等)的人才。核心竞争力是头脑灵活、逻辑性强、关于业务现状和未来发展的思考想法较多,而数据分析只作为辅助手段。
- 人才代表:很多咨询公司的分析人员都是该市场的典型人才。
(2) 数据分析
- 工作内容:处理较大规模的数据,并熟练运用统计分析方法得到结论。
- 人才特点:与业务分析人员相比,更擅长统计技术和编程处理,同时对业务有较深的了解。
- 人才代表:在互联网企业中常见这样的分析人才,主要因为目前互联网企业的数据量很大,不依靠编程、甚至分布式编程,无法高效地处理数据。
(3)数据挖掘
- 工作内容:在项目中,一方面运用模型工具辅助分析,另一方面针对应用场景进行数据建模。但仅限于数据建模的初始调研,该类人眼通常将标准的模型算法当黑盒工具使用,一般使用封装层次较高的工具,如R语言。
-人才特点:在掌握统计学和分析方法的基础之上,熟练运用各种数据挖掘算法,如分类、预测、关联、聚类等等。
(4)机器学习
-工作内容:分析应用场景,使用最合适的机器学习算法进行建模。将机器学习算法的“白盒”拆分成各个环节的“零件”,根据应用场景的需要优化模型结构和参数配置。工作常集中在业务成熟期之后。
(5)人工智能
-工作内容:从事前沿技术的研究,如尝试用Deep Learning的模型解决自然语言、语音和图像处理方面的问题。
2. 团队既需要业务人才也需要技术人才
以一个形象的比喻来说明业务和技术的关系:“寻龙”和“屠龙”。如果只有屠龙者,英雄没有用武之地,无法在业务中发挥技术作用。如果只有寻龙者,虽然业务改进的思路很多,但数据分析、建模解决的效果不好,使得技术价值被低估,仍然不能形成专业竞争力。同时掌握两种技能会有很好的职业前景,在业务中不断地发现问题,用技术不断解决问题。
3. 在互联网企业中,很多职位的能力分布都是跨领域的
见下图。职位划分和要求没有统一的标准。互联网巨头和创业公司之间差异很大,互联网巨头之间也不尽相同。
三、 加入数据技术领域的准备工作。
先得选择方向:偏重业务的数据分析人员或偏重技术的数据建模人员?他们在技术基础和掌握的领域知识上具有所差别。偏重业务的数据分析人员不需要有深入的数据和统计学背景,更需要对业务的深入理解、灵活的头脑和清晰的逻辑。在学习时偏重很多与业务分析相关的领域知识,如经济学、心理学、营销学、甚至财务和企业管理方面的学科。偏重技术的数据分析人员需要有良好的数学和统计学背景,专注于数据挖掘和机器学习的算法原理与应用场景。
无论选择哪个方向,均需要做好编程技术、项目实践和理论学习。
1. 编程基础
在学习理论之前,最好具备数据处理能力,否则只是是纸上谈兵。使用较多的编程语言有Awk、R和Python。
除了掌握编程语言,还得会使用分布式编程框架,处理超大数据量时需要用并行化的方法解决大数据计算的性能需求。作为Hadoop框架的使用者,不了解它的实现细节也能很方便的使用。
2. 项目实践
数据技术是一门实践科学,需要大量的项目实践。了解数据分析基本方法和数据挖掘的常见模型,具备整体的认知还是很有必要的。但没有经过项目磨练,即使读了再多的理论书籍,也很难深刻理解模型与灵活应用。实践路径:公开项目和免费给中小企业做项目。
3. 理论知识
持续地补充理论知识,切入不同数据技术职位的朋友所要学的内容不尽相同。偏业务数据分析的人员,除了温习统计只是,还需要读很多跨学科的书籍,如经济学、营销学、心理学、产品设计等。偏技术的数据分析人员,需要好好温习数据知识,如微积分和线性代数等,再阅读与数据挖掘和机器学习相关的专业书籍。
有效的学习手段有阅读经典书籍和学习名家课程。毕然(作者)读过的,认为适合无背景的同学阅读的入门书籍,见图2。向大家推荐著名的在线学习网站Coursera(https://www.coursera.org/),这里汇集了世界上各个领域大师级人物的授课资料。通常我们会发现,大师授课与人交流的是思想,而不仅是知识。关于机器学习的理论,推荐台湾大学林轩田教授、斯坦福大学Andrew NG的课程。
以上内容摘录自毕然的《大数据分析的道与术》。毕然是百度的主任科学家,在大数据行业积累了十多年的丰富实战经验。