在当前这个信息爆炸的时代,大数据已经成为了一个非常重要的概念。所谓大数据,简单来说,是指在规模、速度、类型和价值方面超出传统数据处理软件和工具能力范围的数据集合。具体来说,大数据的特点通常包括四个方面,即我们常说的4V:数据量大(Volume)、数据种类多样(Variety)、数据处理速度快(Velocity)和数据价值密度低(Value)。
大数据的应用场景非常广泛,从商业分析、城市管理、医疗健康、金融服务到交通控制等各个领域都有大数据的应用。例如,电商平台可以通过分析用户行为数据来推荐商品,城市可以通过大数据分析来优化交通流量,医疗机构可以使用大数据来辅助诊断疾病等。
大数据的处理和分析需要一系列的技术支持,包括但不限于Hadoop、Spark等分布式计算框架,HDFS、HBase等分布式文件系统,以及数据挖掘和机器学习技术等。
因此,理解大数据不仅仅是了解其定义,更重要的是理解其背后的技术原理和应用场景,以及如何利用大数据来解决实际问题。
在当下的互联网公司中,比如阿里、腾讯、百度、今日头条等等,推荐系统几乎成了一个标配,用于解决信息过载问题,提高用户体验,提升公司整体收益。而围绕着推荐系统,公司要构建的则是一套大数据体系,从数据的收集、存储,到数据的分析、计算,最后在推荐系统上进行应用,发挥大数据的价值。
我们每天都能听到有人说“大数据”,但是大数据到底是什么,又代表着怎样的发展趋势,貌似有不少人会有这样的误解:
在大数据中数据越多越好,数据够多就可以有更多的价值;
我们是小公司,所以跟大数据没关系;
大数据就是 Hadoop;
……
其实不然,大数据并不是数据越多越好,数据也有好坏之分,只有挖掘出数据背后的关系和价值,才是真正的大数据之道。另外,是否需要做大数据是由公司业务决定的,并不是小公司就与大数据没关系。而 Hadoop 绝对不等于大数据,虽然 Hadoop 已经成为大数据领域的标准工具,但该领域还存在很多其他类型的处理系统。
之所以我们对大数据有各种各样的误解,主要是因为大数据本身是一个很庞杂的体系。作为一个火热概念,很多人在宣讲自己的成果时都把“大数据”挂在嘴边,以至于很多公司以为只要搭建起大数据体系,一股脑地把数据收集起来,就能够提升公司的业绩,发现新的商机。
我根据以往的经历,大概整理了一幅大数据技能图谱,汇总了这些年来我所接触过的有关大数据的各种工具、框架及方法,你可以体会一下。
面对如此庞大的体系,从业者的学习曲线也十分陡峭。这些年来我也磕磕绊绊走了不少弯路,有时候要花费不少时间去了解各种术语和陌生词汇到底是个什么,比如 Hadoop 生态里的 Hive、HBase、HDFS,广告投放中的 CPA、CPC、CPM,推荐系统中常用的 CTR、CVR、DAU 等。所以在这门课程中,我也希望能够把这些经验或者教训告诉你,减少你学习路上的绊脚石,帮你建立框架感,提升学习效率。
大数据体系如此庞大,它的职业发展路径无疑也有很多,我总结了 3 大方向,你可以根据爱好和自身情况等来具体选择。
“大数据架构”方向。主要工作是从众多的大数据工具中选取合适的工具,并能够让这些工具在庞大的云服务器或者集群中良好的配合和运转,来支撑上层的应用。职业发展路径为:数据运维工程师 → 高级运维工程师 → 架构师 → 技术专家。所涉及的技能主要在上面图谱的左半部分,比如通用框架、流式计算、消息队列、资源调度等。
“大数据开发”方向。每家公司的情况各不相同,业务也各不相同,因此要想数据能够在这些工具中良好地运转,以及适配公司业务,就需要大数据开发工程师来进行建设。职业发展路径为:开发工程师 → 高级开发工程师 → 组件代码提交者。所涉及的技能也是图谱的左半部分居多,但与架构方向不同,重点在于熟悉这些工具的用法。
“数据挖掘与分析”方向。有了底层的框架和适配公司业务的各种系统,这时候就轮到数据挖掘与分析工程师来对数据进行精加工,从而在大数据中发现对业务有帮助的部分,最终实现数据到现金的转化。这一方向的职业发展路径为:数据清洗师 → 数据分析师 → 高级数据分析师 → 数据科学家。该方向的技能主要分布在图谱的右侧,比如数据可视化、机器学习工具、算法与数据结构等。
这 3 大方向都有着大好的发展前景,无论你选择哪一方向精进,都是不错的选择。 当然本课程也会从这 3 个方向出发,介绍每个方向需要了解的知识和技能。
经过调研,我也发现不管是现在还是将来,对大数据人才的需求非常稳定,甚至是非常紧缺的。而且,除了主流的互联网公司,很多传统行业的公司也都已经看到了数据带来的利润增长点,开始大力招聘大数据相关人才。下图是在拉勾招聘网站上搜索“大数据”这一关键词时获得的职位截图,可以看到薪资都处于非常高的水平。
期望转行大数据的开发者。你或许已经在从事 Java 开发、PHP 开发、iOS 开发,但是你不满足于现在的工作,期望能够在大数据体系下发挥更大的作用,但又不知道该从哪里入手。本课程或许能帮你找到一个最适合的点,从而让你能够针对性地深入,最终转行大数据。
期望明确上下游关系的新入行者。你或许在学校中学过相关的课程,了解了很多与大数据有关的技术和知识,但是刚进入到工作中,你做的只是其中的一小块事情,不明白自己所处的环节,因此感到迷茫,甚至有时候会误解领导的意思。本课程可以让你快速地了解在公司里,这些技术和知识是如何与公司业务紧密联系良好运转的,从而了解到自己的位置所在,并快速进入工作状态,升职加薪。
期望对大数据体系建立了解的人。你可能没有加入开发的行列,但是你的工作却与大数据相关技术人员(比如数据分析师、大数据开发工程师等)有着千丝万缕的交集,如何与他们进行工作上的对接呢?本课程将带你了解大数据体系到底是什么样子的,在与其他部门对接时能充分展现你的专业度。
我将以最常见的推荐系统为背景,讲解大数据体系都涉及哪些技术和要点,从而帮你快速了解大数据体系的全貌。
我还会借助很多互联网公司的案例来介绍大数据在各个公司中的应用情况,比如阿里、网易、滴滴等知名互联网公司的大数据设计,从而让你了解大数据是如何在公司实际的场景中落地和应用的。
同时,我还将介绍互联网公司中最常用到的各种大数据工具,借助简单的代码带你建立初步的认识,让你明白它是什么,能够做什么,在将来的工作中如果有诸如此类的需求可以快速上手。
本课程共划分 5 个模块,合计 22 讲。
模块一,大数据简介。既然是一门基础入门课程,我们就先从整体上认识一下什么是大数据,让你有一个思维和理念的准备。
模块二 ~ 模块四,我会按照大数据的相关工作职能去划分,沿着数据流转的链条讲解,介绍当前主流的大数据框架工具,并穿插一些公司的实际例子以及简单的代码,帮你熟悉这些工具与技术,同时能够明白它们在公司业务中起到的作用。
模块二,大数据架构。先介绍几个一线互联网大厂案例,了解它们的大数据架构以及大数据体系是如何演进到如今这样子的,然后从最共性的部分出发,带你了解 Hadoop 的整个生态都有哪些重要的组成部分。
模块三,大数据开发。这一部分实际上是对模块二的拆分,即深入到实际的开发工作中,告诉你每一个环节是如何独立运行,又是如何与上下游相联系的。同时,我也会从 Hadoop 框架向外延伸,看看哪些部分已经不适应当前的发展,又有怎样的解决方案。
模块四,数据挖掘与分析。这一部分着重讲解当前火热的算法相关工作,包括数据挖掘算法如何在公司的大数据体系下发挥作用、如何为公司带来业务价值,又有哪些主流的算法是这一部分主要关注的。
模块五,大数据应用。通过讲解推荐系统、数据化运营、数据中台这些应用案例,让你明白大数据体系并不是空中楼阁,它们有着非常丰富的应用。大数据框架的各个部分是如何在这些应用中联合起来发挥作用的,在这一部分你会有自己的发现。
你可能发现了,我们没有讲解工具的底层实现细节,仅以概念的形式去介绍大数据,我希望这是一个阅读门槛低、较易理解的大数据课程。
“万丈高楼平地起”,这门基础课程,一定可以给你带来很大的收获和进步,不仅提升你的专业度,还可以为你现在迷茫的工作找到一个“抓手”。
我想看到这个课程的你一定是渴望成长的,而我也与你一样期待着自己的成长。希望你在这个课程中学到的不仅仅是那些刻板的知识,而是你获取知识的起点。学习也主动与被动相结合,你可以在留言区积极评论和互动,期待你的成长。