一、大数据相关工作介绍
大数据方向的工作目前主要分为三个主要方向:
1. 大数据工程师
2. 数据分析师
3. 大数据科学家
4. 其他(数据挖掘等)
二、大数据工程师的技能要求
附上大数据工程师技能图:
本人对于大数据学习创建了一个小小的学习圈子,为各位提供了一个平台,大家一起来讨论学习大数据。欢迎各位到来大数据学习群:868847735 一起讨论视频分享学习。大数据是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长,掌握大数据核心技术,才是掌握真正的价值所在。
必须掌握的技能11条
1. Java高级(虚拟机、并发)
2. Linux 基本操作
3. Hadoop(HDFS+MapReduce+Yarn )
4. HBase(JavaAPI操作+Phoenix )
5. Hive(Hql基本操作和原理理解)
6. Kafka
7. Storm/JStorm
8. Scala
9. Python
10. Spark (Core+sparksql+Spark streaming )
11. 辅助小工具(Sqoop/Flume/Oozie/Hue等)
高阶技能6条
1. 机器学习算法以及mahout库加MLlib
2. R语言
3. Lambda 架构
4. Kappa架构
5. Kylin
6. Alluxio
三、学习路径
加米谷大数据理论+代码+实战+实操的独有课程体系,下面是加米谷的0基础大数据开发课程大纲:
第一阶段:Java设计与编程思想
学习内容:Java设计与编程思想
学习目标:Java基础、Java面向对象、Java高级、数据库与JDBC
学习效果:熟练掌握Java语法并灵活运用,能够开发后台应用
第二阶段:Web前端开发
学习内容:Web前端开发
学习目标:HTML基础、CSS3基础、JS脚本编程
学习效果:能够基于HTML+CSS+JQuery进行前端开发
第三阶段:JavaEE进阶
学习内容:JavaEE进阶
学习目标:JavaWeb后端开发、SSM框架
学习效果:掌握主流JavaWeb框架并灵活运用
第四阶段:大数据基础
学习内容:大数据基础
学习目标:Linux基础、Maven基础
学习效果:熟练掌握Linux及Maven等相关知识并灵活运用
第五阶段:HDFS分布式文件系统
学习内容:HDFS分布式文件系统
学习目标:HDFS原理剖析、HDFS编程
学习效果:深入理解HDFS的原理并灵活运用
第六阶段:MapReduce分布式计算模型
学习内容:MapReduce分布式计算模型
学习目标:MapReduce原理剖析、MapReduce实践
学习效果:熟练掌握MapReduce原理并灵活运用
第七阶段:Yarn分布式资源管理器
学习内容:Yarn分布式资源管理器
学习目标:Yarn原理剖析、Yarn实践
学习效果:深入理解Yarn的原理并调优
第八阶段:Zookeeper分布式协调服务
学习内容:Zookeeper分布式协调服务
学习目标:Zookeeper原理剖析、Zookeeper实践
学习效果:深入理解Zookeeper的原理并灵活运用
第九阶段:Hbase分布式数据库
学习内容:Hbase分布式数据库
学习目标:Hbase原理剖析、Hbase编程实践
学习效果:深入理解Hbase的原理并灵活运用及调优
第十阶段:Hive分布式数据仓库
学习内容:Hive分布式数据仓库
学习目标:Hive原理剖析、Hive编程实践
学习效果:深入理解Hive的原理并灵活运用
第十一阶段:FlumeNG分布式数据采集系统
学习内容:FlumeNG分布式数据采集系统
学习目标:FlumeNG原理剖析、FlumeNG编程实践
学习效果:熟练掌握FlumeNG的各种应用场景
第十二阶段:Sqoop大数据迁移系统
学习内容:Sqoop大数据迁移系统
学习目标:Sqoop原理剖析、Sqoop编程实践
学习效果:熟练掌握Sqoop并灵活运用
第十三阶段:Scala大数据黄金语言
学习内容:Scala大数据黄金语言
学习目标:Scala语法剖析、Scala应用实践
学习效果:熟练掌握Scala各种语法并灵活运用
第十四阶段:kafka分布式总线系统
学习内容:kafka分布式总线系统
学习目标:kafka原理剖析、kafka编程实践
学习效果:深入理解kafka原理并灵活运用及调优
第十五阶段:SparkCore大数据计算基石
学习内容:SparkCore大数据计算基石
学习目标:SparkCore核心原理、SparkCore实践
学习效果:深入理解SparkCore原理并灵活运用及调优
第十六阶段:SparkSQL数据挖掘利器
学习内容:SparkSQL数据挖掘利器
学习目标:SparkSQL核心原理、SparkSQL实践
学习效果:熟练掌握SparkSQL的各种应用场景并灵活运用
第十七阶段:SparkStreaming流失计算平台
学习内容:SparkStreaming流失计算平台
学习目标:SparkStreaming核心原理、SparkStreaming实践
学习效果:深入理解SparkStreaming原理及各种应用场景和调优
第十八阶段:SparkMllib机器学习平台
学习内容:SparkMllib机器学习平台
学习目标:SparkMllib算法模型及核心原理、SparkMllib实践
学习效果:熟练掌握SparkMllib的常用算法并灵活运用
第十九阶段:SparkGraphx图计算平台
学习内容:SparkGraphx图计算平台
学习目标:SparkGraphx核心原理、SparkGraphx实践
学习效果:深入理解SparkGraphx的原理并灵活运用
第二十阶段:大数据项目实战
学习内容:大数据项目实战
学习目标:4个大数据项目的实战
学习效果:能够基于所学知识在真实的项目中操练