大数据工程师学习大纲汇总

最近有不少同事朋友问我,学习大数据应该学习哪些技能,我查阅相关资料,做了个大体汇总,方便感兴趣的读者阅读。

 大数据工程师技能图谱

大数据通用处理平台

  • Spark
  • Flink
  • Hadoop

分布式存储

  • HDFS

资源调度

  • Yarn
  • Mesos

机器学习工具

  • Mahout
  • Spark Mlib
  • TensorFlow (Google 系)
  • Amazon Machine Learning
  • DMTK (微软分布式机器学习工具)

数据分析/数据仓库(SQL类)

  • Pig
  • Hive
  • kylin
  • Spark SQL,
  • Spark DataFrame
  • Impala
  • Phoenix
  • ELK
    • ElasticSearch
    • Logstash
    • Kibana

消息队列

  • Kafka(纯日志类,大吞吐量)
  • RocketMQ
  • ZeroMQ
  • ActiveMQ
  • RabbitMQ

流式计算

  • Storm/JStorm
  • Spark Streaming

日志收集

  • Scribe
  • Flume

编程语言

  • Java
  • Python
  • R
  • Ruby

数据分析挖掘

  • MATLAB
  • SPSS
  • SAS

数据可视化

  • R
  • D3.js
  • ECharts
  • Excle

机器学习

机器学习基础

  • 聚类
  • 时间序列
  • 推荐系统
  • 回归分析
  • 文本挖掘
  • 决策树
  • 支持向量机
  • 贝叶斯分类
  • 神经网络

机器学习工具

  • Mahout
  • Spark Mlib
  • TensorFlow (Google 系)
  • Amazon Machine Learning
  • DMTK (微软分布式机器学习工具)

算法

一致性

  • paxos
  • raft
  • gossip

数据结构

  • 栈,队列,链表
  • 散列表
  • 二叉树,红黑树,B树

常用算法

  • 排序
    • 插入排序
    • 桶排序
    • 堆排序
    • 快速排序
  • 最大子数组
  • 最长公共子序列
  • 最小生成树
  • 最短路径
  • 矩阵的存储和运算

云计算

  • 云服务
    • SaaS
    • PaaS
    • IaaS
  • Openstack
  • Docker

你可能感兴趣的:(hadoop)