大数据工程师技能图谱【整理-转】

大数据通用处理平台

   Spark/Flink/Hadoop

分布式存储

   HDFS

资源调度

   Yarn/Mesos

数据分析/数据仓库(SQL类)

   Pig/Hive/kylin/Spark SQL/Spark DataFrame/Impala/Phoenix/ELK/ElasticSearch/Logstash/Kibana

消息队列

   Kafka(纯日志类,大吞吐量)/RocketMQ/ZeroMQ/ActiveMQ/RabbitMQ

流式计算

   Storm/JStorm

   Spark Streaming

日志收集

   Scribe/Flume

编程语言

   Java/Python/R/Ruby

数据分析挖掘

   MATLAB/SPSS/SAS

数据可视化

   R/D3.js/ECharts/Excle

机器学习

   聚类/时间序列/推荐系统/回归分析/文本挖掘/决策树/支持向量机/贝叶斯分类/神经网络

机器学习工具

   Mahout/Spark Mlib/TensorFlow (Google 系)/Amazon Machine Learning/DMTK (微软分布式机器学习工具)

算法

数据结构:栈,队列,链表/散列表/二叉树,红黑树,B树/图

常用算法

   排序:插入排序/桶排序/堆排序/快速排序/最大子数组/最长公共子序列/最小生成树/最短路径/矩阵的存储和运算

分布式一致性

   paxos/raft/gossip

云计算

   云服务:SaaS/PaaS/IaaS

   Openstack/Docker

Hadoop 家族技能图谱

    Hadoop/Zookeeper/Avro/Chukwa/Ambari/Whirr/Bigtop/HCatalog/Hue/HBase/Pig/SqoopCassandra/Hama/

    Flume/Giraph/Oozie/Crunch/Hive/Mahout

Hive 技能图谱

Hive系统架构:MetaStore/Derby/MySQL

   HDFS

       /user/hive/warehouse

   MapReduce

Hive配置文件

   hive-env.sh/hive-site.xml/hive-log4j.properties

Hive命令行/HiveQL

软件集成

   Zookeeper/Thrift/Ooize/HCatalog/AWS

协同过滤

       基于用户协同过滤/基于物品协同过滤

相似度矩阵

       欧氏距离/Pearson距离/余弦距离cosine/Spearman’s rank correlation coefficient/

       Tanimoto coefficient/log-likelihood

近邻算法

       按值取近邻/按比例取近邻

推荐算法

       UserBasedRecommender/ItemBasedRecommender/SlopeOneRecommender/

       SVDRecommender/KnnltemBasedRecommender/TreeClusteringRecommender

算法检验

       全查率Recall/准查率Precision

数据模型

       UserID,ltemID,PreferenceValue/UserID,ItemID

Hadoop集群部署

聚类

数据模型

       DenseVector/RandomAccessSparseVector/SequentialAccessSpareVector

距离算法

       欧式距离/欧式平方距离/马氏距离/余弦距离/Tanimoto距离/带权重距离

聚类算法

       k-means/Canopy/Fuzzy k-means/Dirichlet/Topic moseling on LDA

你可能感兴趣的:(Data,Analyse)