数据工程师必备的8项技能,不要只知道Python!

# 数据工程师必备的8项技能

**原作**:Mohammed M Jubapu  
**译者**:机器学习算法与Python实战(公众号ID:tjxj666)  
**英文**:https://www.linkedin.com/pulse/skills-build-data-engineering-mohammed-m-jubapu/

数据工程师是当今市场上最受欢迎的工作之一。数据无处不在,被认为是新时代的能源。公司从不同来源生成大量数据,数据工程师的任务是组织数据信息的收集,处理和存储。但是,要成为一名数据工程师,您需要具备一些出色的技能,例如数据库,大数据,ETL和数据仓库,云计算以及编程语言。但是问题来了,您是否想拥有所有这些技能,或者您想使用所有工具?为简化此操作,让我们抓住机会,直接深入研究数据工程人才市场中的最新技能,这肯定会增加您现有的职业生涯或协助您开始数据工程之旅。


## 1-精通一种编程语言 
 
是的,编程语言是数据工程的必备技能。多数职位概况要求精通至少一种编程语言。这些语言是ETL或数据管道框架所必需的。通用编程语言是总体上掌握数据工程和管道所需的核心编程技能。比如,**Java和Scala**用于在Hadoop上编写MapReduce作业。**Python**是数据分析和管道的流行选择,而**Ruby**也是广泛流行的应用程序粘合剂。 

## 2- Python是最受关注的技能
 
Python!Python!Python!是的,大约70%的工作简介中具有Python作为必备技能,其次是**SQL,Java,Scala**和其他编程技能,例如**R,.Net,Perl,Shell**脚本等。 

## 3- Apache Spark在数据处理层的顶部
 
数据处理是将数据收集和处理为可用的所需形式。Apache Spark排在数据处理层的首位,其次是**AWS Lambda,Elasticsearch,MapReduce,Oozie,Pig,AWS EMR**等。ApacheSpark是一个功能强大的开源框架,可提供交互式处理,实时流处理,批处理,并以非常快的速度,标准接口和易用性进行内存处理。


## 4- Rest API通常用于数据收集
 
对于需要分析或处理的任何数据,首先需要将其收集或吸收到数据管道中。REST API是用于此目的的常用工具,其次是**Sqoop,Nifi,Azure Data Factory,Flume,Hue**等。


## 5-数据缓冲最常见的是Apache Kafka
 
数据缓冲是数据工程框架中的关键部分,在将数据从一个地方移到另一个地方以适应大量数据时,需要临时存储数据。Apache Kafka是常用的分布式数据存储,经过优化可实时摄取和处理流数据。流数据是由数千个数据源连续生成的数据,这些数据源通常同时发送数据记录。流平台需要处理这种不断涌入的数据,并按顺序和增量地处理数据。此类别中的其他工具是**Kinesis,Redis Cache, GCP Pub/Sub** 等。 

## 6-存储数据– SQL或NoSQL
 
数据需要存储以进行处理,分析或可视化,以生成有价值的结果。数据存储可以采用**数据仓库,Hadoop,数据库(RDBMS和NoSQL),数据集市**的形式。紧随其后的是**Hive,AWS Redshift,MongoDB,AWS S3,Cassandra,GCP BigQuery**等SQL技能。

 

## 7-使用Tableau或PowerBI进行数据可视化
 
数据可视化是以图形,图表或其他可视格式表示数据或信息。它传达数据与图像的关系。**Tableau**和**PowerBI**领先于竞争对手,其次是**SAP Business Objects,Qlik,SPSS,QuickSight,MicroStrategy**等。

 

## 8-数据工程云平台
 
有不同的基于云或内部部署的平台,可用于不同的数据工程工具集。列出的典型代表是**Hadoop,Google Cloud Platform,AWS,Azure**和**Apprenda**。

好吧,绝非必须精通所有技能和工具,但是通常需要在每个数据管道框架类别中**至少掌握其中一个**,例如针对云平台的**GCP**,针对开发的**Python**,针对数据处理的**Apache Spark**,针对数据收集的**Rest API**,针对数据缓冲的**Apache Kafka**,针对数据存储的**Hive**,用于数据可视化的**PowerBI**。
![](https://imgkr.cn-bj.ufileos.com/c42eec0c-972f-4c51-bbf8-de65d3f80948.png)
 

你可能感兴趣的:(机器学习)