大数据工程师的日常工作内容是干嘛?

大数据工程师工作内容取决于你工作在数据流的哪一个环节。

从数据上游到数据下游,大致可以分为:

数据采集 -> 数据清洗 -> 数据存储 -> 数据分析统计 -> 数据可视化 等几个方面

工作内容当然就是使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现上面几个方面的功能。

 

具体说说吧,

数据采集

业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。

数据清洗

原始的日志,数据是千奇百怪的

  1. 一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。
  2. 一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。
  3. 一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用'*'字符替换。

数据存储

清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。

数据分析统计

数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。

数据可视化

用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据~

 

当然,大数据平台(如CDH、FusionInsight等)搭建与维护,也可能是大数据工程师工作内容的一部分喔~

互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群:9437连载一起91324   欢迎进阶中和进想深入大数据的小伙伴加入。
 

学习大数据的话,可以给你一个大纲,入门可以参考。

大数据工程师的日常工作内容是干嘛?_第1张图片

 

一般的学习方法如下:

1、Linux命令基础实战

大数据架构体系结构及开源组件介绍 (要掌握)

Linux基本操作 (常见的Linux命令需要会)

 

2:Hadoop基础

Hadoop基础,对Hadoop架构、核心组件HDFS/YARN做了深入浅出的介绍,让你快速把握Hadoop的核心技术和工作原理,逐渐形成分布式思维;

Hadoop介绍

Hadoop运行模式

 

3:Hadoop集群搭建

Hadoop集群搭建——安装Linux虚拟机

Hadoop集群搭建——远程连接

Hadoop集群搭建(on Linux)——Hadoop(上)

Hadoop集群搭建(on Linux)——Hadoop(下)

Hadoop集群搭建(on Mac)——Hadoop

 

4:HDFS原理

番外篇-课程体系

HDFS架构原理

FS Shell命令介绍及实践

 

5:YARN工作原理

YARN的产生背景

YARN的设计思想

YARN的基本架构

YARN的工作流程(小结)

 

6:Sqoop

Sqoop,作为关系型数据库与Hadoop之间的桥梁,批量传输数据,让你自然的从关系型数据库过度到Hadoop平台,在关系型数据库与Hadoop之间游刃有余的进行数据导入导出;

Sqoop & Hive课程内容介绍

Sqoop介绍与安装

Sqoop的基本使用

Sqoop 导入参数详解

Sqoop导入实战

Sqoop增量导入(上)

Sqoop增量导入(下)

Sqoop导出实战(上)

Sqoop导出实战(下)

Sqoop Job

 

7:Hive

Hive,基于Hadoop大数据平台的数据仓库,可以让你实现传统数据仓库中的绝大部分数据处理、统计分析,让你在Hadoop大数据平台上感受到Hive QL带来的便利的交互式查询体验;Mars将以日志分析或其他示例带大家熟练掌握Hive的应用;

Hive架构介绍(一)

Hive架构介绍(二)

Hive环境搭建(一)

Hive环境搭建(二)

Hive CLI初探

Beeline介绍

Hive数据类型

Hive表一——标准建表语句解析&内、外表

Hive表二——文件及数据格式

Hive分区&桶&倾斜概念

Hive表——Alter

Hive视图&索引简介

Hive表——show & Desc命令

Hive数据导入--load

Hive数据导入--insert

Hive分区表实战

Hive复杂数据类型的嵌套实例

Hive源码阅读环境

Hive执行原理

Hive查询优化

UDF函数实例

Hive终极实例——日志分析

(1)网站日志分析的术语、架构介绍

(2)建表及数据准备

(3)数据处理及统计分析

(4)数据采集到统计分析结果的crontab定时调度

 

8:HBase

HBase,列式存储数据库,提供了快速的查询方式,是Apache Kylin的默认数据存储结果;

HBase介绍及架构

HBase安装

HBase操作实战

Hive与HBase集成实战

 

9:Kylin

Kylin,基于Hadoop的OLAP分析引擎,在Kylin中可以实现传统OLAP的各种操作,直接读取Hive的数据或流式数据作为数据源,把这些数据根据业务模型构建成Cube,Kylin提供了基于Hadoop(MapReduce)的Cube构建,Build完成的Cube数据直接存储于HBase中。Kylin提供了Web UI供查询,包括一些图表展现,是基于大数据的完美OLAP工具;

维度建模

Kylin背景及原理架构

Kylin环境搭建

维度建模知识

Kylin Cube Build步骤解析

Kylin Cube实战

Kylin 增量Cube

Kylin 优化

 

10:Spark

Spark,基于内存计算的大数据计算引擎,提供了Spark SQL、Spark MLlib(基于Spark的机器学习)、SparkR等框架适应不同的应用需求,Spark专题将和大家一起实践操作各种应用和算法;

Spark集群搭建

Spark Core

Spark WordCount(Spark-shell/pyspark..)

IDEA IntelliJ搭建Spark开发环境

Spark编程实例

Spark SQL及DataFrame

Spark SQL实例

Spark Streaming

Spark Streaming实例

Spark MLlib

Spark MLlib应用实例

Spark R介绍

 

 

可以基于每个模版去查一些相应的资料 及教程,然后按照操作即可。。。

你可能感兴趣的:(大数据开发,Hadoop,编程语言)