数据仓库工程师、大数据开发工程师、BI工程师、ETL工程师之间有什么区别?

商务智能。商务智能工程师是商业智能行业的工程师。从需求分析师到数据仓库架构师、ETL工程师、数据分析工程师、报表开发工程师、数据挖掘工程师等,都可以称为BI工程师。

ETL工程师:从事系统编程、数据库编程和设计,掌握各种常用编程语言的专业技术人员。也称为数据库工程师。

 

数据仓库工程师、大数据开发工程师、BI工程师、ETL工程师之间有什么区别?_第1张图片

盲目地解释数据仓库的概念可能并不有趣。让我们从不同的角色开始。

老板:我是一家手机公司的老板。今天我要向董事会汇报。我将准备一份关于用户增长、用户保留率、用户活动以及过去三年中我手机中每个应用程序的使用率的报告。如果下面没有BI,我将被迫这样做。

我是一个非技术性的商务智能。我每天阅读竞争产品分析报告,看到双十一的销量,看到各种评论,知道我的产品有哪些缺点和优势,分析南北地区差异,国内外客户的偏好,总之,我有很强的行业解读能力和数据解读能力。在手机领域,我能画出非常漂亮的图表和PPT。今天老板让我做报告。我还需要刷我的脸,以找到ETL工程师,以帮助我用完报告的数据。基于这些数据,我想给出一定的解释,为什么这个月的手机销售不如上个月,为什么用户流失越来越严重,等等。

ETL工程师:我是食品链最底层的一个压力很大的ETL工程师。我可以编写shell,可以使用hadoop/hive/hbase,还可以使用超复杂的逻辑编写SQL。今天,无法单独计算数据的BI,让我再运行一些数据。我想让她提一下需求流程,但她说这是老板想要的(操作中使用的杀手锏)!!为了紧急处理,我不得不放下工作,为她运行数据。我花了半个小时为她运行数据,希望能有所不同。

众所周知,大数据工程师是大数据开发工程师。主要从事大数据平台建设。它要求实践者拥有Java基础。它还需要以下技术能力:hadoop、hive、hase、flume、storm、kafka、spark等。它是一个非常大的技术集群。

如果你认为我每天都这样做,那你就错了。我通常的工作不只是完成分配给我的任务。我还负责数据ETL流程、数据建模、定时任务分配,有时还负责Hadoop集群的维护等。我必须这样做。每样东西都可以单独拿出来写一本书。想系统学习大数据的话,可以加入大数据技术学习交流扣扣君羊:522189307,欢迎添加,了解课程介绍

以ETL流程为例,您需要将来自不同数据库、不同服务器的不同业务日志的原始数据规范化为相同的格式。您需要在分隔符上达成一致,然后将其导入分布式文件系统hdfs。甚至您需要定义业务系统的数据格式来制定规范。在数据收集之后,您还可以获得中间表、数据过滤、统一格式、统一ID和维度。度统一,通过不同的数据现象来执行数据,完成后,你会得到一些数据,如日报和周报,这时你需要根据需要将数据组织成一定的格式,然后引导mysql或hbase等。

 

数据仓库工程师、大数据开发工程师、BI工程师、ETL工程师之间有什么区别?_第2张图片

总之,您只需要收集、处理和导入和导出各种数据。

但是这些数据仓库非常简单,ETL工程师有太多的空间可以玩。

  • 1、通常,boss–>bi–>etl会给出报告。商务智能可以直接计算中间的数据吗?SQL太复杂了,所以你能标记所有数据吗,BI,甚至老板可以选择他想要的任何东西?

  • 2、ETL工程师可以自动化数据收集、标准化业务日志格式和配置所有内容,但这些都基于N+1。这就是说,今天发生的事明天一定要看。有没有一个系统可以使数据分析实时或准实时?提到双十一屏幕,只有当Ma在12号到达时,他才能知道他已经做了多少交易而不拆分这些数据。

  • 3、目前,大多数分析系统都是基于离线计算(hadoop/odps)。这里有个问题。如果您希望在Operation或BI中看到数据,则必须先放慢脱机速度,然后才能看到它。是否有一个系统可以支持您使用任何更大的数据量和更复杂的逻辑以毫秒为单位生成数据?

  • 我没有提到算法工程师,大数据操作工程师等等。数据仓库的概念非常广泛,但在面对大型数据应用时却不值得一提。

如果我们对数据的价值进行分层,有很多方法可以进行分层。我只列出一种方法,有些人有五个等级。

  • 第一层:为老板提供决策支持,如传统的财务报表

  • 第二层:为运营提供决策支持,如淘宝运营商,这些运营商完全数字化。

  • 第三层:为产品提供支持。例如,产品经理每天都会在报告中查看其中一个按钮的位置。

  • 第四层:生产数据,如直接对接广告系统产生收入,如直接对接推荐系统为用户推荐产品,实现数千人,然后,例如,使用移动应用直接推送不同用户的消息。

  • 第五层:大数据交换,直接受益于数据生成

大多数公司都能达到前两个层次已经很好了,如果能达到第三个层次,就已经很有说服力了,要达到第四和第五个层次,国内互联网公司不超过2家,大数据应用太大了。

你可能感兴趣的:(大数据,hadoop,spark)