数据湖和数据仓库的建设,到底为了什么?由此产生的岗位区别在哪

数据湖这个大坑,是怎么挖的?

数据在刚刚开始的时候,还是小体量,就好比创业公司,还不足够引起人们的注意。

但是当数据体量上来了,就好像变成了独角兽。

10个人去银行产生的数据,还能勉强搞定,但是成百上千个呢?甚至更多呢?你会说,银行有oracle这种强大的数据库啊,但是,传统数据库目前来说,只能做到处理、读写、删除一些需求,更多的还是存储数据的用途。

把这些数据聚合在一起分析,数据库做不到。

于是,人们在现有的数据库基础上,对数据进行加工,也就是常说的ETL:抽取、转换、加载。

然后,数据仓库就生成了,里面有各种不同的数据,分成不同的业务包,都是为了数据分析,用于BI和报表上面。

数仓这个概念吧,有了很久了,里面存了很多不同类型的数据,就好比是千万张Excel表格,都在这个仓库里,你要的时候可以查询。

可是时间长了,有人觉得数仓还不够,再造一个概念?我有时候不一定用得到现在的数据,需要过往的数据,怎么办?那就把所有数据汇集在一起,无论是excel还是word,先把这些数据和文件存在一起,等用的时候再说。

数据湖里,可能有如下的这些数据结构:

上面说了,为什么要有这些?都是为了报表和BI,更好地分析业务,给业务赋能。

就好比为什么要有python?说白了,不是减轻工作负担吗?有更快的开发方式为什么不用呢?

我由此想到了一些衍生的岗位:BI工程师,报表工程师,数据仓库工程师,ETL工程师,大数据工程师。

等等,为什么最后一个会出现?大数据和它们是一样的吗?打着大数据旗号,进去变成sql机器的也不是一两个了,哪怕你懂hadoop/hive/hbase,超复杂的sql谁都会写,时间问题罢了。

BI工程师,分为技术类的和非技术类的,非技术类的不会自己取数,老板要一个分析,BI工程师得求ETL工程师帮忙,老板急用,这才可以拿到要分析的数据,并不是仅仅会FineBI和Tableau这些工具就够了的。

做出图表和PPT没什么用,你还得对数据做出一定的解释,而且别人还得看懂,这都是你要做的,你可以理解为高级的数据分析师,但是既要懂业务,也能懂IT。

ETL工程师可不是只有取数这么简单,其实在未来,ETL工程师和数据仓库工程师做的事情,会越来越像,也就是大家所说的越来越“卷”,就好比5年前,产品经理只需要会画原型图就可以了,现在不一样了,加上了不少造概念,做分析的能力。

报表工程师和BI工程师,数据仓库应该是帮了他们的忙,数据都是结构化存储的,更加便于分析了,就拿报表工程师来说,复杂的sql取数基本上不需要了,如果企业的数据仓库做得好,那对报表的影响是显而易见的。

还有,现在都流行自动化了,也就是报表的数据实时更新,而不是原来的N+1(数据到明天才显示),再加上FineReport这样的报表扛把子工具(我只能这么形容),数据量大的时候,企业必须得用到报表工具。

就算是个人,FineReport做报表也比Excel强,如果你说你啥也不会,甚至连Excel都不会,那还是去用FineBI吧。

大数据工程师我就不说了,这个岗位的概念太广了,其实应该细分出来。

你可能感兴趣的:(数据湖和数据仓库的建设,到底为了什么?由此产生的岗位区别在哪)