以数仓视角切入学习路线,大数据真正需要学习的内容有哪些?

语数精选简介

语数精选来源于语数社区星球球友提问,主要沉淀一些大家工作和学习过程中存在的一些共性问题,希望能够更好的帮助到球友和粉丝。

本期精选问题

  • 作为数仓开发,需要学习哪些大数据基础知识?
  • 当整个数据链路过长时,如何进行模型优化?

站在数仓开发角度,大数据技术需要学哪些

语兴回答

以数仓视角切入学习路线,大数据真正需要学习的内容有哪些?_第1张图片

  1. 语言层面(必学):java学习Java 的基础,多线程,反射,juc ,锁,内部类,代码块那些,都要好好掌握,还有几个类String 类,StringUntil 类,object 类,b站看韩顺平的课。

  2. 开源组件层面(选学):会用抽取工具完成日常数据同步(这里离线建议学sea tunnel或datax ,实时建议学flink cdc),调度工具(这里建议学dolphin scheduler或Azkaban),了解olap其中一种即可(这里查询olap建议学impala olap库建议学Doris)。

  3. 计算引擎(选学):如果有时间建议看看flink群里有flink基础学习资料,还有左哥这边提供的flink进阶讲解。

以数仓视角切入学习路线,大数据真正需要学习的内容有哪些?_第2张图片

  1. 数仓建设思想(重中之重,必学):跟着我b站课程-数仓建设学习路线,了解数仓日常都在做什么,数仓版图有哪些内容,如何去做。

  2. 云端数据平台(选学):这里要了解平时开发流程步骤,如何操作等,到时候我会给你安排账号使用,结合着课程学习一周即可。

  3. 题(必学):由于你要准备校招,这里建议在java学会基础上把leetcode简单和中等的题刷一下,弄懂会写即可,投入70%,其次sql层面把踏踏实实练sql中带星号的题都弄懂会写,投入30%。

  4. 八股文(必学):把语兴小灶面试题带星的看懂,准备八股。

当数据链路比较长时,如何进行模型优化

语兴回答

球友提到:有时候加字段面对数据链路比较长的情况下,有什么好的模型优化方法没有(意思是链路过长可能dwd到dwd再到ads这类)

以数仓视角切入学习路线,大数据真正需要学习的内容有哪些?_第3张图片

其实在生产环境dwd大多数都不同层依赖,ads下游存在相互依赖情况,但尽可能要避开,通过一个数据模型支持即可这里我提供一张图供大家参考,但dwd出现平层依赖情况就要考虑dwd表是否具备扩展性要不要重构。

我们可以从图中看到业务方想要的内容,他想让我们从ods补充字段然后添加到dwd然后在ads出标签,但后续他又会通过where处理或者引用也不做什么逻辑处理,增加多个下游表,其实后续的表价值也不大只是做了引用,所以建议无论是数仓内部同学开发还是数分做ads后续数据表处理如果没有任何大的标签变化(例如基于ads处理好的标签再做case when等判断)就不要往后继续开发数据表,如果业务方只是想过滤建议在看板侧过滤。

免费体系课:

  1. 数仓建设学习路线:https://space.bilibili.com/405479587/channel/collectiondetail?sid=995312

  2. 数仓建设实践路线:https://space.bilibili.com/405479587/channel/collectiondetail?sid=1191377

  3. 语兴小灶:https://space.bilibili.com/405479587/channel/collectiondetail?sid=1367677

  4. 踏踏实实练SQL:https://space.bilibili.com/405479587/channel/collectiondetail?sid=1077391

  5. 语兴的问题解答:https://space.bilibili.com/405479587/channel/collectiondetail?sid=1704755

  6. 实时专项(超哥讲解):https://space.bilibili.com/405479587/channel/collectiondetail?sid=1965322

关于语数

欢迎加入语数知识星球社区! 社区致力于推动数据技术的发展,为初学者和专业人士提供一个共享知识、经验和资源的社区平台,最重要一点,语数星球尊重原创,打造数据相关原创星球内容,跟随我们,脚踏实地一点一滴成长。

以数仓视角切入学习路线,大数据真正需要学习的内容有哪些?_第4张图片

语数目前已更专项课程

  1. 语兴原创简历项目(目前已更新11个简历,可直接套用)
  2. 语兴的求职之路(手把手从简历->面试->入职后)
  3. 左美美:实时技术基础与源码剖析(flink专项作业)
  4. 左美美:Flink实时风控项目(flink体系课+作业)
  5. 超哥:平台研发技术(玩转平台开发)
  6. 汪哥:生产真实场景专项课程(生产真实场景剖析)
  7. 孟哥:数仓项目与面试(从面试官角度带你看项目)

欢迎感兴趣的同学咨询语数,语数每周都会安排直播,带你从更高层面,提升技术水平。

你可能感兴趣的:(java,数据库,大数据,面试)