作为一个全栈开发工作者,曾经对公司专职的大数据开发有着浓厚的兴趣,所以尝试学习大数据开发所需要的各种技术栈。
本文就是我在学习过程中记录下,所遇到的一些大数据面试的提问,仅供参考。
当然,因为时间精力有限,并非所有的问题我都去记录了答案,如果您不了解某些问题或者不认可我记录的解答,可以带着问题百度或者问ChatCPT,相信会给您留下更深刻的印象。
最后,读者可以把本文当作模拟面试的提纲,欢迎各位在评论区交流,大家一起成长,努力变得更强!!!
#!/bin/bash
的含义
chmod [{ugoa}{+-=}{rwx}] [文件或目录]
chmod [mode=421] [文件或目录]
row_number
、rank
、dense_rank
之间的区别
row_number是行号,不会重复
rank数据相同的,给出并列排名,但是会跳跃
dense_rank类似于rank,但不会跳跃
hive窗口函数之排名函数row_number、rank和dense_rank
Hive窗口函数保姆级教程
Hive窗口函数/分析函数详解
collect_set()
、collect_list()
、concat_ws()
explode()
、split()
、LATERAL VIEW
String Builder
类大厂面试官竟然这么爱问Kafka,一连八个Kafka问题把我问蒙了?
主题
是根据什么来划分,为什么这么划分?事实表
的过程中,主要做了什么?维度层
是怎么建设的指标
?负责过多少个?怎么编写的?
oneData体系
有了解吗?
数据质量
的?你日常遇到最多的数据质量
问题是什么?
离线任务
有多少个?任务执行的时间是什么时候?数据量,日活,漏斗分析
大概是多少?以及其他分析的方向?业务数据清洗
是怎么做的?整体架构
是什么样的?数仓是如何分层
的?
数据流向
处理后的数据用途
?增量表
和全量表
分别是怎么做的?有没有用过拉链表
?数据倾斜
?如何处理的?断点续传
的问题?怎么处理的 这个问题具体技术具体处理数据建模经验
介绍一下?
Java框架
在你们项目中的应用?任务监控
有做过吗?主要监控什么?数据的准确性
?端到端的一致性
和精准一次消费
吗?我是 fx67ll.com,如果您发现本文有什么错误,欢迎在评论区讨论指正,感谢您的阅读!
如果您喜欢这篇文章,欢迎访问我的 本文github仓库地址,为我点一颗Star,Thanks~
转发请注明参考文章地址,非常感谢!!!