大数据平台数仓面试提纲

1、数仓架构
拿一个你最近的项目举例,具体说下一个数仓建设的过程及注意点。(也可以放在第5在问里)
互联网数仓与传统行业数仓有什么不同?是什么引起他们之间的不同
分层、数仓主题划分的标准和依据?
数据建模(维度、范式、宽表),缓慢变化维如何处理?几种方式? 
宽表通常包含哪些字段信息?
事实表有哪几类?事务事实表、周期快照事实表、累积快照事实表。
范式模型具体哪几个主题?
维表与代码表?区别和联系?

打点 accesslog 数据如何处理,如何进模型及各层?
数据质量治理、元数据管理方面的经验。
数仓存在的意义价值及分层的好处?

2、hadoop生态
hive引擎几种?
Hive支持的存储格式有:
    Text File
    SequenceFile
    RCFile
    Avro Files
    ORC Files
    Parquet
谈一下hadoop部署的过程
mr运行机制

3、hive调优
优化的方面
大表大表关联,大小表关联。
union all太多,如何加快查询速度?
数据倾斜的原因及改进处理的措施。

4、基础技术方面
shell:远程复制、本地与服务器文件传输,正则匹配
vi中,光标到快速移动到首行、行尾,整行快速复制和粘贴,查找和替换字符串
awk及sed的使用
SQL:分析函数、窗口函数(累积值如何计算?)
hive中的sql与关系型数据库中sql有哪些不同?
hive中的复杂数据类型:ARRAY、MAP、STRUCT、UNION及其使用场景。
hive里json字符串如何解析出来?
如何在mysql中进行排名?
hadoop操作:
两集群间传送文件怎么实现?distcp
上传本地文件到hdfs

使用过的数据库?
开发语言?

5、对业务的关注
拿一个你最近的项目举例,具体说下一个数仓建设的过程及注意点。(1中没提就放在这里问)
(重点考察细节,在项目中承担的角色、数据主题如何划分、共分几层、对于具体维度和事实的处理,以及具体的技术实现)

数据应用:
用户标签体系
消息推送
用户拉新效果评估
漏斗分析

6、延展
数据湖、主数据、dv建模、算法、数据挖掘、人工智能、实时计算
hbase、impala、kafka、tableau、ES、mongoDb、GP

7、发散问题
工作中自已的最擅长的和最不擅长最需要改进的地方
说一下自己在工作或项目中遇到的一个最大(印象深刻)的困难,及其最终解决的过程
最近看的一些书及关注的技术,自己职业规划

8、review简历,找重点、亮点复核

你可能感兴趣的:(Thinking,within,work,面试,提纲,大数据,数仓)