【面试题】最新大数据高频面试题之项目架构篇(持续更新)

文章目录

    • -- 数据仓库的输入数据源和输出系统分别是什么?
    • -- 服务器使用物理机还是云主机?
    • -- 框架版本选型
    • -- 集群规模


– 数据仓库的输入数据源和输出系统分别是什么?

  • 输入系统:埋点产生的用户行为数据、JavaEE后台产生的业务数据、个别公司有爬虫数据。
  • 输出系统:报表系统、用户画像系统、推荐系统
  • 服务器选型

– 服务器使用物理机还是云主机?

1)机器成本考虑:
(1)物理机:以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,单台报价4W出头,惠普品牌。一般物理机寿命5年左右。
(2)云主机,以阿里云为例,差不多相同配置,每年5W
2)运维成本考虑:
(1)物理机:需要有专业的运维人员(1万*13个月)、电费(商业用户)、安装空调
(2)云主机:很多运维工作都由阿里云已经完成,运维相对较轻松
3)企业选择
(1)金融有钱公司和阿里没有直接冲突的公司选择阿里云(上海)
(2)中小公司、为了融资上市,选择阿里云,拉倒融资后买物理机。
(3)有长期打算,资金比较足,选择物理机。


– 框架版本选型

1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)
2)CDH:国内使用最多的版本,但 CM不开源,但其实对中、小公司使用来说没有影响(建议使用)10000美金一个节点
3)HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少
【面试题】最新大数据高频面试题之项目架构篇(持续更新)_第1张图片


– 集群规模

【面试题】最新大数据高频面试题之项目架构篇(持续更新)_第2张图片
【面试题】最新大数据高频面试题之项目架构篇(持续更新)_第3张图片

用博客见证成长,用行动证明我在努力。
如果你有缘看到我博客,对你有帮助、喜欢博客内容,请“点赞” “评论”“收藏”一键三连哦!您的支持是对我最大的鼓励。

你可能感兴趣的:(大数据面试题)