大数据计算基础真题回忆

转载学长20 21的真题

转载链接
注:每年的课件可能会有更改,内容不一样,所以读者复习的时候以所在年份的课件为准

2020

大数据计算基础真题回忆_第1张图片

2021

大数据计算基础真题回忆_第2张图片

笔者2023秋

2023

都是大题,没有选择题。

  1. 改进的近似算法中,结合具体的例子说明,“多次运行取平均”和"多次运行取中间值"的两个思想是怎么体现的。(10分)
  2. 为什么要在哈希分片的过程中引入虚拟桶,虚拟桶工作的流程。(6分)
  3. 一共两个问,卷子前面会给期望和方差的公式以及切比雪夫和切尔诺夫不等式(10分)
  • 简要说明Morris算法的主要思想
  • 最后估算的结果是f̃i, 期望是fi,方差是fi的平方,分析估算的误差
  1. B+树,键值最多是3, 给下面的表,回答三个问题(15分)
    大数据计算基础真题回忆_第3张图片
  • 请从不同的节点说明为什么指针的个数要比键值的个数多1
  • 将<1,2,3,4,5,8>组成一个合理的B+树
  • 在上一问的B+树插入6,7画出每一次插入二叉树的状态

​5. 课件上的哈希查找算法,请你给出一个具体的例子并说明这个算法(看课件上的就行)(12分)
大数据计算基础真题回忆_第4张图片
大数据计算基础真题回忆_第5张图片

  1. 一共两个问 主要是文件系统和数据的复制(10分)
  • gfs采用主从式数据库和其他方法的优缺点,请举出一个其他的结构并和主从式相对比写出他们的优缺点。
  • HDFS namenode、datanode、secondary namenode一起协同的工作流程
  1. 给三个例子,一大堆话,问是属于什么什么资源调度模型,我当时写的下面这个。(20分)
    大数据计算基础真题回忆_第6张图片

第一个是单机模型 第二个是spark的executer 第三个是google borgmaster和scheduler

  1. 输入是<编号,黑色或者白色> 每个机器能看到数据的个数为L,机器的个数是k,解决一个问题:黑色的数目多还是白色的数目多,利用mapreduce的编程思想回答下列问题。(15分)
  • 写出map和reduce的伪代码
  • 分析通信代价和空间代价
  • 在此基础上的算法上进行改进,对任意位置上的x 原来的数据A[1到x]黑的个数不小于白色的个数,请设计算法并简要说明他的正确性。


总结:显敏老师的算法一定上课跟着算,要不然考试真的会吃亏,王老师上课讲的比较浅的东西一定要下课多查资料学习,没展开也不一定不需要掌握。

我的笔记

因为时间匆忙,有些东西不是很全,仅供参考。
大数据计算基础笔记

你可能感兴趣的:(#,大数据计算基础,分布式,大数据)