大数据开发岗位面经收集

大数据开发岗位面经收集

  • 1. 一次计算各时区的DAU(Daily Active User)
    • 假设有最近48小时的数据,如何一次性计算24个时区各自的DAU,而不是计算24次。
  • 2. 分布式求平均值
    • 一些整数数据分布的存储在多台机器上,每台20TB,需要求这些数的平均数。请简述计算方法和数据流。
  • 3. HashMap的底层原理
    • (1)HashMap简述:
  • 上面题目及解答来源于:https://www.nowcoder.com/discuss/165412

1. 一次计算各时区的DAU(Daily Active User)

假设有最近48小时的数据,如何一次性计算24个时区各自的DAU,而不是计算24次。

pipeline,在进入管道前对数据按时区进行“分类”,然后将数据放入管道,在管道内一次计算,求聚合值。

2. 分布式求平均值

一些整数数据分布的存储在多台机器上,每台20TB,需要求这些数的平均数。请简述计算方法和数据流。

20TB,数据量过于庞大,则需要考虑使用中间件。类比mysql的mycat,利用中间件对过于庞大的数据进行维护等操作。

3. HashMap的底层原理

(1)HashMap简述:

HashMap是基于哈希表的Map接口的非同步实现。此实现提供所有可选的映射操作,并允许使用null值和null键。此类不保证映射的顺序,特别是它不保证该顺序恒久不变。

HashMap的数据结构:是一个“链表散列”的数据结构,即数组和链表的结合体

当我们往Hashmap中put元素时,首先根据key的hashcode重新计算hash值,根据hash值得到这个元素在数组中的位置(下标),如果该数组在该位置上已经存放了其他元素,那么在这个位置上的元素将以链表的形式存放,新加入的放在链头,最先加入的放入链尾.如果数组中该位置没有元素,就直接将该元素放到数组的该位置上。

需要注意Jdk 1.8中对HashMap的实现做了优化,当链表中的节点数据超过八个之后,该链表会转为红黑树来提高查询效率,从原来的O(n)到O(logn)

上面题目及解答来源于:https://www.nowcoder.com/discuss/165412

你可能感兴趣的:(学习笔记)