2020-03-15

首先处理大数据的面试题,有些基本概念要清楚:

(1)1Gb = 109bytes(1Gb = 10亿字节):1Gb = 1024Mb,1Mb = 1024Kb,1Kb = 1024bytes;

(2)基本流程是,分解大问题,解决小问题,从局部最优中选择全局最优;(当然,如果直接放内存里就能解决的话,那就直接想办法求解,不需要分解了。)

(3)分解过程常用方法:hash(x)%m。其中x为字符串/url/ip,m为小问题的数目,比如把一个大文件分解为1000份,m=1000;

(4)解决问题辅助数据结构:hash_map,Trie树,bit map,二叉排序树(AVL,SBT,红黑树);

(5)top K问题:最大K个用最小堆,最小K个用最大堆。(至于为什么?自己在纸上写个小栗子,试一下就知道了。)

(6)处理大数据常用排序:快速排序/堆排序/归并排序/桶排序

你可能感兴趣的:(2020-03-15)