定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?

单位换算: 1G = 1000MB = 1000 * 1000KB = 1000 * 1000 * 1000 byte = 10亿byte = 80亿bit.

文件:50亿*64byte = 320G,就是每个文件有320G。

内存:4G= 320亿bit


如果允许有一定的错误率:可用Bloom filter,原理:http://blog.csdn.net/jiaomeng/article/details/1495500

假设一个结合S={x1, x2 .... xn},使用k个hash函数。使用m位的bit数组。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况 下,m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些,因为还要保证bit数组里至少一半为0,则m应 该>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。 

你可能感兴趣的:(面试)