一个大数据查找算法的解题思路

现在有m个人的身份证号码,是警察的考察对象,另外从别的渠道拿到了n个坏人的身份证号码,m和n的数据量都是上亿级别,请写出一段把m个人中的坏人找出来

1. 内存足够,直接放进hash_set contains比较

2. 内存有限,m和n各进行hash(idcord)%1000,然后m0 vs n0.....m999 vs n999,每个对应文件利用hash_set进行判断

3.建个trie树 身份证每位都是0-9 最后一位0-9+x 这样18层深度的树去检查另外一个字符串集合

4. 大数据 处理

你可能感兴趣的:(一个大数据查找算法的解题思路)