算法通关村第十五关 | 黄金 | 超大规模数据场景

1.对 20GB 文件进行排序

有一个 20GB 的文件,每行一个字符串,对其进行排序。

这里可以使用分块方式来排序,先将每块进行排序,然后要逐步进行合并,也叫做外部排序。

2.超大文本中搜索两个单词的最短距离

有一个超大的文本文件,内部由许多单词组成,现在给定两个单词,要找出两个单词在文件中的最小距离。

用两个下标来记录两个单词的位置,一次循环中就可以不断移动和比较下标位置,找到最短距离。

3.从 10 亿数字中寻找最小的 100 万个数字

先排序肯定会占用很大的内存空间。

这时可以采用大顶堆,先给前 100 万个数字创建一个大顶堆,最大元素位于堆顶。

只有比堆顶元素小的才可以插入堆中,并删除原来的最大元素。

最后剩下的就是最小的 100 万个数字。

如果将数据换成流数据,几乎只能用堆来做。

如果对您有帮助,请点赞关注支持我,谢谢! ❤
如有错误或者不足之处,敬请指正! ❤
个人主页:星不易 ❤
算法通关村专栏:不易|算法通关村 ❤

你可能感兴趣的:(不易,算法通关村,算法,算法通关村)