C++海量数据处理(一): 查重 与 top K问题的分析与实现

文章目录

    • 查重问题分析与实现
      • 如何设计大量数据的查重和去重
      • 程序示例
    • top K问题分析与实现
      • 预备知识
      • 问题分析和解决方法
      • 程序示例
    • 查重+topK 综合应用
    • 海量数据处理典型题目
    • 海量数据处理面试题集锦

至少在现阶段内存和CPU的执行效率在固定时间内是有限的,大量的数据的查重和去重处理不可能同时在内存中进行。就像外部排序算法和内部排序算法差别很大,遇到此类大量数据查重问题对算法进行设计是有必要的。

查重问题分析与实现

如何设计大量数据的查重和去重

查重就是在一组海量数据中,查找重复的数据,我们共有三种方法来处理:

  • 哈希表
  • 位图法
  • 布隆过滤器
  • 内存限制:分治法 + hash分组

哈希表
数据量不大的时候可以采用哈希表来操作。哈希表的增删查的时间复杂度

你可能感兴趣的:(C++程序设计)