TB级别海量数据查找算法

基于布隆过滤器查找

https://www.jianshu.com/p/2104d11ee0a2
实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。

  • 原理
    当一个元素加入集合中时,通过K个散列函数将这个元素映射为一个位组数中的K个点,把他们置为1,检索时,只要查看这些点是不是都是1就大约知道集合中有没有它了:如果这些点有任何一个是0,则被检测元素一定不再元素中,如果都是1,则被检测元素很可能在,这就是布隆过滤器的基本思想。
  • 应用:搜索引擎中的URL过滤

倒排索引查找

在信息检索中,可以根据文件生成的倒排索引,当用户检索“数据算法”时,会将词语对应的文件集合取出,并且会根据相关性对文件进行排序处理,得到最终检索后的结果。
在数据量较大时,会将海量数据进行分布式索引,分布式哈希表和分布式倒排索引则是较好的处理方式,但从检索的综合评价角度,分布式索引更为合适。

你可能感兴趣的:(TB级别海量数据查找算法)