路飞H

海量数据去重的Hash、bitmap、BloomFilter、分布式一致性hash

文章目录

- 总体知识脉络
- 背景
- 需求
- 平衡二叉树
- 散列表hashtable
- - hash函数
  - 选择hash
  - 负载因子
  - 冲突处理
  - Stl中unordered_*散列表实现
  - 关于hashtable中桶的数量相关的说明
  - 散列表总结
- bitmap
- 海量数据布隆过滤器
- - 介绍
  - 原理
  - 布隆过滤器应用分析
  - - 变量关系
    - 确定n和p
    - 选择k个hash函数
  - 应用场景
  - 总结
  - 面试题
- 分布式一致性hash
- - 背景
  - 原理
  - 应用场景
  - 总结

总体知识脉络

背景

使用 word 文档时，word 如何判断某个单词是否拼写正确？
网络爬虫程序，怎么让它不去爬相同的 url 页面？
垃圾邮件过滤算法如何设计？
公安办案时，如何判断某嫌疑人是否在网逃名单中？
缓存穿透问题如何解决？

需求

从海量数据中查询某字符串是否存在

平衡二叉树

不论是AVL还是红黑树，在“海量数据”数据面前都是不合适的，因为红黑树会将key，即数据存储起来，而海量的数据会导致内存不足。并且设计到字符串比较，效率也是很慢的。所以在这个需求下，用树相关的数据结构是不合适的。

扩展：

c++标准库（STL）中的set和map结构都是采⽤红⿊树实现的，它增删改查的时间复杂度是O(log2N)。set和map的关键区别是set不存储val字段。
优点：存储效率⾼，访问速度⾼效
缺点：对于数据量⼤且查询字符串⽐较⻓且查询字符串相似时将会是噩梦

散列表hashtable

散列表构成：数组+hash函数。它是将字符串通过hash函数⽣成⼀个整数再映射到数组当中(所以散列表不需要”比较字符串“，而红黑树需要)，它增删改查的时间复杂度是o(1)。

注意：散列表的节点中 kv 是存储在一起的

struct node {
	void *key;
	void *val;
	struct node *next;
};

扩展：

c++标准库（STL）中的unordered_map是采⽤hashtable实现的
hashtable中节点存储了key和val，hashtable并没有要求key的⼤⼩顺序，我们同样可以修改代码让插⼊存在的数据变成修改操作
优点：访问速度更快；不需要进⾏字符串⽐较
缺点：需要引⼊策略避免冲突，存储效率不⾼；空间换时间

hash函数

hash函数：映射函数 Hash(key)=addr ；hash 函数可能会把两个或两个以上的不同 key 映射到同一地址，这种情况称之为冲突（或者hash 碰撞）；
hash函数的作用：避免插⼊的时候字符串的⽐较，hash函数计算出来的值通过对数组⻓度的取模能随机分布在数组当中。

选择hash

如何选取hash函数？

选取计算速度快
强随机分布(等概率、均匀地分布在整个地址空间）
murmurhash1，murmurhash2，murmurhash3，siphash（redis6.0当中使⽤，rust等大多数语言选用的hash算法来实现hashmap），cityhash 都具备强随机分布性。siphash 主要解决字符串接近的强随机分布性,所以如果要hash字符串的话，优先选用siphash。

负载因子

用来形容散列表的存储密度。数组存储元素的个数 / 数据长度；负载因子越小，冲突越小，负载因子越大，冲突越大。

冲突处理

拉链法
引用链表来处理哈希冲突，也就是将冲突元素用链表链接起来，这也是常用的处理冲突的⽅式。但是可能出现一种极端情况，冲突元素比较多，该冲突链表过长，这个时候可以将这个链表转换为红黑树。由原来链表时间复杂度转换为红黑树时间复杂度，那么判断该链表过长的依据是多少？可以采⽤超过 256（经验值）个节点的时候将链表结构转换为红黑树结构。
开放地址法
将所有的元素都存放在哈希表的数组中，不使用额外的数据结构；一般使用线性探查的思路解决,具体步骤如下：
1. 当插⼊新元素的时，使⽤哈希函数在哈希表中定位元素位置
2. 检查数组中该槽位索引是否存在元素。如果该槽位为空，则插⼊，否则3
3. 在 2 检测的槽位索引上加⼀定步⻓接着检查2
加⼀定步⻓分为以下几种:
1. i+1,i+2,i+3,i+4, … ,i+n
2.
这两种都会导致同类hash聚集，也就是近似值它的hash值也近似。那么它的数组槽位也靠近，形成hash聚集。第⼀种同类聚集冲突在前，第⼆种只是将聚集冲突延后。
3. 可以使⽤双重哈希来解决上⾯出现hash聚集现象

在.net HashTable类的hash函数Hk定义如下：
Hk(key) = [GetHash(key) + k * (1 + (((GetHash(key) >> 5) + 1) % (hashsize – 1)))] % hashsize
在此 (1 + (((GetHash(key) >> 5) + 1) % (hashsize – 1))) 与 hashsize 互为素数（两数互为素数表示两者没有共同的质因⼦）
执⾏了 hashsize 次探查后，哈希表中的每⼀个位置都有且只有⼀次被访问到，也就是说，对于给定的 key，对哈希表中的同⼀位置不会同时使⽤ Hi 和 Hj；
具体原理：https://www.cnblogs.com/organic/p/6283476.html

Stl中unordered_*散列表实现

在 STL 中 unordered_map 、 unordered_set 、unordered_multimap 、 unordered_multiset 四兄弟底层实现都是散列表；

说明：因为STL中需要实现迭代器的原因，所以散列表中所有元素通过链表连在了一起。

关于hashtable中桶的数量相关的说明

hashtable中桶的个数最好为质数，并且在此基础上最好为奇数，这样能够保证数据能够更均匀的分布键到桶中,具体原因可以参考链接：hashtable中桶的数量为什么最好选质数

散列表总结

bitmap

先来介绍一下bitmap,下面再引出布隆过滤器。现在有一个需求：文件中有40亿个QQ号码，请设计算法对QQ号码去重，相同的QQ号码仅保留一个，内存限制1G。

如果先排序再去重，时间复杂度太高
如果用hashmap天然去重，空间复杂度太高
文件切割避免内存过大，太麻烦，效率不高
使用bitmap，可以顺利地同时解决时间问题和空间问题

一个unsigned int类型，共有32位，可以标识0 ~ 31这32个整数的存在与否。两个unsigned int类型，共有64位，可以标识0 ~ 63这64个整数的存在与否。

那么如果我们把整个整数范围都覆盖了，这样一来1代表第一个位，2代表第二个位，2的32次方代表最后一个位。40亿个数中，存在的数就在相应的位置1，其他位就是0。比如来了一个1234，就找一下第1234位，如果是1就存在，是0就不存在。

所以我们只要有足够的”位“，就可以判断0~4亿这4亿个整数是否存在了。2的32次是4,294,967,296。也就是说我们要有4,294,967,296个位。

4,294,967,296个位=2的32次方个位=2的29次方个字节=512MB。原来32位的整数,转化成了1位的布尔，所以数据空间就是原来的32分之一。

可以看到，使用bitmap不但自动去重，甚至这个需求我们还排了序，从小到大遍历正整数，当bitmap位的值为1时，就输出该值，输出后的正整数序列就是排序后的结果。

海量数据布隆过滤器

红⿊树和hashtable都不能解决海量数据问题，它们都需要存储具体字符串，如果数据量⼤，提供不了⼏百G的内存；所以需要尝试探寻不存储key的⽅案，并且拥有hashtable的优点（不需要⽐较字符串）。而布隆过滤器就刚好满足这一需求，它不需要存储具体字符串，也不需要比较。时间和空间复杂度都低。

介绍

布隆过滤器是一种概率型数据结构，它的特点是高效地插入和
查询，能确定某个字符串一定不存在或者可能存在；
优缺点：布隆过滤器相⽐传统的查询结构（例如：hash，set，map等数据结构）更加⾼效，占⽤空间更⼩，但是确定是它返回的结果是概率性的，结果存在一定的误差，误差可控，同时不支持删除操作
构成：位图（bit数组）+ n个hash函数。

原理

当一个元素加入位图时，通过 k 个 hash 函数将这个元素映射到位图的 k 个点，并把它们置为 1；
当检索时，再通过 k 个 hash函数运算检测位图的 k 个点是否都为 1；如果有不为 1 的点，那么认为该 key 不存在；如果全部为 1，则可能存在；

为什么不支持删除操作？
在位图中每个槽位只有两种状态（0 或者 1），一个槽位被设置为 1 状态，但不确定它被设置了多少次；也就是不知道被多少个 key 哈希映射而来以及是被具体哪个 hash 函数映射而来；

如果想实现删除操作，可以用两个布隆过滤器，将删除的元素，放入第二个布隆过滤器里面，然后查询的时候去第二个里面查，如果第二个里面能查到说明可能被删除（注意也是存在误差的）。

布隆过滤器应用分析

在实际应用中，该选择多少个 hash 函数？要分配多少空间的位图？预期存储多少元素？如何控制误差？

变量关系

n ---- 预期布隆过滤器中元素的个数，如上图只有str1和str2 两个元素那么 n=2
p ---- 假阳率，在0-1之间 0.000000
m ---- 位图所占空间
k ----- hash函数的个数

公式如下：
n = ceil(m / (-k / log(1 - exp(log(p) / k))))
p = pow(1 - exp(-k / (m / n)), k)
m = ceil((n * log(p)) / log(1 / pow(2, log(2))))
k = round((m / n) * log(2))

上面这几个变量关系如下所示：

这个图片可以看出，当hash函数到达31个时，假阳率会最低。

确定n和p

在实际使用布隆过滤器时，首先需要确定 n 和 p，通过上面的运算得出 m 和 k；通常可以在下面这个网站上选出合适的值

https://hur.st/bloomfilter/

现在假设n = 4000，p = 0.000000001。我们可以自己带入公式计算m和k，也可以带入网站计算得出变量值。

n = 4000
p = 0.000000001 (1 in 1000039473)
m = 172532 (21.06KiB)
k = 30

选择k个hash函数

我们发现上面计算出需要30个hash函数，难道我们要去找30个不同的hash函数来吗，显然不该这样。我们应该选择一个 hash 函数，通过给 hash 传递不同的种子偏移值，采用线性探寻的方式构造多个 hash函数。

// 采⽤⼀个hash函数，给hash传不同的种⼦偏移值
// #define MIX_UINT64(v) ((uint32_t)((v>>32)^(v)))
uint64_t hash1 = MurmurHash2_x64(key, len, Seed);
uint64_t hash2 = MurmurHash2_x64(key, len, MIX_UINT64(hash1));
// k 是hash函数的个数
for (i = 0; i < k; i++) {
   Pos[i] = (hash1 + i*hash2) % m; // m 是位图的⼤⼩
}
//通过这种⽅式来模拟 k 个hash函数 跟我们前⾯开放寻址法 双重hash是⼀样的思路

题外话，面试百度：hash 函数实现过程当中为什么会出现 i * 31?

i * 31 = i * (32-1) = i * (1<<5 -1) = i << 5 - i；
31 质数，hash 随机分布性很好

应用场景

常见的处理场景：① 缓存穿透的解决；② 热 key 限流；

总结

面试题

只用2GB内存在20亿个整数中找到次数最多的数

分布式一致性hash

背景

假设服务器只有一个缓存结点，当存储的数据越来越多时，效率就会变得很低，这时就需要增加结点分流分压
使用hash来控制节点分布：hash(key) % n，在扩容时出现算法改变：hash(key) % (n+1)，会造成大面积的缓存失效（即扩容后，通过新的hash算法得到的结点的存储位置和实际结点的存储位置不一致）问题

原理

1. 映射空间可抽象为一个环，长度为 2³²，范围为[0, 2³²-1]，每个服务器结点根据hash(node) % 2³²被映射到这个环上，其中node用ip:port方式来表示，比如用上图中的"192.168.1.100:6000"

2. 判断一条数据属于哪个服务器节点的方法：根据数据哈希值，去哈希环找到第一个机器哈希值大于等于数据哈希值的机器（假设约定按顺时针查找）。如果数据的哈希值大于当前最大的机器哈希值，那么就把这个数据放在位置最靠前（哈希值最小）的机器上

3. 由于实际机器结点往往较少，通过hash算法又具有随机性，容易导致哈希偏移问题（例如目前一共有3台机器，机器A、B的哈希值分别为1和2，而另一个机器C的哈希值为 2^32-1，那么大部分的数据都会被分给机器C）。

4. 因此引入了虚拟节点概念，虚拟节点相当于真实节点的分身，一个真实节点可以有很多个虚拟节点，当数据被分配给这些虚拟节点时，本质上是分给这个真实节点的。数量变多了，机器结点分布的随机性会有所提高，解决了数据结点存储分布不均的问题

5. 新增节点时：例如原本的节点哈希值列表为[1,500,1000,5000]，新增节点3000后，在1001~3000范围内的数据原本是分给哈希值为5000的机器节点的，现在要把这部分数据迁移到节点5000，称为哈希迁移，参考分布式一致性hash增加或者删除节点如何进行数据迁移

6. 删除节点：例如原本的节点哈希值列表为[1,500,1000,5000]，删除节点1000后，原本范围是501~1000的数据要迁移到节点5000

说明：

哈希偏移问题产生原因：
hash具有强随机分布性，说明它是一种概率型的算法，而概率的稳定性是跟样本数有关系的，样本数越多，概率才能稳定，因为实际机器节点往往较少（即样本数较少，会导致概率不稳定),所以很容易导致多台机器的hash值分布不均匀，甚至很可能造成有两个或多个机器的hash值非常接近。
如何解决哈希偏移问题？
可以通过增加虚拟结点的方式，比如原本实际节点为

[] = {
"192.168.1.100:6000",
"192.168.1.101:6001",
"192.168.1.102:6002",
"192.168.1.103:6003",
}

可以通过在端口号后面增加编号的方式：比如改成如下的方式（让每个实际节点虚拟出250个节点），然后对各个节点（包括实际节点和虚拟节点）进行hash%2^32操作，对于这种字符串比较接近的可以考虑siphash的方式对key进行hash的计算，从而让其均匀的分布在圆环上

[] = {
"192.168.1.100:6000:1",
....
"192.168.1.100:6000:250",


"192.168.1.101:6001:1",
....
"192.168.1.100:6001:250",


"192.168.1.102:6002:1",
...
"192.168.1.102:6002:250",


"192.168.1.103:6003:1",
...
"192.168.1.103:6003:250",
}

增加虚拟节点解决了什么问题？

解决hash偏移问题（节点增加会提高hash强随机分布中概率的稳定性（因为概率的稳定性是和样本数量息息相关的））
减少了hash迁移的数量（因为圆环上节点之间分布的很密集）当增加虚拟节点之后，如果后面出现扩容的情况，那么需要迁移的数据也会变少（数据迁移过程中，整个系统是不能提供服务的，直到数据迁移结束才行，所以迁移数量的减少会让系统不能提供服务的时间变短，系统的可用性就会变强）

怎么根据数据的key判断最终存储在哪个分布式存储服务器上？

首先需要有一个map结构（因为map是一个有序的结构）去存储虚拟节点的hash值以及虚拟节点的string(比如"192.168.1.103:6003:1")，所以这个map就应该是map这种类型，类似map这种结构，然后根据数据的key去找到刚好大于这个key的虚拟节点的迭代器（通过调用map.upper_bound(key)），然后根据迭代器的->second取出类似"192.168.1.103:6003:1"的虚拟节点，最后对"192.168.1.103:6003:1"去sub操作取出服务器的ip地址和端口号即可。

hash相关的固定套路

以后碰到大文件，马上要想到用hash拆成小文件

碰到单台机器处理不过来，马上要想到用hash分流到多台机器
为什么要使用hash？

对于大文件拆分成小文件这种来说，除了把相同的数据放到同一个位置，还有要想到利用hash的强随机分布性

应用场景

分布式缓存；将数据均衡地分散在不同的服务器当中，用来分摊缓存服务器的压力；
解决缓存服务器数量变化尽量不影响缓存失效；

总结

Linux开启命令审计功能记录用户的每一步操作自由鬼安全运维技术 IT应用探讨 linux 运维服务器
默认情况下，Linux不记录用户的每一步操作到系统级别的日志文件中。但是，Linux确实记录了一些与用户操作相关的信息，并且提供了多种方法来开启更详细的用户操作记录，以满足安全审计或故障排除的需求。一、Linux默认记录的信息：用户登录和退出信息：Linux会记录用户的登录(login)和退出(logout)事件。这些信息通常被记录在/var/log/wtmp和/var/log/btmp文件中。你
C++ 泛型编程四代目水门 C++学习笔记 c++开发语言
C++泛型编程一、泛型编程基础1.核心概念实现算法与数据结构的分离基于模板技术（函数模板/类模板）本质：类型参数化，减少重复代码典型应用：STL容器、迭代器、算法2.类型本质内存布局的抽象不同类型对应不同的内存分配策略二、函数模板1.基本语法cpptemplate//或template返回类型函数名(参数列表){//函数体}2.关键特性支持隐式推导和显式指定类型可重载（包括与普通函数重载）可声明为
【学习笔记5】Linux下cuda、cudnn、pytorch版本对应关系 longii11 linux pytorch 运维
一、cuda和cudnnNVIDIACUDAToolkit（CUDA）为创建高性能GPU加速应用程序提供了一个开发环境。借助CUDA工具包，您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署您的应用程序。该工具包包括GPU加速库、调试和优化工具、C/C++编译器以及用于部署应用程序的运行时库。全球的深度学习研究人员和框架开发人员都依赖cuDN
springboot整合rabbitMQ twx95 java-rabbitmq spring boot rabbitmq
安装rabbitMQ虚拟机或者服务器上安装我这里使用的是vm虚拟机做演示第一步：安装docker参考linux安装docker-CSDN博客第二步：拉取rabbitMQ镜像3-management（镜像版本）dockerpullrabbitmq:3-management查看镜像是否拉取成功dockerimages第三步：运行rabbitMQdockerrun\-eRABBITMQ_DEFAULT_
【Qt】Qt Widgets和QML（Qt Quick）开发界面的区别￡އއ昔年 qt 开发语言
Qt提供了两种主要的UI技术：QtWidgets和QML（QtQuick）。它们的核心区别主要体现在使用方式、架构、性能、开发难度和适用场景等方面。1.QtWidgetsvs.QML总体对比对比项QtWidgetsQML(QtQuick)语言C++(带QtUI库)QML+JavaScript(底层C++)渲染方式传统窗口系统控件（原生或模拟）基于OpenGL，使用GPU加速UI风格经典桌面UI（W
[数据结构] [C++ STL] vector使用详解高亚奇数据结构数据结构 c++开发语言
一、概述vector（向量）:是一种序列式容器，事实上和数组差不多，但它比数组更优越。一般来说数组不能动态拓展，因此在程序运行的时候不是浪费内存，就是造成越界。而vector正好弥补了这个缺陷，它的特征是相当于可分配拓展的数组（动态数组），它的随机访问快，在中间插入和删除慢，但在末端插入和删除快。二、定义及初始化使用之前必须加相应容器的头文件：#include//vector属于std命名域的，因
【python】软件更新：用conda或Poetry 无水先生 AI原理和python实现 python指南和应用人工智能综合 python conda 开发语言
一、说明在实现anancoda的软件更新问题，需要明确几个问题：1）是python包吗？2）是C++包吗？更新的方法有别。python包可以pip访问。C++包必须是conda访问。二、更新C++包的循环依赖问题如果在Windows10上的Ananconda3.7上安装和更新软件包。运行代码时:condaupdate--all或者condainstallpandas收到以下错误:RemoveErr
大数据面试系列之——Hadoop 潜心_守道大数据面经面试大数据 Hadoop
Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式：NameNode和DataNode安装于同一个节点，无法体现分布式处理的优势。3.完全分布式：一个主节点，多个从节点，存在如果主节点宕机，集群就无法使用的缺点。4.高可用模式：多个主节点，多个
拓展：核心对象成员访问操作符神里流~霜灭 c++c语言数据结构链表顺序表操作符
前言针对于核心对象成员访问操作符，这篇文章只简单介绍一下两者的区别以及优缺点，什么情况下使用操作符（->）、什么情况下使用操作符（.）。在C++中，操作符->（箭头操作符）和.（点操作符）是用于访问对象成员的核心操作符，但它们的使用场景和底层逻辑有明显区别。以下是详细分析：一、基本定义与区别操作符适用对象语法等价底层逻辑.对象实例（非指针）obj.member直接访问对象的成员->指向对象的指针p
大白话react第十五章React 应用性能优化深度实践 IT木昜大白话react react.js 前端前端框架
大白话react第十五章React应用性能优化深度实践1.React服务端渲染（SSR）的深入运用白话解释：之前咱们做的网页大多是在浏览器里把页面一点点搭建起来，这得花点时间。服务端渲染呢，就是让服务器提前把网页组装好，直接发给浏览器，这样页面打开的速度就快多啦，用户体验也更好。代码示例：用Next.js这个框架来做服务端渲染。Next.js是基于React的，能很方便地实现服务端渲染。//pag
大型项目，选择conda还是Poetry要点分析 Hello kele conda Python Poetry AI编程人工智能
在大型项目中选择conda还是Poetry，取决于项目的具体需求，以下从多个维度进行分析，助你判断哪个更合适：包管理方面支持的包类型conda：作为跨语言的包管理系统，不仅能管理Python包，还能处理其他语言（如C、C++、R等）的包和依赖。对于大型项目，尤其是涉及多语言协同开发的项目，比如数据科学项目中可能会用到Python进行数据分析，同时依赖底层用C语言编写的高性能计算库，conda可以很
数据结构拓展：详解realloc(C++) 神里流~霜灭数据结构 c++c语言数据结构顺序表链表线性表
前言在C++中，realloc是C标准库提供的一个内存管理函数，用于动态调整已分配内存块的大小。尽管C++更推荐使用new/delete或智能指针，但在某些场景（如与C代码交互或底层内存操作）中仍可能用到realloc。以下是详细分析：一、realloc的核心行为void*realloc(void*ptr,size_tnew_size);功能：调整ptr指向的内存块大小（原内存块由malloc/c
Linux服务器配合Frp实现内网穿透使用windows远程桌面 sangAsang Linux linux
前言：我们在公司时，可以根据内网进行远程桌面连接，但由于公司网络一般都是分配内网ip，当我们在家的时候，想进行连接公司电脑，一般会使用1.teamviewer2.向日葵，但是teamviewer用一段时间会提示商业用途无法使用，向日葵因免费版限制网速使用较差，如果有一台不错的国内服务器，可以试试Frpfrp是什么frp是一个可用于内网穿透的高性能的反向代理应用，支持tcp,udp协议，为http和
linux 设置tomcat开机启动 m0_74824002 面试学习路线阿里巴巴 linux tomcat 运维
在Linux系统中，要配置Tomcat开机自启动，可以创建一个名为tomcat.service的systemd服务文件，并将其放置在/etc/systemd/system/目录下。以下是一个基本的服务文件示例，假设Tomcat安装在/usr/local/tomcat路径下：1创建服务文件：sudonano/etc/systemd/system/tomcat.service添加以下内容到文件中：[U
【2024年华为OD机试】 (C卷,100分)- 分配土地（JavaScript&Java & Python&C/C++）妄北y 算法汇集笔记总结(保姆级)华为od c语言 javascript python java
一、问题描述题目描述从前有个村庄，村民们喜欢在各种田地上插上小旗子，旗子上标识了各种不同的数字。某天，集体村民决定将覆盖相同数字的最小矩阵形的土地分配给村里做出巨大贡献的村民。请问此次分配土地，做出贡献的村民最大会分配多大面积？输入描述第一行输入m和n：m代表村子的土地的长。n代表土地的宽。第二行开始输入地图上的具体标识：旗子上的数字为1~500，未插旗子的土地用0标识。输出描述输出此次分配土地，
云服务器ecs购买须知产幻少年服务器阿里云
购买云服务器没有公网ip，基本等于没用，不能挂网站，不能ssh连接，只能通过云服务商提供的控制台访问云服务器，只能访问云服务商的内网。云服务器不一定自带公网ip，购买时可选公网ip，但是要额外付费。如果没有公网ip，ecs配置那会是2核2GiB0Mbps。可以购买弹性公网ip（eip）来使ecs联网。如果以按量付费方式购买eip，需要支付3个费用：流量费、配置费(eip保有费)、绑定费。若eip未
网络编程-day5-sqlite3数据库 Ryan_Gosling 数据库网络 sqlite
思维导图服务器#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#includetypedefstructsock
前端本地储存的方式汇总懒羊羊我小弟前端框架 javascript js 浏览器 web app 小程序
JavaScript本地存储是Web开发中用于在客户端存储数据的重要技术，以下是常见方式及其区别和应用场景：一、WEB浏览器本地存储方式及特点1.1储存方式1.Cookie存储容量：约4KB（每个域名）。生命周期：可设置过期时间；默认随会话结束失效。作用域：同源页面共享。访问方式：通过document.cookie读写，每次HTTP请求自动携带。特点：支持服务器端操作（通过HTTP头），但存储效率
【Linux】FRP：内网穿透 T0uken linux 运维服务器
FRP（FastReverseProxy）是一种高性能的反向代理应用，主要用于穿透内网和实现端口映射。它允许你将局域网中的服务暴露到公网，从而能够在公网中访问这些服务。FRP主要由两部分组成:FRPC客户端：运行在公司内网机器上，接收来自公网的访问请求，并将请求转发给内网服务。FRPS服务端：部署在具有公网IP的机器上，暴露服务的公网入口，接收公网访问请求，通过加密隧道转发到FRPC。服务端（fr
二叉树三种遍历方式——前序、中序、后序（C++）六七_Shmily #C++数据结构与算法分析 c++算法开发语言
以下是使用C++实现的二叉树前序、中序和后序遍历的递归方法示例：#includeusingnamespacestd;//二叉树节点结构体structTreeNode{intval;TreeNode*left;TreeNode*right;TreeNode(intx):val(x),left(nullptr),right(nullptr){}};//前序遍历voidpreOrder(TreeNode
【Py/Java/C++/C/JS/Go六种语言OD独家2024E卷真题】20天拿下华为OD笔试之【模拟】2024E-最大相连男生数【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #模拟 #状态压缩算法 java c++c语言华为od javascript python
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例输入输出解题思路代码代码一：分类写法pythonjavacppCNodejavaScriptGo代码二：合并写法pythonjavacppCNodejavaScriptGo*代码三：状态压缩写法pythonjavacppCNod
【Py/Java/C++/JS/Go五种语言【OD独家2024E卷真题】20天拿下华为OD笔试之【哈希表】2024E-猜字谜【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #哈希表 java c++华为od python 算法 leetcode
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述备注示例一输入输出示例二输入输出解题思路谜面和谜底如何匹配暴力匹配所有谜底谜底库哈希表的构建代码解法一：哈希表预处理谜底pythonjavacppNodejavaScriptgo时空复杂度解法二：暴力匹配解（会超时）pythonja
【Py/Java/C++三种语言OD独家2024E卷真题】20天拿下华为OD笔试之【排序】2024E-VLAN资源池【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法 #模拟最新华为OD真题 java c++华为od leetcode 算法 python
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳od1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例一输入输出说明示例二输入输出说明示例三输入输出说明解题思路用二元组表示区间删除某一元素后区间的变化将二元组形式转换回原形式代码pythonjavacpp时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD
【Py/Java/C++三种语言OD独家2024E卷真题】20天拿下华为OD笔试之【模拟】2024E-靠谱的车【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #模拟 #数学 java c++华为od 算法 python leetcode
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳od1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例一输入输出示例二输入输出示例三输入输出解题思路从A进制到九进制从九进制到十进制代码pythonjavacpp时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD机考】2024D+E卷最全真题【完全原创题解
【Py/Java/C++三种语言OD独家2024D卷真题】20天拿下华为OD笔试之【模拟】2024D-学生重新排队【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #模拟 #蒙特卡洛 java c++华为od leetcode 算法 python
有LeetCode算法/华为OD考试扣扣交流群可加948025485可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳od1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录题目描述与示例题目描述输入描述输出描述备注示例一输入输出说明示例二输入输出说明解题思路数组预处理检查某个组是否已经排好队检查所有组是否已经排好队蒙特卡洛模拟框架单次蒙特卡洛模拟整体思路编号挑选优化组号区间优化单次蒙
【Py/Java/C++三种语言OD独家2024D卷真题】20天拿下华为OD笔试之【前缀和/固定滑窗】2024D-查找接口成功率最优时间段【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #前缀和 #滑动窗口算法 java c++华为od leetcode python
有LeetCode算法/华为OD考试扣扣交流群可加948025485可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳od1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录题目描述与示例题目描述输入描述输出描述示例一输入输出说明示例二输入输出说明解题思路贪心思想将除法转换为乘法固定滑窗前缀和代码解法一：前缀和pythonjavacpp解法二：固定滑窗pythonjavacpp时空复杂
【Py/Java/C++三种语言OD独家2024D卷真题】20天拿下华为OD笔试之【贪心】2024D-有效子字符串【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #贪心 #双指针 java c++华为od 算法 python 贪心贪心算法
有LeetCode算法/华为OD考试扣扣交流群可加948025485可上全网独家的欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳od1336了解算法冲刺训练文章目录题目描述与示例题目输入输出描述示例一输入输出示例二输入输出解题思路代码pythonjavacpp时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练从2024年4月15号开始，OD机考全部配置为2024D卷。注意两个关键点：会遇到C
Linux | 学习笔记 Fomalhaut α PsA Linux知识库
Linux|学习笔记用户管理用户和组管理#查看用户身份[admin@CentOS8~]$idadminuid=1000(admin)gid=1000(admin)组=1000(admin),10(wheel)#切换用户,省略username则切换为root[admin@CentOS8~]$su-username#从命令行创建用户[admin@CentOS8~]$sudouseradduser01#
Installing Anaconda on Raspberry Pi 4 with Ubuntu 20.04 pertain99 Ubuntu Linux
RaspberryPi4runson32-bit.Usethe32-bitversionsandyoushouldbeokay!I’verecentlyinstalledminicondaonmyRaspberryPi4.Ididitusingthefollowingcommands:#Updatelinuxsudoaptupdate-y#Installpython3sudoaptinstall-
Conda 环境搭建实战：从基础到进阶嘉图明 conda neo4j
在当今复杂多变的软件开发与数据科学领域，拥有一个稳定、可复现且易于管理的开发环境是项目成功的基石。Conda作为一款强大的跨平台环境管理与包管理工具，为开发者提供了便捷高效的环境搭建与依赖管理解决方案。本文将深入探讨Conda环境搭建的实战技巧，从基础概念到高级应用，助力开发者打造理想的开发环境。Conda基础概念解析什么是CondaConda最初是为Python语言开发的包和环境管理系统，但如今
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

海量数据去重的Hash、bitmap、BloomFilter、分布式一致性hash

文章目录

总体知识脉络

背景

需求

平衡二叉树

散列表hashtable

hash函数

选择hash

负载因子

冲突处理

Stl中unordered_*散列表实现

关于hashtable中桶的数量相关的说明

散列表总结

bitmap

海量数据布隆过滤器

介绍

原理

布隆过滤器应用分析

变量关系

确定n和p

选择k个hash函数

应用场景

总结

面试题

分布式一致性hash

背景

原理

应用场景

总结

你可能感兴趣的:(精进基石,哈希算法,分布式,c++,服务器,linux)