zhuiqiuuuu

海量数据判重——布隆过滤器（Bloom filter）与Bitmap对比

布隆过滤器

关于布隆过滤器（Bloom filter）的介绍部分，大多翻译自Wikipedia
简介

布隆过滤器（Bloom filter）是一个高空间利用率的概率性数据结构，由Burton Bloom于1970年提出。被用于测试一个元素是否在集合中（由于集合无重复元素的性质，可用来判重）。

可在数据量大到传统无错误散列（hash）方法需要使用的内存量是不可满足时使用，传统无错散列方法可以消除所有无用的磁盘访问，同时需要使用的内存量也非常大，而布隆过滤器在有限的内存使用量下依旧可以排除大部分无用的磁盘访问。

特性

存在假阳性（将不在集合中的元素误判为在集合中），不存在假阴性（将在集合中的元素误判为不在集合中）。过滤器中的元素个数越多，假阳性的可能性越大，总的来说，当不考虑集合中元素个数的情况下，每个元素由10个以下的bit来表示就可以保证1%以内的假阳性概率。

元素可以被加入过滤器，但不可从过滤器中删除（因为删除的时候有可能会影响到其他元素，之后会细说）。

空间和时间优势

布隆过滤器不需要存储数据项，但是同时它需要在其他地方单独存储真正的数据项。对于一个拥有最优k值且误判率在1%的布隆过滤器，每个元素只需要9.6bits（与元素的大小无关）。这个优点一部分继承自数组的紧凑性，另一方面由它本身的概率性决定。若给每个元素增加4.8bits左右，误判率将会减少十倍。

布隆过滤器在添加和查找元素时，所需要的时间时一个常数，O(k)，完全与集合中元素个数无关。没有其他固定空间的集合数据结构有这样的效率，但是对于稀疏散列表来说，平均访问时长在实际使用中比一些布隆过滤器要短。在硬件实现方式中，布隆过滤器的优势在于他的k个查询之间不相关，因此可以并行处理。

算法描述

一个空的布隆过滤器是一串被置为0的bit数组（假设由m位）。同时，应该声明k个不同的散列函数生成一个统一随机分布，每一个散列函数都将元素映射到m个bit中的一个（k是一个小于m的常数，与加入过滤器中的元素个数成比例）。k与相应的m的选择由误判率决定。

向过滤器中添加元素时，通过k个散列函数得到该元素对应的k个位置，并将这些位置置为1.

查询某个元素/测试是否与已有元素重复时，依旧通过k个散列函数得到对应的k个位置，判断这些位置是否为1（若全为1则在集合内/重复）

可以看如下图所示的一个例子，其中，{x,y,z}为集合，w为进行比对的元素，m=18，k=3，不同颜色的箭头表示散列映射关系。可以看出，w并不在{x,y,z}这个集合中。

注意

①、当k比较大时，设计k个不同且无相关的散列函数是不现实的。对于一些输出的位数较多的优秀的散列函数（优秀指不同bit区间之间联系很小），我们可以将其切割成多个bit区域来代替多个散列函数。或者我们可以传递k个不同的值（例如：0，1，2，…，k-1）到一个散列函数中对其进行初始化；或者将这k个值整合到待计算元素中，再进行计算。对于较大的m,k,无相关性的散列函数可以使误判率的增加量减少。
②、从过滤器中删除元素是不可能的，因为有可能删除的当前元素与其他元素共享了某一个bit。当置该bit为0时，就会产生假阴性，这是绝对不允许的。
③、想要保持误判率低，过滤器的空间使用率（bit数组中置为1的概率）应为50%左右

Bitmap

Bitmap在海量无重复整数排序时的应用

bitmap就是用一个bit位来标记某个元素对应的value的存在，而key即是这个元素。由于采用bit为单位来存储数据，因此在可以大大的节省空间开销

这里的海量数据以整数为例，整数为4字节，也就是32bit，假设数据量N（N为最大值）=100000000，由于bitmap是用一个bit来标识元素的存在，那么我们只需⌈N/8⌉个字节就可以把数据表示出来也就是12500000字节，约为13MB，比原先的N*8的存储方式少到不知道哪里去了。

对于bitmap中存储的数据进行排序：其实在存储的过程中已经完成了排序

正文
（为了方便，下文将存储bitmap的整数成为bitmap整数）
海量数据的存储
假设该数字为num，则它所对应的bit索引为：第 ⌊num/32⌋ 个bitmap整数中的第 num%32 位

排序
通过每个数字的映射，我们可以得到所需要的bitmap整数个数，我们只需对每个bitmap整数的每一位遍历，当某位为1时，就证明该位所对应的整数存在与原始数据中(其实在存储的过程中，我们通过不断插入数字标识，已经完成了排序)，当我们从最低位向最高位遍历时，通过整数与bit索引的逆过程就可以的到原整数，将其一个个输出，我们就能得到原始数据的从小到大排序后的结果，具体实现可以看伪代码

//排序及还原伪代码
//max为bitmap整数个数
for(int i=0;i for(int j=0;j<32;j++){
if(1&bitmap[i]>>j){
print i*32+j;
}
}
}

注意
① 限于每位只有0，1两个状态，我们无法对有重复数字的海量整数如此排序
② 此种方法适用于数字之间差值比较小的情况（无限趋近于连续数据），若数字之间差值比较大（举个极端的例子：每个bitmap整数中只有一个位为1，其余全为0的情况）时，博主暂时没有想到可行解法……

这里我不再赘述Bitmap的用法以及其他信息了，大家可以参考我的另一篇博文：
Bitmap在海量无重复整数排序时的应用

对比

可能有人会想，Bitmap在处理海量数据时，有着得天独厚的优势，占用内存非常小（每一个数据只占1个bit），即使在处理url、邮件地址等其他类型的数据时，要把字符串变换为整数，也有各式各样的方法。那么我们为什么不用Bitmap来判重而要用布隆过滤器呢？

首先，我们来看，Bitmap的存储空间计算方式是：找到所有元素里面最大的（假设为N），Bitmap所需空间S为：

当N为64位整数时，最大的N为2^64，此时S为 2^61 Byte，也就是 2^41 MB，可以说是一个天文数字了……Bitmap的长处非常令人愉悦：空间不随集合内元素个数的增加而增加。但是不足之处也同样明显：空间随集合内最大元素的增大而增大。

比如：在爬虫避免重复下载处理时，若网站数量很多的情况下，用一个64位，甚至是128位的整数来标识URL是家常便饭。此时如果使用bitmap的话，无疑是不明智的。而选择布隆过滤器，由于其可能一个bit为多个元素做标识，这就保证了它的空间利用率。

题目

5TB的硬盘上放满了数据，请写一个算法将这些数据进行排重。如果这些数据是一些32bit大小的数据该如何解决？如果是64bit的呢？

在面试时遇到的问题，问题的解决方案十分典型，但对于海量数据处理接触少的同学可能一时也想不到什么好方案。介绍两个算法，对于空间的利用到达了一种极致，那就是Bitmap和布隆过滤器(Bloom Filter)。

Bitmap算法
在网上并没有找到Bitmap算法的中文翻译，在《编程珠玑》中有提及。与其说是算法，不如说是一种紧凑的数据存储结构。其实如果并非如此大量的数据，有很多排重方案可以使用，典型的就是哈希表。

public int[] removeDuplicates(int[] array) {
int index = 0;
Map maps = new LinkedHashMap();
for(int num : array) {
if(!maps.contains(num)) {
array[index] = num;
index++;
maps.put(num, true);
}
}

return newArray;
}

实际上，哈希表实际上为每一个可能出现的数字提供了一个一一映射的关系，每个元素都相当于有了自己的独享的一份空间，这个映射由散列函数来提供（这里我们先不考虑碰撞）。实际上哈希表甚至还能记录每个元素出现的次数，这样的数据结构完成这个任务有点“大材小用”了。

我们拆解一下我们的需求：

集合中每个元素（示例中是int）有一个独享的空间
找到一个到这个空间的映射方法
这个空间要多大？对于我们的问题来说，一个boolean就够了，或者说，1个bit就够了，我们只想知道某个元素出现过没有。如果为每个所有可能的值分配1个bit，32bit的int所有可能取值需要内存空间为：

232bit=229Byte=512MB
232bit=229Byte=512MB
那怎么样完成这个映射呢？其实就是Bitmap所要完成的工作了。如果我们把整型0x01、0x02、…、0x08的空间依次映射到一个Byte上，每个bit就代表这个int值是否出现过，初值为0（false）。

若扩展到整个int取值域，申请一个byte[]即可，示例代码如下：

public static final int _1MB = 1024 * 1024;
//每个byte记录8bit信息,也就是8个数是否存在于数组中
public static byte[] flags = new byte[ 512 * _1MB ];

public static void main(String[] args) {
//待判重数据
int[] array = {255, 1024, 0, 65536, 255};

int index = 0;
for(int num : array) {
if(!getFlags(num)) {
//未出现的元素
array[index] = num;
index = index + 1;
//设置标志位
setFlags(num);
System.out.println("set " + num);
} else {
System.out.println(num + " already exist");
}
}
}

public static void setFlags(int num) {
//使用每个数的低三位作为byte内的映射
//例如: 255 = 0x11111111
//低三位(也就是num & (0x07))为0x111 = 7, 则byte的第7位为1, 表示255已存在
flags[num >> 3] |= 0x01 << (num & (0x07));
}

public static boolean getFlags(int num) {
return (flags[num >> 3] >> (num & (0x07)) & 0x01) == 0x01;
}

其实，就是按int从小到大的顺序依次摆放到byte[]中，仅涉及到一些除以2的整次幂和对2的整次幂取余的位操作小技巧。很显然，对于小数据量、数据取值很稀疏，上面的方法并没有什么优势，但对于海量的、取值分布很均匀的集合进行去重，Bitmap极大地压缩了所需要的内存空间。于此同时，还额外地完成了对原始数组的排序工作。缺点是，Bitmap对于每个元素只能记录1bit信息，如果还想完成额外的功能，恐怕只能靠牺牲更多的空间、时间来完成了。

布隆过滤器（Bloom Filter）
然而Bitmap不是万能的，如果数据量大到一定程度，如开头写的64bit类型的数据，还能不能用Bitmap？我们来算一算：

264bit=261Byte=2048PB=2EB
264bit=261Byte=2048PB=2EB
EB（Exabyte，艾字节）这个计算机科学中统计数据量的单位有多大，有兴趣的小伙伴可以查阅下资料。这个量级的Bitmap，已经不是人类硬件所能承担的了。我相信谁也不会想用集群去计算这么一个问题吧？所以Bitmap的好处在于空间复杂度不随原始集合内元素的个数增加而增加，而它的坏处也源于这一点——空间复杂度随集合内最大元素增大而线性增大。

所以接下来，我们要引入另一个著名的工业实现——布隆过滤器（Bloom Filter）。如果说Bitmap对于每一个可能的整型值，通过直接寻址的方式进行映射，相当于使用了一个哈希函数，那布隆过滤器就是引入了k(k>1)k(k>1)个相互独立的哈希函数，保证在给定的空间、误判率下，完成元素判重的过程。下图中是k=3k=3时的布隆过滤器。

x,y,zx,y,z经由哈希函数映射将各自在Bitmap中的3个位置置为1，当ww出现时，仅当3个标志位都为1时，才表示ww在集合中。图中所示的情况，布隆过滤器将判定ww不在集合中。

那么布隆过滤器的误差有多少？我们假设所有哈希函数散列足够均匀，散列后落到Bitmap每个位置的概率均等。Bitmap的大小为mm、原始数集大小为nn、哈希函数个数为kk：

1个散列函数时，接收一个元素时Bitmap中某一位置为0的概率为：
1−1m
1−1m
kk个相互独立的散列函数，接收一个元素时Bitmap中某一位置为0的概率为：
(1−1m)k
(1−1m)k
假设原始集合中，所有元素都不相等（最严格的情况），将所有元素都输入布隆过滤器，此时某一位置仍为0的概率为：
(1−1m)nk
(1−1m)nk

某一位置为1的概率为：
1−(1−1m)nk
1−(1−1m)nk
当我们对某个元素进行判重时，误判即这个元素对应的kk个标志位不全为1，但所有kk个标志位都被置为1，误判率εε约为：
ε≈[1−(1−1m)nk]k
ε≈[1−(1−1m)nk]k

这个误判率应当比实际值大，因为将判断正确的情况也算进去了。根据著名极限limn→∞(1+1n)n=elimn→∞(1+1n)n=e可以得到：
ε≈[1−e−nkm]k
ε≈[1−e−nkm]k

εε得到最优解1，当且仅当：
k=mnln2≈0.7mn
k=mnln⁡2≈0.7mn

此时，误判率εε与数集大小和
ε≈(1−e−ln2)ln2mn=0.5ln2mn=0.5k
ε≈(1−e−ln⁡2)ln2mn=0.5ln2mn=0.5k
回到我们的问题中，有趣的是由于硬盘空间是限制死的，集合元素个数nn的大小反而与单个数据的比特数成反比，数据长度为64bit时，

n=5TB64bit=5×240Byte8Byte≈234
n=5TB64bit=5×240Byte8Byte≈234
若以m=16nm=16n计算，Bitmap集合的大小为238bit=235Byte=32GB238bit=235Byte=32GB，此时的ε≈0.0005ε≈0.0005。并且要知道，以上计算的都是误差的上限。

布隆过滤器通过引入一定错误率，使得海量数据判重在可以接受的内存代价中得以实现。从上面的公式可以看出，随着集合中的元素不断输入过滤器中(nn增大)，误差将越来越大。但是，当Bitmap的大小mm（指bit数）足够大时，比如比所有可能出现的不重复元素个数还要大10倍以上时，错误概率是可以接受的。

最后我们所要做的，就是实现一个布隆过滤器，然后利用它对硬盘上的5TB数据一一判重，并写回硬盘中。这其中可能涉及到利用读写的buffer，待有时间补上。

附录
这里有一个google实现的布隆过滤器，我们来看看它的误判率：

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
import java.util.HashSet;
import java.util.Random;

public class testBloomFilter {

static int sizeOfNumberSet = Integer.MAX_VALUE >> 4;

static Random generator = new Random();

public static void main(String[] args) {

int error = 0;
HashSet hashSet = new HashSet();
BloomFilter filter = BloomFilter.create(Funnels.integerFunnel(), sizeOfNumberSet);

for(int i = 0; i < sizeOfNumberSet; i++) {
int number = generator.nextInt();
if(filter.mightContain(number) != hashSet.contains(number)) {
error++;
}
filter.put(number);
hashSet.add(number);
}

System.out.println("Error count: " + error + ", error rate = " + String.format("%f", (float)error/(float)sizeOfNumberSet));
}
}

在这个实现中，Bitmap的集合mm、输入的原始数集合nn、哈希函数kk的取值都是按照上面最优的方案选取的，默认情况下保证误判率ε=0.5k<0.03≈0.55ε=0.5k<0.03≈0.55，因而此时k=5k=5。

/**
* Creates a {@link BloomFilter BloomFilter} with the expected number of
* insertions and a default expected false positive probability of 3%.
*/
public static BloomFilter create(Funnel funnel, int expectedInsertions /* n */) {
return create(funnel, expectedInsertions, 0.03); // FYI, for 3%, we always get 5 hash functions
}

而还有一个很有趣的地方是，实际使用的却并不是5个哈希函数。实际进行映射时，而是分别使用了一个64bit哈希函数的高、低32bit进行循环移位。注释中包含着这个算法的论文“Less Hashing, Same Performance: Building a Better Bloom Filter”，论文中指明其对过滤器性能没有明显影响。很明显这个实现对于m>232m>232时的支持并不好，因为当大于231−1231−1的下标在算法中并不能被映射到。

enum BloomFilterStrategies implements BloomFilter.Strategy {
/**
* See "Less Hashing, Same Performance: Building a Better Bloom Filter" by Adam Kirsch and
* Michael Mitzenmacher. The paper argues that this trick doesn't significantly deteriorate the
* performance of a Bloom filter (yet only needs two 32bit hash functions).
*/
MURMUR128_MITZ_32() {
@Override public boolean put(T object, Funnel funnel,
int numHashFunctions, BitArray bits) {
long hash64 = Hashing.murmur3_128().hashObject(object, funnel).asLong();
int hash1 = (int) hash64;
int hash2 = (int) (hash64 >>> 32);
boolean bitsChanged = false;
for (int i = 1; i <= numHashFunctions; i++) {
int nextHash = hash1 + i * hash2;
if (nextHash < 0) {
nextHash = ~nextHash;
}
bitsChanged |= bits.set(nextHash % bits.bitSize());
}
return bitsChanged;
}

@Override public boolean mightContain(T object, Funnel funnel,
int numHashFunctions, BitArray bits) {
long hash64 = Hashing.murmur3_128().hashObject(object, funnel).asLong();
int hash1 = (int) hash64;
int hash2 = (int) (hash64 >>> 32);
for (int i = 1; i <= numHashFunctions; i++) {
int nextHash = hash1 + i * hash2;
if (nextHash < 0) {
nextHash = ~nextHash;
}
if (!bits.get(nextHash % bits.bitSize())) {
return false;
}
}
return true;
}
};
...
}

微服务架构的核心思想是什么？破碎的天堂鸟学习教程架构微服务云计算
微服务架构的核心思想是将一个大型、复杂的单体应用拆分成多个小型、独立且自治的服务，每个服务专注于单一的业务功能，通过轻量级通信机制（如HTTP/REST、gRPC等）进行交互。这种架构方式旨在提高系统的灵活性、可扩展性和可维护性，同时降低复杂性，适应快速变化的业务需求。以下是微服务架构核心思想的详细解释：业务解耦与模块化微服务架构强调将业务功能进行解耦，每个服务独立开发、部署和扩展，服务之间通过A
JAVA：MyBatis 缓存机制详解的技术指南拾荒的小海螺 JAVA java mybatis 缓存
1、简述MyBatis是Java开发中常用的持久层框架之一，通过面向对象的方式操作数据库。为了提高系统性能，MyBatis提供了两级缓存机制：一级缓存（本地缓存）和二级缓存（全局缓存）。本文将详细讲解MyBatis缓存机制的使用原理、配置方法，并通过示例展示如何合理地使用缓存优化数据访问效率。2、基础原理2.1一级缓存作用范围：一级缓存是基于SqlSession级别的缓存，即在同一个SqlSess
手把手教你学simulink（83.2）--分布式能源场景实例：使用Simulink构建一个典型的光伏发电分布式能源系统模型小蘑菇二号 simulink matlab
目录基于Simulink的分布式能源系统（DistributedEnergySystem,DES）项目实例背景介绍系统架构仿真实现步骤1.创建新的Simulink模型2.添加光伏发电模块模拟太阳能光伏板的输出功率在Simulink中实现光伏发电模块3.添加储能电池模块模拟储能电池的充放电过程在Simulink中实现储能电池模块4.添加负载模块模拟不同类型负载的需求5.添加电网连接模块模拟与主电网的
湖仓进化，极速统一｜StarRocks 2024 社区年度报告数据库
延伸阅读：Lakehouse白皮书|从理论到落地的现代数据架构升级指南StarRocks开源三周年：初心不忘，征程不止！StarRocksAwards2024年度贡献人物StarRocks培训课程重磅上线！专家出品，助你升级打怪不走弯路！更多交流，联系我们：https://wx.focussend.com/weComLink/mobileQrCodeLink/33412/515d5
CDN防御如何保护我们的网络安全？ cdncdn缓存网络安全
在当今数字化时代，网络安全成为了一个至关重要的议题。随着网络攻击的日益频繁和复杂化，企业和个人都面临着前所未有的安全威胁。内容分发网络（CDN）作为一种分布式网络架构，不仅能够提高网站的访问速度和用户体验，还能够在很大程度上增强网络安全防护能力。本文将探讨CDN防御如何保护我们的网络安全。1、CDN防御的首要本领是分布式抗DDoS攻击DDoS攻击，即分布式拒绝服务攻击，犹如网络中的“洪水猛兽”，攻
DNS缓存—互联网高效运行的幕后功臣服务器运维缓存系统
在当今数字化时代，互联网已经渗透到我们生活的方方面面。当我们在浏览器中输入一个网址，瞬间就能访问到对应的网站，这背后DNS缓存功不可没。DNS缓存是一种优化域名解析过程的机制。我们知道，互联网上的计算机通过IP地址来相互识别和通信，但IP地址是一串难记的数字，于是域名应运而生。一、DNS缓存有什么作用?1、提升访问效率在网络访问中，首次访问某个域名时，设备需向DNS服务器发起查询以获取对应的IP地
深入理解 Go 高性能网络框架 nbio 程序员
本文深入探讨了高性能网络框架nbio在Golang中的应用，包括其架构、配置、事件处理机制、核心组件等，并与Evio做了比较。原文:AnalyzingHigh-PerformanceNetworkFrameworknbioinGo前言nbio项目还包括建立在nbio基础上的nbhttp，但这不在我们的讨论范围之内。与evio一样，nbio也采用经典的Reactor模式。事实上，Go中的许多异步网络
Containerd 插件系统深度解析
前言Containerd是一个工业级的容器运行时,其插件系统是其架构中最核心的部分之一。本文将深入解析containerd的插件机制,帮助读者理解其设计理念和实现原理。1.插件系统概述1.1设计目标模块化:将功能解耦为独立插件可扩展性:支持动态添加新功能类型安全:基于Go接口的类型检查依赖管理:自动处理插件间依赖关系1.2核心概念typeRegistrationstruct{TypeTypeIDs
WiFi 网络技术深度解析微技术
随着移动互联网、物联网（IoT）以及智能家居等技术的快速发展，WiFi网络已成为现代生活中不可或缺的一部分。从家庭到办公室，从公共场所到工业场景，WiFi网络在提供高速数据传输、无缝连接等方面发挥着重要作用。本文将从WiFi的基本原理、标准演进、架构设计、性能优化及未来趋势等方面详细解析WiFi网络技术。1.WiFi基本原理WiFi（WirelessFidelity）是基于IEEE802.11标准
玩转至轻云大数据平台-docker部署篇 fanciNate454 大数据 docker
产品介绍至轻云是一款超轻量级、企业级大数据计算平台，基于Spark生态打造。一键部署，开箱即用。快速实现大数据离线ETL、Spark计算、实时计算、可视化调度、自定义接口、数据大屏以及自定义表单等多种功能，为企业提供高效便捷的大数据解决方案。至轻云有什么特点呢？又能怎么玩呢？产品特点开源轻量化云原生架构:兼容云原生架构，支持Docker、Rancher平台的快速部署。国内镜像下载:可直接从阿里云镜
DeepSeek：极致的中国技术理想 X_taiyang18 AI与机器学习人工智能
揭秘DeepSeek:一个更极致的中国技术理想主义故事划重点中国的大模型创业公司DeepSeek因其创新的MLA架构和DeepSeekMoESparse结构，使推理成本降低至每百万token仅1块钱，引发中国大模型价格战。与其他大公司烧钱补贴不同，DeepSeek是有利润的，背后是DeepSeek对模型架构的全面创新。DeepSeek创始人梁文锋认为，中国的大模型创业者除应用创新外，也可以加入到全
【原创】开发部署中间件安装记录 liangrun521 java 部署 docker 中间件 docker linux
文章目录1.docker安装1.1离线安装：X86架构的主机1.2离线安装：ARM64架构的主机1.3在线安装-系统CentOS1.3在线安装-系统Debian2.supervisor安装3.nginx安装4.rabbitmq-包含x-delayed-message5.nacos5.1docker部署5.2系统命令部署（单机）5.3定制jar包部署，supervisor托管，使用提供的压缩包操作6
5g网络架构_【5G网络架构】系列之五：5G核心网向to B演进 weixin_39980298 5g网络架构
编者按：前面推文小编简要介绍了移动通信核心网的发展历程，以及变得“妈都不认识了”5G核心网。然而，toB业务才是5G的核心业务，本期我们看下5G核心网是如何向toB业务演进的。根据3GPP标准组织定义，5G网络的大脑——核心网发生了空前变化。首先，5G核心网原生支持控制面和用户面彻底分离，使得用户面UPF可灵活下沉，与边缘计算(MEC)一起分布式部署于更靠近用户和数据源的位置，从而可降低网络时延，
prometheus持久化到mysql_Prometheus的架构及持久化 CHM单
原文：https://my.oschina.net/go4it/blog/855598Prometheus是什么Prometheus是一个开源的系统监控和报警工具，特点是多维数据模型(时序列数据由metric名和一组key/value组成)在多维度上灵活的查询语言(PromQl)不依赖分布式存储，单主节点工作.通过基于HTTP的pull方式采集时序数据可以通过pushgateway进行时序列数据推
开发经验及方法导读盒子君~ #算法机器人系统架构
文章目录前言一、搭建工程开发环境专题三方库的调用方法二、代码程序设计专题1、C++开发知识树的阶段2、程序设计Kiss原则3、数据结构与语法规范4、CPP代码检查工具5、架构模式设计层（设计模式）6、代码重构7、代码设计模式--如何提高代码的运行效率、可读性、可维护性、健壮性？8、【C++RAII机制】将资源用类进行封装起来，做到资源创建即完成初始化，使用完资源即自动销毁9、源代码封装成库Lib的
分布式二级缓存组件实战（Redis+Caffeine实现）鸨哥学JAVA 程序员 Java 编程 redis 缓存分布式
所谓二级缓存缓存就是将数据从读取较慢的介质上读取出来放到读取较快的介质上，如磁盘-->内存。平时我们会将数据存储到磁盘上，如：数据库。如果每次都从数据库里去读取，会因为磁盘本身的IO影响读取速度，所以就有了像redis这种的内存缓存。可以将数据读取出来放到内存里，这样当需要获取数据时，就能够直接从内存中拿到数据返回，能够很大程度的提高速度。但是一般redis是单独部署成集群，所以会有网络IO上的消
使用 Caffeine 和 Redis 实现高效的二级缓存架构微技术 redis 架构数据库缓存
在现代应用开发中，缓存是提升系统性能的关键手段。为了兼顾本地缓存的高性能和分布式缓存的扩展能力，常见的实现方式是结合使用Caffeine和Redis实现二级缓存架构。本文将详细介绍如何通过SpringBoot实现一个Caffeine+Redis二级缓存，并通过合理的架构设计和代码实现，确保缓存的一致性、性能和容错性。一、需求与挑战1.多级缓存的需求：•一级缓存（Caffeine）：快速响应，存储本
Wi-Fi 7、Wi-Fi 6 与 5G、4G 的全方位对比微凉的衣柜科技头条 5G 网段
随着无线通信技术的飞速发展，Wi-Fi7、Wi-Fi6，以及5G、4G已经成为人们生活和工作中不可或缺的网络技术。无论是家庭网络、高速移动通信，还是工业物联网，这些技术都在发挥各自的作用。那么，它们之间有什么区别？适用的场景又有哪些呢？本文将从速度、延迟、覆盖范围、网络架构和应用场景等多方面为大家做一个详细的对比分析。1.技术基本概念Wi-Fi7（802.11be）：最新一代Wi-Fi标准，主打超
docker离线安装及部署各类中间件（x86系统架构） m0_67403143 面试学习路线阿里巴巴 docker 中间件系统架构
前言：此文主要针对需要在x86内网服务器搭建系统的情况一、docker离线安装1、下载docker镜像https://download.docker.com/linux/static/stable/x86_64/版本：docker-23.0.6.tgz2、将docker-23.0.6.tgz文件上传到服务器上面，这里放在了/home下3、创建docker.service文件#进入/etc/syst
全新发布：企业级安全网盘解决方案，助力数据高效流转与安全管理！ c++代码诗人信息安全开发语言 c++
全新发布：企业级安全网盘解决方案，助力数据高效流转与安全管理！在数字化办公快速发展的今天，信息安全与数据高效管理成为企业的核心需求。我们全新推出的企业级网盘系统，为您提供一站式解决方案，集稳定性、高安全性、多功能性于一体，助力您的企业高效运行和数据安全保障。以下是我们的网盘核心亮点：1.稳定可靠的技术架构客户端采用MFC开发：运行高效，界面直观，用户体验流畅，特别适合Windows系统用户。服务端
springboot图书馆管理系统前后端分离版本酷爱码 spring boot 后端 java
springboot图书馆管理系统前后端分离版本，系统供的功能全部都可以使用这是一个成品，系统的架构包括代码的层次都比较清晰而且功能比较丰富大家可以拿到手里改改界面改改文字的描述细节稍微修改一下就可以完成自己的毕业设计了，也可二次开发系统特性技术先进：使用了最新的SpringBoot框架，简化了项目配置，提高了开发效率。模块化设计：系统分为多个独立但相互关联的模块，如用户管理、书籍管理、借阅记录等
一图解锁 | 运维管理到工具体系的建设逻辑
本文来自腾讯蓝鲸智云社区用户:CanWay在数字化转型的大潮中，运维作为企业IT架构的关键环节，正面临着前所未有的挑战与机遇。如何利用先进的技术手段，提升运维效率和质量，成为业界关注的焦点。作为数字研运解决方案的引领者，嘉为蓝鲸在数字化运维方面做了大量探索和尝试，形成了一套数字化运维管理方法论，将近20年来经验浓缩成书——《数字化运维：IT运维架构的数字化转型》，小编将持续带领大家一起阅读本书的主
Docker 实战教程之从入门到提高 (五)
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
英伟达最新的算力芯片Blackwell芯片名为GB200 算力资源比较多算力智算大模型人工智能 gpu算力语言模型大数据推荐算法
英伟达最新的算力芯片相关信息如下：Blackwell芯片：英伟达在2024年6月2日由创始人兼CEO黄仁勋宣布，其Blackwell芯片已开始投产。第一款Blackwell芯片名为GB200，被宣称为目前“全球最强大的芯片”。Blackwell芯片基于新的BlackwellGPU架构，专为人工智能模型设计。每个B200GPU包含2080亿个晶体管，GB200由两个这样的GPU和一个GraceCPU
LoadBalancer负载均衡服务调用胡尔摩斯. java 后端 spring cloud LoadBalancer
LoadBalancerLoadBalancer（负载均衡器）是SpringCloud中的一个关键组件，用于在微服务架构中实现服务请求的负载均衡。它的主要作用是将客户端的请求分发到多个服务实例上，以提高系统的可用性、性能和容错能力。通过LoadBalancer，可以实现服务的水平扩展，使得系统能够处理更多的并发请求。LoadBalancer的类型在SpringCloud中，LoadBalancer
物联网：全面概述、架构、应用、仿真工具、挑战和未来方向神一样的老师论文阅读分享物联网物联网
中文论文标题：物联网：全面概述、架构、应用、仿真工具、挑战和未来方向英文论文标题：InternetofThings:acomprehensiveoverview,architectures,applications,simulationtools,challengesandfuturedirections作者信息：AnitaChoudhary论文出处：DiscoverInternetofThing
oceanbase架构、功能模块、数据存储、特性、sql流转层等概念详解小成很成数据库
一、架构图OceanBase数据库采用无共享（Shared-Nothing）分布式集群架构，各个节点之间完全对等，每个节点都有自己的SQL引擎、存储引擎、事务引擎，运行在普通PC服务器组成的集群之上，具备高可扩展性、高可用性、高性能、低成本、与主流数据库高兼容等核心特性。OceanBase数据库的一个集群由若干个节点组成。这些节点分属于若干个可用区（Zone），每个节点属于一个可用区。可用区是一个
人脸识别【java-基于OpenCV】思维导图-java架构用心去追梦 java opencv 架构
为了创建一个关于基于OpenCV的Java人脸识别项目的思维导图，可以围绕项目的主要组成部分进行组织：环境搭建、数据准备、人脸检测、特征提取、模型训练、识别与验证、以及优化和部署。以下是一个结构化的建议框架，你可以根据这个框架使用任何思维导图软件来创建具体的图形化版本。Java+OpenCV人脸识别项目-思维导图1.环境搭建安装依赖安装Java开发工具包（JDK）。下载并配置OpenCV库及其Ja
软考系统架构设计师系列知识点之面向服务架构设计理论与实践（5）蓝天居士系统架构设计师软考系统架构
接前一篇文章：软考系统架构设计师系列知识点之面向服务架构设计理论与实践（4）所属章节：第15章.面向服务架构设计理论与实践第2节SOA的发展历史15.2SOA的发展历史15.2.3SOA的微服务化发展随着互联网技术的快速发展，为适应日益增长的用户访问量和产品的快速更新迭代，应用系统架构也经历了从简到繁、从单体架构到SOA架构再到微服务架构的演进过程。这导致了SOA架构向更细粒度、更通用化程度发展，
132道系统架构面试八股文（答案、分析和深入提问）整理 ocean2103 面试题系统架构面试职场和发展
1.谈一谈缓存穿透、缓存击穿和缓存雪崩，以及解决办法回答在系统架构中，缓存是一种重要的性能优化手段，但在实际使用中可能会遭遇一些问题，如缓存穿透、缓存击穿和缓存雪崩。下面分别解释这三种现象及其解决方法。1.缓存穿透定义：缓存穿透是指用户请求的数据在缓存和数据库中都不存在，导致每次请求都直接查询数据库，造成对数据库的压力。解决办法：参数校验：在请求到达缓存和数据库之前，进行参数校验，拒绝无效请求。使
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源