GSX_M

海量数据处理

补充

1.位图应用

(1)给定100亿个整数，设计算法找到只出现一次的整数

(2)给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件的交集

(3)一个文件有100亿个整数，1G内存，设计算法找到出现次数不超过2次的所有整数。

2.布隆过滤器应用

(1)给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件的交集？给出近似算法。

(2)如何扩展BloomFilte使得它支持删除元素的操作

3.哈希切割应用

(1)给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件的交集？给出精确算法。

(2)给一个超过100G大小的log file，log中存着IP地址，设计算法找到出现次数最多的IP地址？如何找到top K的IP？如何直接用Linux系统命令实现？

补充

海量数据处理是指基于海量数据的存储和处理，正因为数据量太大，所以导致要么无法在短时间内迅速处理，要么无法一次性装入内存。

对于时间问题，就可以采用位图、布隆过滤器等数据结构来解决。
对于空间问题，就可以采用哈希切割等方法，将大规模的数据转换成小规模的数据逐个击破。

1.位图应用

(1)给定100亿个整数，设计算法找到只出现一次的整数

①我们标记整数时可以将其分为三种状态：

出现0次 00
出现1次 01
出现2次及以上 10

②解释

一个位只能表示两种状态，而要表示三种状态我们至少需要用两个位，因此我们可以开辟两个位图，这两个位图的对应位置分别表示该位置整数的第一个位和第二个位。
我们可以将着三种状态分别定义为00、01、10，此时当我们读取到重复的整数时，就可以让其对应的两个位按照00→01→10的顺序进行变化，最后状态是01的整数就是只出现一次的整数。

③代码示例

#include 
#include 
#include 
#include 
using namespace std;

int main()
{
	//此处应该从文件中读取100亿个整数
	vector v{ 9, 34, 8, 72, 3, 45, 9, 8, 27, 3, 2, 3, 45, 8, 45};

	//在堆上申请空间
	bitset<4294967295>* bs1 = new bitset<4294967295>;
	bitset<4294967295>* bs2 = new bitset<4294967295>;
    //bitset<-1> bs;
    
    //处理数据
	for (auto e : v)
	{
		if (!bs1->test(e) && !bs2->test(e)) //00->01
		{
			bs2->set(e);
		}
		else if (!bs1->test(e) && bs2->test(e)) //01->10
		{
			bs1->set(e);
			bs2->reset(e);
		}
		else if (bs1->test(e) && !bs2->test(e)) //10->10
		{
			//不做处理
		}
		else //11（理论上不会出现该情况,保证代码的完整性）
		{
			assert(false);
		}
	}

	for (size_t i = 0; i < 4294967295; i++)
	{
		if (!bs1->test(i) && bs2->test(i)) //01
			cout << i << endl;
	}

	return 0;
}

④补充

存储100亿个整数大概需要40G的内存空间，因此题目中的100亿个整数肯定是存储在文件当中的，代码中直接从vector中读取数据是为了方便演示。
为了能映射所有整数，位图的大小必须开辟为2^32位，也就是代码中的4294967295，因此开辟一个位图大概需要512M的内存空间，两个位图就要占用1G的内存空间，所以代码中选择在堆区开辟空间，若是在栈区开辟则会导致栈溢出。

(2)给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件的交集

①方法1:（一个位图需要512M内存）

依次读取第一个文件中的所有整数，将其映射到一个位图。
再读取另一个文件中的所有整数，判断在不在位图中，在就是交集，不在就不是交集。

②方法2: (两个位图刚好需要1G内存，满足要求）

依次读取第一个文件中的所有整数，将其映射到位图1。
依次读取另一个文件中的所有整数，将其映射到位图2。
将位图1和位图2进行与操作，结果存储在位图1中，此时位图1当中映射的整数就是两个文件的交集。

③对于32位的整型，无论待处理的整数个数是多少，开辟的位图都必须有 2^32 个比特位，也就是512M，因为我们要保证每一个整数都能够映射到位图当中，因此这里位图的空间消耗是固定的。

(3)一个文件有100亿个整数，1G内存，设计算法找到出现次数不超过2次的所有整数。

①该题目和(1)中的方法是一样的，在该题目中我们标记整数时可以将其分为四种状态：

出现0次 00
出现1次 01
出现2次 10
出现2次以上 11

②一个整数要表示四种状态也是只需要两个位就够了，此时当我们读取到重复的整数时，就可以让其对应的两个位按照00→01→10→11的顺序进行变化，最后状态是01或10的整数就是出现次数不超过2次的整数

③代码

#include 
#include 
#include 
using namespace std;

int main()
{
	vector v{ 9, 34, 8, 72, 3, 45, 9, 8, 27, 3, 2, 3, 45, 8, 45};

	//在堆上申请空间
	bitset<4294967295>* bs1 = new bitset<4294967295>;
	bitset<4294967295>* bs2 = new bitset<4294967295>;

	for (auto e : v)
	{
		if (!bs1->test(e) && !bs2->test(e)) //00->01
		{
			bs2->set(e);
		}
		else if (!bs1->test(e) && bs2->test(e)) //01->10
		{
			bs1->set(e);
			bs2->reset(e);
		}
		else if (bs1->test(e) && !bs2->test(e)) //10->11
		{
			bs2->set(e);
		}
		else //11->11
		{
			//不做处理
		}
	}

	for (size_t i = 0; i < 4294967295; i++)
	{
		if ((!bs1->test(i) && bs2->test(i)) || (bs1->test(i) && !bs2->test(i))) //01或10
			cout << i << endl;
	}

	return 0;
}

2.布隆过滤器应用

(1)给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件的交集？给出近似算法。

题目要求给出近似算法，也就是允许存在一些误判，可以用布隆过滤器：

先读取其中一个文件当中的query，将其全部映射到一个布隆过滤器当中。
然后读取另一个文件当中的query，依次判断每个query是否在布隆过滤器当中，如果在则是交集，不在则不是交集。

(2)如何扩展BloomFilte使得它支持删除元素的操作

①布隆过滤器一般不支持删除操作

因为布隆过滤器判断一个元素存在时可能存在误判，因此无法保证要删除的元素确实在布隆过滤器当中，此时将位图中对应的比特位清0会影响其他元素。
此外，就算要删除的元素确实在布隆过滤器当中，也可能该元素映射的多个比特位当中有些比特位是与其他元素共用的，此时将这些比特位清0也会影响其他元素。

②如果要让布隆过滤器支持删除，就必须要做到以下两点：

保证要删除的元素在布隆过滤器当中，比如在删除一个用户的信息前，先遍历数据库确认该用户确实存在。
保证删除后不会影响到其他元素，比如可以为位图中的每一个比特位设置一个对应的计数值，当插入元素映射到该比特位时将该比特位的计数值++，当删除元素时将该元素对应比特位的计数值 -- 即可。

3.哈希切割应用

(1)给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件的交集？给出精确算法。

①基本思路

首先需要估算一下这里一个文件的大小，便于确定将一个文件切分为多少个小文件。
假设平均每个query为20字节，1G大约10亿bite , 那么100亿个query就是200G，由于我们只有1G内存，这里可以考虑将一个文件切分成400个小文件，每个小文件512M。
这里我们将这两个文件分别叫做A文件和B文件，此时我们将A文件切分成了A0~A399共400个小文件，将B文件切分成了B0~B399共400个小文件。

②在切分时需要选择一个哈希函数进行哈希切分

以切分A文件为例，切分时依次遍历A文件当中的每个query，通过哈希函数将每个query转换成一个整型 i （0 ≤ i ≤ 399），然后将这个query写入到小文件Ai当中。对于B文件也是同样的道理，但切分A文件和B文件时必须采用的是同一个哈希函数
由于切分A文件和B文件时采用的是同一个哈希函数，因此A文件与B文件中相同的query计算出的 i 值都是相同的，最终就会分别进入到Ai和Bi文件中，这也是哈希切分的意义。

③只需要分别找出A0与B0的交集、A1与B1的交集、…、A399与B399的交集，最终将这些交集和起来就是A文件和B文件的交集。

④各个小文件之间又应该如何找交集

经过切分后理论上每个小文件的平均大小是512M，因此我们可以将其中一个小文件加载到内存，并放到一个set容器中，再遍历另一个小文件当中的query，依次判断每个query是否在set容器中，如果在则是交集，不在则不是交集。
当哈希切分并不是平均切分，有可能切出来的小文件中有一些小文件的大小仍然大于1G，此时如果与之对应的另一个小文件可以加载到内存，则可以选择将另一个小文件中的query加载到内存，因为我们只需要将两个小文件中的一个加载到内存中就行了。
但如果两个小文件的大小都大于1G，那我们可以考虑将这两个小文件再进行一次切分，将其切成更小的文件，方法与之前切分A文件和B文件的方法类似。

⑤本质这里在进行哈希切分时，就是将这些小文件看作一个个的哈希桶，将大文件中的query通过哈希函数映射到这些哈希桶中，如果是相同的query，则会产生哈希冲突进入到同一个小文件中。

哈希切分的意义是: 相同的查询字符串（使用同一个hash算法)进入相同的小文件
哈希切分特点: A和B文件中相同的query，分别进入了，Ai和Bi文件中下标相同的小文件

(2)给一个超过100G大小的log file，log中存着IP地址，设计算法找到出现次数最多的IP地址？如何找到top K的IP？如何直接用Linux系统命令实现？

①找到次数最多

我们将这个log file叫做A文件，由于A文件的大小超过100G，这里可以考虑将A文件切分成100个小文件。
在切分时选择一个哈希函数进行哈希切分，通过哈希函数将A文件中的每个IP地址转换成一个整型 i （0 ≤ i ≤ 99），然后将这个IP地址写入到小文件Ai当中。
由于哈希切分时使用的是同一个哈希函数，因此相同的IP地址计算出的 i 值是相同的，最终这些相同的IP地址就会进入到同一个Ai小文件当中。
经过哈希切分后得到的这些小文件，理论上就能够加载到内存当中了，如果个别小文件仍然太大那可以对其再进行一次哈希切分，让最后切分出来的小文件能够加载到内存。
现在要找到出现次数最多的IP地址，就可以分别将各个小文件加载到内存中，然后用一个map容器统计出每个小文件中各个IP地址出现的次数，然后比对各个小文件中出现次数最多的IP地址，最终就能够得到log file中出现次数最多的IP地址。

②找到top K的IP

如果要找到出现次数top K的IP地址，可以先将一个小文件加载到内存中，选出小文件中出现次数最多的K个IP地址建成一个小堆，然后再依次比对其他小文件中各个IP地址出现的次数，如果某个IP地址出现的次数大于堆顶IP地址出现的次数，则将该IP地址与堆顶的IP地址进行交换，然后再进行一次向下调整，使其仍为小堆，最终比对完所有小文件中的IP地址后，这个小堆当中的K个IP地址就是出现次数top K的IP地址。

③Linux系统命令实现

可以用sort log_file | uniq -c | sort -nrk1,1 | head -k 命令选取出现次数top K的IP地址

1.创建log_file文件并填充数据

2.使用sort命令对log_file文件进行排序。

3.使用uniq命令统计每个IP地址出现的次数。

4.刚才使用sort命令只是以字母序进行文本排序，现在统计出了每个IP地址出现的次数，所以需要再次使用sort命令按照每个IP底层出现的次数进行反向排序。

5.最后使用head 命令选出出现次数top K的IP地址即可

【C++】——精细化哈希表架构：理论与实践的综合分析 m0_74825238 面试学习路线阿里巴巴 c++散列表架构 java
先找出你的能力在哪里，然后再决定你是谁。——塔拉·韦斯特弗《你当像鸟飞往你的山》目录1.C++与哈希表：核心概念与引入2.哈希表的底层机制：原理与挑战2.1核心功能解析：效率与灵活性的平衡2.2哈希冲突的本质：问题与应对策略2.3开散列与闭散列：两大解决方案的比较3.闭散列的精确实现：从设计到优化3.1整体框架设计：面向扩展的架构3.2仿函数的灵活性：高效哈希的关键3.3插入操作：冲突检测与位置分
Microsoft Visual C++ Redistributable 各版本安装包合集 Eric Woo X C++Windows microsoft c++开发语言
MicrosoftVisualC++Redistributable2019x86:https://aka.ms/vs/16/release/VC_redist.x86.exex64:https://aka.ms/vs/16/release/VC_redist.x64.exeMicrosoftVisualC++Redistributable2017x86:https://go.microsoft.c
C++多线程苜柠 C++c++
线程：async和thread锁：C++11中的std::atomic和std::mutex推荐文章：C++11多线程（std::thread）详解_c++11线程使用-CSDN博客c++标准库多线程-云山漫卷-博客园std::lock_guard是一个RAII风格的简单的锁管理器，它在构造时自动加锁，在析构时自动解锁。#include#include#include#includestd::mu
Qt for WebAssembly程序中文乱码问题处理过程 muren Qt c++qt wasm 开发语言
一、环境操作系统DeepinV23Qt版本6.8.2编程语言C++二、问题现象QtforWebAssembly应用在浏览器页面上英文字母显示正常，中文显示为乱码。经测试分析原因为默认字体不能正常显示汉字。三、处理过程1.准备中文字体文件从Windows下复制宋体简体字体文件。C:\Windows\Fonts\simsun.ttc2.添加资源文件resources.qrcsimsun.ttc3.Qt
C++中函数模板与类模板的简单使用 CoderIsArt C++11 c++函数模板类模板
在C++中，模板是实现泛型编程的核心机制，允许开发者编写与类型无关的代码。以下是函数模板和类模板的详细介绍及实际示例。一、函数模板定义函数模板通过参数化类型实现泛型操作，只需编写一次代码即可处理多种数据类型，避免重复。语法template返回类型函数名(参数列表){...}typenameT表示类型占位符，编译时根据实参类型自动实例化。真实示例‌交换两个值（swap）templatevoidswa
代码随想录算法训练营第八天| 344 反转字符串、541 反转字符串II Anjoubecoding 算法数据结构 c++c语言 leetcode
这两天开的是字符串专题，我准备在做题的时候用C++做一遍，再用C做一遍，因为一直刷leetcode用的都是C++，导致C的基础太薄弱了，之后工作中有可能用到C，相当于再复习复习一、Leetcode344反转字符串题目链接：Leetcode344反转字符串这道题很简单，这才是真正的简单题voidreverseString(char*s,intsSize){intleft=0,right=sSize-
VS Code 在Linux下IDE开发C++的HelloWorld leon_zeng0 c++VScode linux ide c/c++helloworld
用VisualStudioCode在Linux(Ubuntu)下构造c++的集成开发环境，编辑，编译和调试运行一个简单程序HelloWorld。想达到上面目标，搜索到以下文章，学习验证而成本文日记。链接是：https://code.visualstudio.com/docs/cpp/config-linux前期准备运行环境是ubuntu16.0，先安装好VisualStudioCode(VSCod
C++/C语言判断重复数组（zznu）⭐ *TQK* 算法练习 c++c语言数据结构
问题描述如果一个数组中不包含重复的元素，那么我们称这个数组是独ONE无TWO的数组。给定一个数组，请你判断这个数组是否是独ONE无TWO的。输入首先输入一个正整数n表示数组的长度（0//包含常用的头文件usingi68=longlong;//定义别名，但在此代码中未使用usingnamespacestd;//定义宏，用于获取容器的大小#definesz(x)(int)x.size()//定义宏，用
C++|向函数传递对象柯ran C++程序设计 c++开发语言
在C++里，对象作为函数的参数和返回值，有值传递、指针传递和引用传递这三种传递方式，下面为你详细介绍。1.值传递在值传递时，把实参对象的值复制给形参对象，函数会接收实参的一个副本，而非实参本身。函数内对形参的修改不会影响到实参。#includeusingnamespacestd;classMyClass{public:intvalue;MyClass(intval):value(val){}};/
【USTC 计算机网络】第二章：应用层 - TCP & UDP 套接字编程柃歌计算机网络计算机网络 tcp/ip udp websocket 网络协议
本文详细介绍了TCP与UDP套接字编程，并在Windows下使用C++实现套接字编程，对代码做了十分精细的讲解，这部分内容非常重要，是计算机网络学到目前为止第一次编程，也是网络编程开发中最基础的一个部分，必须彻底掌握。1.Windows使用C++实现TCPSocket在Windows下进行套接字编程需要遵循如下步骤：初始化Winsock库：使用WSAStartup初始化Winsock库。该函数需要
基于Qt的连连看游戏开发 CodeJolt qt 数据库 java QT
连连看是一种经典的益智游戏，它的目标是通过消除相同的配对图标来清空游戏界面。在本文中，我将向您展示如何使用Qt框架开发一个基于Qt的连连看小游戏。我们将使用C++编程语言和Qt库来实现游戏的逻辑和界面。首先，让我们创建一个新的Qt项目。在QtCreator中，选择"新建项目"，然后选择"QtWidgets应用程序"模板。为项目指定一个名称，然后点击"下一步"。在下一个对话框中，您可以选择项目的位置
Python, Java, C ++开发全球热能动态监测APP Geeker-2025 python java c++
开发一个“全球热能动态监测APP”是一个非常有意义的想法，尤其是在能源管理和环境保护领域。以下是开发该APP的详细思路和技术实现方案，分别针对Python、Java和C++。---###**功能需求分析**1.**全球热能数据展示**：-各国或地区的热能生产、消费和进出口数据。-实时监测热能动态（如发电厂的热能输出、温度变化等）。2.**地图可视化**：-在地图上标注热能发电厂的位置。-使用颜色或
java中vector和list_java中vector和list的区别 Creamy络
java中vector和list的区别发布时间：2020-06-1917:07:11来源：亿速云阅读：106作者：元一vector的概念Vector类是在java中可以实现自动增长的对象数组，vector在C++标准模板库中的部分内容，它是一个多功能的，能够操作多种数据结构和算法的模板类和函数库。vector的使用连续存储结构：vector是可以实现动态增长的对象数组，支持对数组高效率的访问和在数
通过接收tcp命令实现程序自我重新运行 C++ 老炮儿的技术栈 tcp/ip 网络网络协议
一个用C++实现的示例程序，该程序监听TCP连接，当接收到特定的自定义协议命令（这里是"RESTART"）时，会重新运行自身。#include#include#include#include#include#include#include#include#definePORT12345#defineBUFFER_SIZE1024voidhandle_connection(intsockfd){
C++ 学习需要多长时间？ c++
学习C++所需的时间因个人的学习目标、基础、学习方法和投入的时间而异。以下是一些大致的时间范围和学习阶段的参考：一、初学者阶段（0-3个月）目标：掌握C++的基本语法、数据类型、控制结构（如循环、条件语句）、函数等基础知识。学习内容：学习变量声明、数据类型（如int、float、char等）。掌握基本的输入输出操作（如cin和cout）。理解并使用循环（for、while）和条件语句（if、swi
原子操作和互斥锁哪个更高效？原子操作
原子操作和互斥锁都是并发编程中用于同步和保护共享数据的重要工具，但它们的效率和适用场景有所不同。以下是对原子操作和互斥锁的比较，以及它们在不同场景下的性能表现：原子操作原子操作是通过硬件指令实现的，确保对共享数据的访问和修改是不可分割的。C++中的std::atomic提供了原子操作的支持。优点无锁机制：原子操作不需要锁，因此不会引入锁的开销，也不会导致线程阻塞。高效率：对于简单的数据类型（如in
【C++】Vector和List的区别信手斩龙 C++
在学习stl的时候，总是有同学分不清楚Vector和List的使用，在这里我总结一下它们的区别和使用方法。一、底层结构 vector的底层结构是动态顺序表，在内存中是一段连续的空间。 list的底层结构是带头节点的双向循环链表，在内存中不是一段连续的空间。二、支持随机访问 vector支持随机访问，可以利用下标精准定位到一个元素上，访问某个元素的时间复杂度是O(1)。 list不支持随机访问，要
第十四次CCF-CSP认证（含C++源码）曦月逸霜算法 c++数据结构学习
第十四次CCF-CSP认证卖菜满分思路买菜满分思路再卖菜满分题解（差分约束）solution1(枚举correctbut超时)solution2(正解)卖菜题目链接满分思路就是模拟一下这个调整第二天菜价的过程，其中对于两种只有一个邻居的情况下做出调整，三个for循环分别处理输入，调整，输出#includeusingnamespacestd;constintN=1010;intyes[N],toda
【C++】priority_queue的使用及模拟实现（含仿函数介绍）梓䈑 C++学习 c++开发语言
文章目录前言一、priority_queue的介绍二、priority_queue的使用三、仿函数四、priority_queue的模拟实现前言一、priority_queue的介绍（优先级队列是默认使用vector作为其底层存储数据的容器适配器，在vector上又使用了堆算法将vector中元素构造成堆的结构，因此priority_queue就是堆）二、priority_queue的使用及模拟实
C++文件操作 nqqcat~ c++c++开发语言
文本文件二进制文件操作文件的三大类ofstream写ifstream读fstream写+读写文件包含头文件#include创建流对象ofstreamofs;打开文件ofs.open("文件路径",打开方式);写数据ofs#includeusingnamespacestd;//stream数据流，小溪//文本文件写文件voidtest01(){ofstreamofs;ofs.open("test.t
C++和Java相比，哪个更适合初学者学习？ c++java
C++和Java都是非常流行的编程语言，但它们在设计理念、应用场景和学习难度上存在显著差异。对于初学者来说，选择哪种语言更适合，取决于学习目标、兴趣和未来的职业规划。以下是对C++和Java的详细对比，帮助初学者做出选择：一、学习难度C++复杂性高：C++继承了C语言的复杂性，支持多种编程范式（如面向对象、泛型编程等），语法复杂，学习曲线陡峭。内存管理：C++需要手动管理内存，容易出现内存泄漏和悬
深入探索C++：从基础到高级 c++
深入探索C++：从基础到高级一、C++简介C++是一种通用的、静态类型的、大小写敏感的、自由格式的编程语言，支持过程化编程、面向对象编程和泛型编程。它最初由BjarneStroustrup在1980年代设计，目的是在C语言的基础上增加面向对象的功能。C++广泛应用于系统/应用程序软件、游戏开发、高性能服务器和客户端应用等领域。二、C++的核心特性（一）数据类型C++提供了丰富的数据类型，包括基本数
C/C++学习路线概述 DustWind丶 C/C++c++
根据如下视频和文章总结：想做C语言/C++开发?这些才是你该学的东西！C语言/C++直通企业级开发的详细学习路线节选：肝了半个月，我整理出了这篇嵌入式开发学习学习路线+知识点梳理目录1C/C++学习概述1.1C语言的基础知识1.2C++的基础知识2C/C++编程学习四大件2.1数据结构和算法2.2操作系统2.3计算机网络2.3.1计算机网络分层2.3.2典型协议（以TCP/IP四层模型举例）2.4
211 本硕研三，已拿 C++ 桌面应用研发 offer，计划转音视频或嵌入式如何规划学习路线？程序员yt c++音视频学习
今天给大家分享的是一位粉丝的提问，211本硕研三，已拿C++桌面应用研发offer，计划转音视频或嵌入式如何规划学习路线？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：前辈您好，我是211本硕，目前研三，秋招拿到C++桌面应用研发的offer，但计划的这个岗位最多干3-4年左右，后续企业规划上想往音视频开发或嵌入式上转；个人感觉C++八股，算法
Android HAL服务注册与获取服务令狐掌门 Android开发笔记 android android aosp
HAL服务注册在AndroidHAL（硬件抽象层）开发中，当使用HIDL（硬件接口定义语言）定义接口时，生成的C++头文件会包含一个关键的registerAsService函数。该函数的作用是将HAL实现注册到系统服务管理器，使其他进程能够发现并调用该服务。以下是详细介绍：功能与作用服务注册：registerAsService用于将HAL接口的实现实例注册到Android的hwserviceman
(LeetCode 热题 100) 74. 搜索二维矩阵(二分查找) 岁忧 java版刷题 LeetCode 热题 100 LeetCode leetcode 矩阵算法 c++java
题目：74.搜索二维矩阵方法一：数组按行拼接为一个不下降的一维数组。采用二分查找，时间复杂度0(lognm)。C++版本：classSolution{public:boolsearchMatrix(vector>&matrix,inttarget){intn=matrix.size(),m=matrix[0].size();intl=0,r=n*m-1;while(ltarget){r=mid-1
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
LeetCode 热题 100_跳跃游戏 II（79_45_中等_C++）(贪心算法) Dream it possible！ LeetCode 热题 100 leetcode c++贪心算法算法
LeetCode热题100_跳跃游戏II（79_45）题目描述：输入输出样例：题解：解题思路：思路一（贪心选择）：代码实现代码实现（思路一（贪心算法））：以思路一为例进行调试题目描述：给定一个长度为n的0索引整数数组nums。初始位置为nums[0]。每个元素nums[i]表示从索引i向后跳转的最大长度。换句话说，如果你在nums[i]处，你可以跳转到任意nums[i+j]处:0&nums){in
c++ stl库有哪些技术 C++ 老炮儿的技术栈 c++算法学习笔记 c++
C++STL（标准模板库）包含以下一些重要技术：容器-序列容器：如vector（动态数组），支持快速随机访问和尾部插入/删除；list（双向链表），适合频繁的插入和删除操作；deque（双端队列），能在两端高效地进行插入和删除。-关联容器：像map（键值对映射），基于红黑树实现，提供快速的查找、插入和删除操作；set（集合），同样基于红黑树，元素唯一且有序。迭代器提供了一种统一的方式来访问容器中的
C++ STL常用库的使用方法（一）小崔的技术博客算法 c++算法开发语言
文章目录（0）C++STL介绍（0）C++STL组件(一)Vector容器1）创建vector2）尾部元素扩张3）访问Vector元素4)元素的删除5)元素的排序6)向量的大小(二)String基本字符系列容器1）创建String对象2)给String赋值(三)set集合容器1）创建set集合对象2)元素的插入与中序遍历3)元素的反向遍历4)元素的删除5)元素的检索(四)map映射容器1）map创
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

海量数据处理

补充

1.位图应用

(1)给定100亿个整数，设计算法找到只出现一次的整数

(2)给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件的交集

(3)一个文件有100亿个整数，1G内存，设计算法找到出现次数不超过2次的所有整数。

2.布隆过滤器应用

(1)给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件的交集？给出近似算法。

(2)如何扩展BloomFilte使得它支持删除元素的操作

3.哈希切割应用

(1)给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件的交集？给出精确算法。

(2)给一个超过100G大小的log file，log中存着IP地址，设计算法找到出现次数最多的IP地址？如何找到top K的IP？如何直接用Linux系统命令实现？

你可能感兴趣的:(C++,c++)