飞大圣

数据结构和算法（14）：串

串及串匹配

串或字符串（string）属于线性结构，可直接利用向量或列表等序列结构加以实现：结构简单，规模庞大，元素重复率高。

串

由 n 个字符构成的串记作： $"a_0 \space a_1 \space ... a_{n-1}"$ 其中， $a_i \in \sum,0\leq i ai∈∑,0≤i<n$

字符串中任一连续的片段，称作其子串。
两种特殊子串：
1.起始于位置0、长度为k的子串称为前缀；
2.终止于位置n - 1、长度为k的子串称为后缀；
空串是任何字符串的子串，也是任何字符串的前缀和后缀；任何字符串都是自己的子串，也是自己的前缀和后缀。
此类子串、前缀和后缀分别称作平凡子串、平凡前缀和平凡后缀。
反之，字符串本身之外的所有非空子串、前缀和后缀，分别称作真子串、真前缀和真后缀。

判等： 字符串S[0, n)和T[0, m)称作相等，当且仅当二者长度相等（n = m），且对应的字符分别相同（对任何 $\leq i < n$ 都有 $S [i] = T [i]$ ）.

串匹配

如何在字符串数据中，检测和提取以字符串形式给出的某一局部特征？这类操作都属于串模式匹配范畴，简称串匹配

对基于同一字符表的任何文本串 T (|T| = n ) 和模式串P(|P| = m)：
1.判定T 中是否存在某一子串与P相同；
2.若存在（匹配），则报告该子串在T中的起始位置。

蛮力算法

将P与T中长度为m的n - m + 1个子串逐一比对，即可确定可能的匹配位置。

正确性： 只有在某一轮的m次比对全部成功之后才成功返回，故不致于误报；反过来，所有对齐位置都会逐一尝试，故亦不致漏报。

实现1

int match ( char* P,char* T ) { //串匹配算法( Brute-force-1 )
	size_t n = strlen( T ), i = 0;	//文本串长度、当前接受比对字符的位置
	size_t m = strlen( P ), j = 0;	//模式串长度、当前接受比对字符的位置
	while ( j < m && i <n )	//自左向右逐个比对字符
		if ( T[i] == P[j] )	//若匹配
		{ i ++; j ++; }	//则转到下一对字符
		else //否则
		{ i -= j - 1; j= 0; }	//文本串回退、模式串复位
	return i - j;	//如何通过返回值，判断匹配结果?
}

借助整数i和j，分别指示T和P中当前接受比对的字符T[i]与P[j]。若当前字符对匹配，则i和j同时递增以指向下一对字符。一旦j增长到m则意味着发现了匹配，即可返回P相对于T的对齐位置i - j。一旦当前字符对失配，则i回退并指向T中当前对齐位置的下一字符，同时j复位至P的首字符处，然后开始下一轮比对。

实现2

int match ( char* P, char* T ) { //串匹配算法( Brute-force-2 )
	size_t n = strlen ( T ), i = 0;	//文本串长度、与模式串首字符的对齐位置
	size_t m = strlen ( P ), j;	//模式串长度、当前接受比对字符的位置
	for ( i = 0; i <n - m + 1; i++ ) {	//文本串从第i个字符起，与
		for ( j = 0; j <m; j++ )	//模式串中对应的字符逐个比对
			if ( T[i + j] != P[j] ) break;//若失配，模式串整体右移一个字符，再做一轮比对
		if ( j >= m ) break;//找到匹配子串
	}
	return i; //如何通过返回值，判断匹配结果?
}

借助整数i指示P相对于T的对齐位置，且随着i不断递增，对齐的位置逐步右移。在每一对齐位置i处，另一整数j从0递增至m - 1，依次指示当前接受比对的字符为T[i + j]与P[j]。因此，一旦发现匹配，即可直接返回当前的对齐位置i。

复杂度

从理论上讲，蛮力算法至多迭代 n - m + 1 轮，且各轮至多需进行 m 次比对，故总共只需做不超过 (n - m + 1)∙m 次比对。
因 m << n，渐进的时间复杂度应为O(n∙m)。最好为O(n)。

KMP 算法

蛮力算法在最坏情况下所需时间，为文本串长度与模式串长度的乘积。
问题在于这里存在大量的局部匹配：每一轮的m次比对中，仅最后一次可能失配。而一旦发现失配，文本串、模式串的字符指针都要回退，并从头开始下一轮尝试。

蛮力算法会令两个字符指针同步回退（即令i = i - j + 1和j = 0），然后再从这一位置继续比对。

记忆法

用T[i]和P[j]分别表示当前正在接受比对的一对字符。

利用以往的成功比对所提供的信息（记忆），不仅可避免文本串字符指针的回退，而且可使模式串尽可能大跨度地右移（经验）。
子串T[i - j, i)完全由0组成，在回退之后紧接着的下一轮比对中，前j - 1次比对必然都会成功。因此，可直接令i保持不变，令j = j - 1，然后继续比对。如此，下一轮只需1次比对，共减少j - 1次。即令P相对于T右移一个单元，然后从前一失配位置继续比对。

查询表

假设前一轮比对终止于T[i] ！= P[j]，指针i不必回退，而是将T[i]与P[t]对齐并开始下一轮比对。那么，t准确地应该取作多少？

经过此前一轮的比对，已经确定匹配的范围应为：P[0, j) = T[i - j, i)
若模式串P经适当右移之后，能够与T的某一（包含T[i]在内的）子串完全匹配，则一项必要条件就是：P[0, t) = T[i - t, i) = P[j - t, j)

在P[0, j)中长度为t的真前缀，应与长度为t的真后缀完全匹配，故t必来自集合： $\{ 0 \leq t < j| P[0,t)=P[j-t,j)\}$

若下一轮比对将从T[i]与P[t]的比对开始，这等效于将P右移j - t个单元，位移量与t成反比。因此，为保证P与T的对齐位置（指针i）绝不倒退，同时又不致遗漏任何可能的匹配，应在集合N(P, j)中挑选最大的t。也就是说，当有多个值得试探的右移方案时，应该保守地选择其中移动距离最短者。

若令：next[j] = max(N(P, j))，则一旦发现P[j]与T[i]失配，即可转而将P[next[j]]与T[i]彼此对准，并从这一位置开始继续下一轮比对。
对于任一模式串P，不妨通过预处理提前计算出所有位置j所对应的next[j]值，并整理为表格以便此后反复查询——亦即，将“记忆力”转化为“预知力”

实现

int match ( char* P, char* T ) {	//KMP算法
	int* next = buildNext ( P );	//构造next表
	int n = ( int ) strlen ( T ), i = 0;	//文本串指针
	int m = ( int ) strlen ( P )， j = 0;	//模式串指针
	while ( j <m && i <n ) //自左向右逐个比对字符
		if ( 0 > j || T[i] == P[j])	//若匹配，或P已移出最左侧（两个判断的次序不可交换)
			{ i ++; j ++;}	//则转到下一字符
		else //否则
			j = next[j];	//模式串右移（注意∶文本串不用回退)
	delete [] next;	//释放next表
	return i - j;
}

理解 next[ ] 表

next[ 0 ] = -1

只要 $j > 0$ 则必有 $\in N(P, j)$ 。此时 $N (P, j)$ 非空，从而可以保证“在其中取最大值”这一操作的确可行。

若在某一轮比对中首对字符即失配，则应将P直接右移一个字符，然后启动下一轮比对。

假想地在P[0]的左侧“附加”一个P[-1]，且该字符与任何字符都是匹配的。
就实际效果而言，这一处理方法完全等同于“令next[0] = -1”

next[ j + 1]

若next[j] = t，则意味着在P[0, j)中，自匹配的真前缀和真后缀的最大长度为t，故必有 next[j + 1] <= next[j] + 1；
P[j] = P[ next[j] ]时，必有 next[j + 1] = next[j] + 1

若next[j] ！= t，next[j + 1]的下一候选者应该依次是next[ next[j] ] + 1, next[ next[ next[j] ] ] + 1, …

反复用next[t]替换t（即令t = next[t]），即可按优先次序遍历以上候选者；一旦发现P[j]与P[t]匹配（含与P[t = -1]的通配），即可令next[j + 1] = next[t] + 1。

总有next[t] < t，在此过程中t必然严格递减；同时，即便t降低至0，亦必然会终止于通配的next[0] = -1，而不致下溢。

构造 next[ ] 表

int* buildNext ( char* P ) {	//构造模式串P的next表
	size_t m = strlen ( P )， j = 0; 	//“主”串指针
	int* N = new int[m]; //next表
	int t = N[0] = -1;	//模式串指针
	while ( j < m - 1 )
		if ( 0 > t || P[j] == P[t] ) {	//匹配
			j ++; t ++;
			N[j] = t; //此句可改进...
		}else //失配
			t = N[t];
	return N;
}

分摊分析

纵观算法的整个过程：启动时有i = j = 0，即k = 0；算法结束时i <= n且j >=0，故有k<= 2n。在此期间尽管整数k从0开始持续地严格递增，但累计增幅不超过2n，故while循环至多执行2n轮。另外，while循环体内部不含任何循环或调用，故只需O(1)时间。因此，若不计构造next表所需的时间，KMP算法本身的运行时间不超过O(n)。

也就是说，尽管可能有O(n)个对齐位置，但就分摊意义而言，在每一对齐位置仅需O(1)次比对。
既然next表构造算法的流程与KMP算法并无实质区别，故仿照上述分析可知，next表的构造仅需O(m)时间。综上可知，KMP算法的总体运行时间为O(n + m)。

改进

按照此前定义的next表，仍有可能进行多次本不必要的字符比对操作。

经过此前的比对已发现 T[i] != P[3]，那么继续将T[i]和那些与P[3]相同的字符做比对，既重蹈覆辙，更徒劳无益。

集合N(P, j)的定义修改为：N(P, j) = { 0 <= t < j | P[0, t) = P[j - t, j) 且 P[t] != P[j] }。
也就是说，除“对应于自匹配长度”以外，t只有还同时满足“当前字符对不匹配”的必要条件，方能归入集合N(P, j)并作为next表项的候选。

int* buildNext ( char* P ) {	//构造模式串P的next表（改进版本)
	size_t m = strlen ( P ),j = 0; 	//“主”串指针
	int* N = new int[m]; 			//next表
	int t = N[0] = -1;				//模式串指针
	while ( j < m - 1 )
		if ( 0 > t ll P[j] == P[t] ) { 	//匹配
		j ++; t ++;
		N[j] = (P[j] != P[t] ? t : N[t] );	//注意此句与未改进之前的区别
	} else //失配
		t = N[t];
		return N;
}

改进后的算法与原算法的唯一区别在于，每次在P[0, j)中发现长度为t的真前缀和真后缀相互匹配之后，还需进一步检查P[j]是否等于P[t]。唯有在 P[j] != P[t] 时，才能将t赋予next[j]；否则，需转而代之以next[t]。

这里讲的好：KMP 算法详解

BM 算法

KMP算法思路： 当前比对一旦失配，即利用此前的比对（无论成功或失败）所提供的信息，尽可能长距离地移动模式串
其核心为： 无需显式地反复保存或更新比对的历史，而是独立于具体的文本串，事先根据模式串预测出所有可能出现的失配情况，并将这些信息“浓缩”为一张next表。

BM算法思路： 模式串P与文本串T的对准位置依然“自左向右”推移，而在每一对准位置却是“自右向左”地逐一比对各字符。具体地，在每一轮自右向左的比对过程中，一旦发现失配，则将P右移一定距离并再次与T对准，然后重新一轮自右向左的扫描比对。为实现高效率，BM算法同样需要充分利用以往的比对所提供的信息，使得P可以“安全地”向后移动尽可能远的距离。

主体框架

int match ( char* P, char*T ) { //Boyer-Morre算法（完全版，兼顾Bad Character与Good Suffix）
	int* bc = buildBC ( P ); int* gs = buildGS ( P );	//构造BC表和Gs表
	size_t i = 0;	//模式串相对于文本串的起始位置（初始时与文本串左对齐)
	while ( strlen ( T ) >= i + strlen ( P ) ) {	//不断右移（距离可能不止一个字符）模式串
		int j = strlen ( P ) - 1;	//从模式串最末尾的字符开始
		while ( P[j] == T[i + j]）	//自右向左比对
			if ( 0 > --j ) break;
		if ( 0 >j )	//若极大匹配后缀== 整个模式串（说明已经完全匹配)
			break;	//返回匹配位置
		else //否则，适当地移动模式串
			i += __max ( gs[j], j - bc[ T[i+ j] ] );	//位移量根据BC表和Gs表选择大者
	}
	delete [] gs; delete [] bc;//销毁Gs表和BC表
	return i;
}

借助整数i和j指示文本串中当前的对齐位置T[i]和模式串中接受比对的字符P[j]。不过，一旦局部失配，这里不再是机械地令i += 1并在下一字符处重新对齐，而是采用了两种启发式策略确定最大的安全移动距离。为此，需经过预处理，根据模式串P整理出坏字符和好后缀两类信息。

坏字符策略

若模式串P当前在文本串T中的对齐位置为i，且在这一轮自右向左将P与substr(T, i, m)的比对过程中，在P[j]处首次发现失配：T[i + j] = 'X' != 'Y' = P[j]，则将'X'称作坏字符。
问题的关键是： 接下来应该选择P 中哪个字符对准T[i + j] ，然后开始下一轮自右向左的比对？

若P与T的某一（包括T[i + j]在内的）子串匹配，则必然在T[i + j] = 'X'处匹配；反之，若与T[i + j]对准的字符不是'X'，则必然失配。
如图 (c )所示，只需找出P中的每一字符 'X'，分别与T[i + j] = 'X'对准，并执行一轮自右向左的扫描比对。
对应于每个这样的字符'X'，P的位移量仅取决于原失配位置j，以及'X'在P中的秩，而与T和i无关！

bc[ ] 表

若P中包含多个'X'，仅尝试P中最靠右的字符'X'（若存在），可在确保不致遗漏匹配的前提下，始终单向地滑动模式串。
如图(c )所示，若P中最靠右的字符'X'为P[k] = 'X'，则P的右移量即为j - k。
对于任一给定的模式串P，k值只取决于字符T[i + j] = 'X'，因此可将其视作从字符表到整数（P中字符的秩）的一个函数： $\begin{cases} k &\text{若 p[k] =c，且对所有的 i>k 都有 p[i] != c} \\ -1 &\text{若 p[ ] 中不含字符 c } \end{cases}$

预先将函数bc()整理为一份查询表，称作BC表。

若P根本就不含坏字符'X'，则如图(d)所示，应将该串整体移过失配位置T[i + j]，用P[0]对准T[i + j + 1]，再启动下一轮比对；
即使P串中含有坏字符'X'，但其中最靠右者的位置也可能太靠右，以至于k = bc['X']>= j。此时的j - k不再是正数，故若仍以此距离右移模式串，则实际效果将如上图(e)所示等同于左移；
如图(f)所示，简单地将P串右移一个字符，然后启动下一轮自右向左的比对。

实现

//*****************************************************************************************
// 0						bc['X']			 						m-1
// | 						| 										|
// .........................X***************************************
// 						    .|<------------- 'X' free ------------->|
//*****************************************************************************************
int* buildBc ( char* P ) {	//构造Bad Charactor Shift表: o(m + 256)
	int* bc = new int[256]; //Bc表，与字符表等长
	for ( size_t j = 0; j < 256; j ++ ) bc[j] = -1;	//初始化︰首先假设所有字符均未在P中出现
	for ( size_t m = strlen ( P )， j = 0; j <m; j ++ )	//自左向右扫描模式串P
		bc[ P[j] ] = j;	//将字符P[j]的Bc项更新为j(单调递增)——画家算法
	return bc;
}

对BC初始化之后，对模式串P做一遍线性扫描，并不断用当前字符的秩更新BC表中的对应项。因为是按秩递增的次序从左到右扫描，故只要字符c在P中出现过，则最终的bc[c]必将记录下其中最靠右者的秩。
运行时间可划分为两部分，分别消耗于其中的两个循环。前者是对字符表 $\sum$ 中的每个字符分别做初始化，时间量不超过 $\cal O(|\sum|)$ 。后一循环对模式串P做一轮扫描，其中每个字符消耗O(1)时间，故共需O(m)时间。由此可知，BC表可在 $\cal O(|\sum| + m)$ 时间内构造出来，其中 $|\sum|$ 为字符表的规模，m为模式串的长度。

复杂度
BM算法本身进行串模式匹配所需的时间与具体的输入十分相关。
低于O(n)——实际情况，通常情况下；
最好：O(n / m)
最坏：O(n × m)——P总要完整地扫描一遍才发现失配并向右移动一个字符。

好后缀策略

坏字符：一旦发现P[j]与T[i + j]失配，就将P与T重新对齐于至少可使T[i + j]恢复匹配（含通配）的位置——有时计算效率将退化为几乎等同于蛮力算法。
坏字符策略仅利用了此前（最后一次）失败比对所提供的“教训”，成功比对的“经验”却被忽略了。

每轮比对中的若干次（连续的）成功匹配，都对应于模式串P的一个后缀，称作 “好后缀”。（good suffix）

如图(a)和(b)所示，设本轮自右向左的扫描终止于失配位置：T[i + j] = 'X' != 'Y' = P[j]
若分别记：W = substr(T, i + j + 1, m - j - 1) = T[i + j + 1, m + i)，U = suffix(P, m - j - 1) = P[j + 1, m)
则U即为当前的好后缀，W为T中与之匹配的子串。
好后缀U长度为m - j - 1，故只要 j <= m - 2，则U必非空，且有U = W。

图( c)所示，设存在某一整数k，使得在将P右移j - k个单元，并使P[k]与T[i + j]相互对齐之后，P能够与文本串T的某一（包含T[m + i - 1]在内的）子串匹配，亦即：P = substr(T, i + j - k, m) = T[i + j - k, m + i + j - k)
于是，若记：V(k) = substr(P, k + 1, m - j - 1) = P[k + 1, m - j + k)
则必然有：V(k) = W = U
若值得将P[k]与T[i + j]对齐并做新的一轮比对，则P的子串V(k)首先必须与P自己的后缀U相互匹配——这正是从好后缀中“挖掘”出来的“经验”。

复杂度
同时结合以上BC表和GS表两种启发策略，加快模式串相对于文本串的右移速度。可以证明，对于匹配失败的情况，总体比对的次数不致超过O(n)

在兼顾了坏字符与好后缀两种策略之后，BM算法的运行时间为O(n + m)。

算法纵览

时间效率的变化范围

典型串匹配算法的复杂度

蛮力（BF）算法的时间效率介于O(n * m)至O(n + m)之间，而且其最好情况与KMP算法相当。

KMP 的优势在于，无论何种情况，时间效率均稳定在O(n + m)。因此在蛮力算法效率接近或达到最坏的O(n * m)时，KMP算法的优势才会十分明显。

仅采用坏字符启发策略（BC）的BM算法，时间效率介于O(n * m)至O(n / m)之间。其最好情况与最坏情况相差悬殊。
结合了好后缀启发策略（BC + GS）后的BM算法，则介于O(n +m)和O(n / m)之间。可见，在改进最低效率的同时，保持了最高效率的优势。

单次比对成功概率

随着单次比对成功概率（横轴）的提高，串匹配算法的运行时间(纵轴）通常亦将增加。

各种算法的最坏情况均可概括为：因启发策略不够精妙甚至不当，在每一对齐位置都需进行多达O(m)次成功的比对（另加最后一次失败的比对）。

将单次比对成功的概率记作Pr，纵坐标为运行时间，分为O(n / m)、O(n + m)和O(n * m)三档

消耗于每一对齐位置的平均时间成本随Pr的提高而增加

字符表长度

在所有字符均等概率出现的情况下，Pr的取值将主要决定于字符表的长度 $|\sum|$ ，并与之成反比关系：字符表越长，其中任何一对字符匹配的概率越低。

这里讲的好：BM(Boyer-Moore) 算法详解

你可能感兴趣的:(数据结构和算法,数据结构,算法,开发语言)

YOLO算法全面改进指南（二） niuTaylor YOLO改进 YOLO 算法
以下是为YOLO系列算法设计的系统性改进框架，结合前沿技术与多领域创新，提供可支持高水平论文发表的详细改进思路。本方案整合了轻量化设计、多模态融合、动态特征优化等创新点，并给出可验证的实验方向。一、多模态提示驱动的开放场景检测系统1.核心创新三模态提示机制：文本提示编码器：基于RepRTA（可重参数化区域文本对齐）构建轻量级文本编码网络，将自然语言描述映射为128维语义向量。视觉提示编码器：采用S
算法之魂：深入剖析数据结构中的七大排序算法 GeminiGlory 数据结构数据结构排序算法算法
目录1.冒泡排序（BubbleSort）2.选择排序（SelectionSort）3.插入排序（InsertionSort）4.希尔排序（ShellSort）5.快速排序（QuickSort）6.归并排序（MergeSort）7.堆排序（HeapSort）在计算机科学领域，排序是一项基础但至关重要的操作。无论你是处理数据库查询结果还是优化搜索效率，了解不同的排序算法及其适用场景都至关重要。本文将介
LLM-Agent方法评估与效果分析 agent人工智能ai开发
1.引言近年来，随着大型语言模型（LLM）的快速发展，基于强化学习（RL）对LLM进行微调以使其具备代理（Agent）能力成为研究热点。从基础的单智能体强化学习算法（如PPO）到多智能体协作、语料重组以及在线自学习等新技术不断涌现，研究人员致力于探索如何提高LLM在实际应用中的决策能力、推理能力和任务执行效率。本文主要聚焦于当前LLM-Agent方法的检索与评估，旨在全面探讨各类方法的技术实现、实
初阶数据结构习题【16】（4栈和队列）——622. 设计循环队列 graceyun ##Leetcode 数据结构算法
1.题目描述力扣在线OJ——622.设计循环队列设计你的循环队列实现。循环队列是一种线性数据结构，其操作表现基于FIFO（先进先出）原则并且队尾被连接在队首之后以形成一个循环。它也被称为“环形缓冲器”。循环队列的一个好处是我们可以利用这个队列之前用过的空间。在一个普通队列里，一旦一个队列满了，我们就不能插入下一个元素，即使在队列前面仍有空间。但是使用循环队列，我们能使用这些空间去存储新的值。你的实
TreeNode底层实现原理 zhglhy 开发语言 java
TreeNode是树结构的基本单元，通常用于表示树形数据结构中的节点。其底层实现原理涉及以下几个方面：1.TreeNode的基本结构在Java中，TreeNode通常是一个类，包含以下核心属性：数据域：存储节点的数据。子节点引用：指向子节点的引用（对于二叉树，通常是左子节点和右子节点）。父节点引用：指向父节点的引用（可选，取决于具体实现）。以下是一个典型的二叉树节点的实现：classTreeNod
MongoDB z小天才b MongoDB mongodb 数据库
一、MongoDB简介1.1什么是MongoDB？MongoDB是一个基于分布式文件存储的开源NoSQL数据库系统，由C++语言编写，旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB将数据存储为一个文档，数据结构由键值对组成，类似于JSON对象，字段值可以包含其他文档、数组及文档数组。1.2MongoDB的核心特性文档型数据库：数据以BSON（BinaryJSON）格式存储灵活的
算法刷题记录——LeetCode篇(1) [第1~100题](持续更新) Allen Wurlitzer 实战-算法解题算法 leetcode 职场和发展
更新时间：2025-03-21LeetCode刷题目录：算法刷题记录——专题目录汇总技术博客总目录：计算机技术系列博客——目录页优先整理热门100及面试150，不定期持续更新，欢迎关注！1.两数之和给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以
LLM 大模型技术知识最佳学习路径图发布！ AGI-杠哥学习人工智能语言模型 agi 自然语言处理
近日，经常有小伙伴私信我，大模型知识太多了，有点懵啊，我该如何学习LLM大模型？今天我们就来剖析下LLM大模型技术知识的学习路径。如果你是一个LLM大模型的“技术小白”，我们建议的学习路径如下：技术交流群前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~我们建了大模型技术与面试交流群
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
Redis 哨兵模式的选举算法是什么？少林码僧 redis sentinel
Redis哨兵模式中的选举算法主要用于在主节点出现故障时，从多个Sentinel节点中选出一个领导者（Leader）来执行故障转移操作。Redis哨兵的选举算法基于Raft算法的简化版本，但不完全等同于标准的Raft算法。以下是其主要过程：一、发现主节点故障当一个Sentinel节点主观地认为主节点不可达时（通常是在一定时间内没有收到主节点的PING回复），它会将主节点标记为主观下线（Subjec
初级：数组与字符串面试题深度剖析佩奇的技术笔记 Java面试小册 java
一、引言在Java开发中，数组和字符串是最常用的数据结构之一。面试官通过相关问题考察候选人对数组和字符串的理解和运用能力，以及在实际开发中解决相关问题的经验。本文将深入剖析常见的数组与字符串面试题，结合实际开发场景，帮助读者全面掌握这些知识点。二、数组面试题：如何对数组进行初始化和遍历？答案：数组的初始化可以使用直接初始化、动态初始化等方式。遍历数组可以使用传统的for循环、增强型for循环（fo
Kafka 的消息压缩机制：优化存储与传输的利器阿贾克斯的黎明 java linq c#java
目录Kafka的消息压缩机制：优化存储与传输的利器一、消息压缩机制的重要意义1.减少存储成本2.提升网络传输效率二、Kafka常用的消息压缩算法1.GZIP压缩2.Snappy压缩3.前端展示压缩状态（Vue3+TS）在消息中间件的大家族中，Kafka以其卓越的性能而备受瞩目。其中，Kafka的消息压缩机制是一项非常重要的特性，它就像是一个高效的“压缩包”，在不损失数据内容的前提下，有效减少数据的
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
贪心算法之分发饼干努力小子 #刷题（简单难度）#贪心算法
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值gi，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸sj。如果sj>=gi，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。注意：你可以假设胃口值为正。一个小朋友最多只能拥有一块饼干。示例1:输入:[1
JAVA刷Leecode-贪心算法-分配问题-分发饼干搬砖的水鱼 leetcode 算法 java python leetcode 贪心算法
JAVA刷Leecode-贪心算法算法思想分配问题-分发饼干（135，hard)算法思想采用贪心的策略，保证每次操作都是局部最优解，从而最终的结果是全局最优。贪心算法不是对所有问题都能得到整体最优解，选择的贪心策略必须具有无后效性，即某个状态以前的过程不会影响以后的状态，只和当前的状态相关。包括分配问题（455，135）和区间问题（435）；练习：605，452，763，122，406。分配问题-
【贪心算法】1、分发饼干念奕玥【Java】数据结构与算法 java leetcode 贪心算法
贪心算法或贪心思想采用贪心的策略，保证每次操作都是局部最优的，从而使最后得到的结果是全局最优的。可用于解决分配问题e.g.leetcode455分发饼干解题思路：目标：尽可能满足越多数量的孩子。根据目标，可以容易想到，先去满足胃口值小的孩子。为了尽量使饼干可以满足更多的孩子，所以要把饼干尺寸大于等于孩子胃口值的饼干中挑尺寸最小的饼干给孩子。满足了这个孩子之后，再采取同样的策略去考虑剩下的孩子，直到
流浪地球 - 华为OD机试真题(E卷、C++) 什码情况华为od c++算法数据结构面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
数据结构双向链表的创建与初始化拉梅洛. 数据结构链表
#include#include#include//定义节点类型typedefintdata_t;typedefstructnode{data_tdata;//以整型数据为例structnode*prev;//指向structnode点的指针structnode*next;//指向structnode点的指针}node_t;intdlist_create(node_t**,data_t);//函数
贪心算法-455分发饼干工大一只猿贪心算法算法
classSolution{public:intfindContentChildren(vector&g,vector&s){sort(g.begin(),g.end());sort(s.begin(),s.end());intcount=0;inti=g.size()-1;intj=s.size()-1;for(i;i>=0;i--){if(j>=0&&s[j]>=g[i]){j--;count
455. 分发饼干（贪心算法）穿过漫长林径 LeetCode
455.分发饼干题目描述：有一群孩子和一堆饼干，每个孩子有一个饥饿度，每个饼干都有一个大小。每个孩子只能吃一个饼干，且只有饼干的大小不小于孩子的饥饿度时，这个孩子才能吃饱。求解最多有多少孩子可以吃饱。示例1:输入:g=[1,2,3],s=[1,1]输出:1解释:你有三个孩子和两块小饼干，3个孩子的胃口值分别是：1,2,3。虽然你有两块小饼干，由于他们的尺寸都是1，你只能让胃口值是1的孩子满足。所以
贪心算法：分发饼干 AlphaFinance 求职面试
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出:1解释:
2021-11-12 455. 分发饼干（贪心算法） TABE_ 贪心算法 leetcode 算法
注：题目：假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出
贪心算法（9）（java）最优除法奋进的小暄 java 贪心算法算法
题目：给定一正整数数组nums,nums中的相邻整数将进行浮点除法。例如，[2,3.4]->2/3/4.例如，nums=[2,3,4]，我们将求表达式的值“2/3/4"。但是，你可以在任意位置添加任意数目的括号，来改变算数的优先级。你需要找出怎么添加括号，以便计算后的表达式的值为最大值。以字符串格式返回具有最大值的对应表达式。注意:你的表达式不应该包含多余的括号。输入：【1000，100，10，2
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
优化 Java 数据结构选择与使用，提升程序性能与可维护性 A-Kamen java 数据结构开发语言
引言在软件开发中，数据结构的选择是影响程序性能、内存使用以及代码可维护性的关键因素之一。Java作为一门广泛使用的编程语言，提供了丰富的内置数据结构，如数组、链表、栈、队列、树、图以及集合框架中的各种接口实现（如List,Set,Map等）。然而，面对不同的应用场景，如何合理地选择和优化数据结构，成为了一个值得深入探讨的话题。本文将介绍几种常见的Java数据结构，并探讨如何根据实际需求进行优化选择
机器臂运动控制算法工程师面试道亦无名面试算法人工智能机器学习
大厂的经验总结：一、基础概念理解请解释机器臂运动学正解和逆解的概念，并分别说明其用途。正解：已知机器臂各关节的角度（或位移），通过运动学模型计算出机器臂末端执行器在笛卡尔空间中的位置和姿态。用途在于可以根据给定的关节驱动值，预测末端的实际位置，用于运动仿真、路径验证等，比如在工业生产前模拟机器臂的动作是否能准确到达加工位置。逆解：已知机器臂末端执行器在笛卡尔空间中的期望位置和姿态，求解出各关节应处
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开