famince

DAT (Double Array Trie) 多模式匹配算法

一、简介:

1.1、字典树trie:

字典树trie 搜索关键码的时间和关键码自身及其长度有关，最快是0(1),，即在第一层即可判断是否搜索到，最坏的情况是0(n), n为Trie树的层数。由于很多时候Trie树的大多数结点分支很少，因此Trie树结构空间浪费比较多。

关键码检索策略可以根据关键码是否可以动态变化，分为两类:

1、动态策略"dynamic method": 允许检索表动态变化,包括hashing，二进制树，B+树，扩展hashing,trie hashing;

2、静态策略"static method": 不允许检索表动态变化,包括完美hashing，稀疏表，压缩trie;

本文介绍的double array trie 在两种策略之间，称为"weak static method";

1.2、Digital-search Tree定义:

K 表示模式串(KEYS)集合.

S 是有限的节点集合.

s 是初始节点,即root节点.

I 表示有限的输入字符(INPUT)集合.

g() 转移函数,是一个节点在接受一个字符后转向另一个节点或者失败的函数.

A 表示有限的接受状态(ACCEPT)节点集合.

这里只用到DS tree 的定义，其具体实现不需要理解, 该定义同前面的有限自动机(FSM)定义类似，仅为了后面理解方便;同FSM 中把字符直接作为边的做法不同，这里需要把所有关键码(如字符)转换成对应数字,用作数组索引的一个偏移.

*这里为了区别带有相同前缀的模式串如"the"和"then",在每个模式串末尾加上特定符号'#'(可根据实际情况变换);

假设一个模式串集K, 节点s，节点m 满足 g(s,a) = m:

1.3、DAT(double-array trie)定义:

把trie压缩成两个一维数组 BASE,CHECK 的DS-Tree(digital search tree)算法，称为double-array trie(下面缩写成DAT);这个算法的本质就是将Trie树结构简化为两个线性数组.

1.4、DAT由triple-array 演化而来缘由:

triple-array 结构较之DAT多了个 NEXT 数组,因我们可以把输入字符用数字化表示,

有 BASE[s] + a = m 以及CHECK[m] = s;

可知下一个节点m可以通过当前节点加上当前输入字符的索引算得出,并且保证其上一个节点就是s,故triple-array结构可以压缩到两个数组;

1.5、reduced trie :

reduced trie 是在DAT基础上,引进TAIL[] 数组优化而来, 介绍reduced trie之前解释下几个名词:

1>、独立节点(separate node):

当字符'a'(或对应的边)能绝对把当前模式串区分于别的模式串,节点 m 称为独立节点(separate node).

2>、独立字符串(a single string for m):

从独立节点m 到模式串末尾的残留字符串称为单独节点m的独立字符串,标记为 STR[m].

3>、the tail of K:

模式串 K 的独立字符串会从模式串中剪切掉存储到 TAIL[]，记为the tail of K.

4>、reduced trie的定义:

一棵树只由从 root 节点到独立节点的边构造，则称为reduced trie.

下面是一个reduced trie 例子:

对于关键码集 K={baby#, bachelor#, badge#, jar#}, reduced trie 最后reduced trie构造如下(图一):

以上图为例，reduced trie 有如下两个关系:

关系1、如果在 reduced trie中有一条边满足 g(s,a)=m, 则有:

BASE[s] + a = m, and CHECK[m] = s.(本文假定对应边上的标签: '#'= 1,'a'=2,'b'=3,'d'=4...以此类推)

*在实际的编码需要考虑各字符对应的数值编码,我下面的代码为了模拟本文的结果,做了对应调整;

关系2、已知m是一个独立节点，以及其独立字符串 STR[m] = b1 b2...bh,则有:

a> BASE[m] < 0;

b> 假定 p = -BASE[m], 则有 TAIL[p]= b1, TAIL[p + 1]= b2, TAIL[p + h + 1]= bh.

*这两个关系对理解 reduced trie 比较重要，在后续原理讲解以及code中均有体现;

二、Reduced Trie 检索,构造，删除具体流程:

2.1、Reduced Trie 的检索:

以检索关键码 "bachelor#"为例:

step 1: 将root 节点存储在BASE[1]位置,从root节点开始,首字符'b'对应数值为3,根据上面关系1有:

BASE[s] + a = BASE[1]+ 'b' = BASE[l]+3 = 4+3 = 7

同时有 CHECK[7] = 1

step 2:注意到上面得出的 BASE 索引值7 为正数,同时根据下一个字符'a'对应数值为2,有:

BASE[7] + 'a'= BASE[7] + 2 = l + 2 = 3,

同时有 CHECK[3] = 7

step 3,4:重复以上步骤，根据字符'c'对应数字4:

BASE[3]+ 'c' = BASE[3] + 4 = 1 + 4 = 5,

同时有 CHECK[5] = 3

step 5: 已知 BASE[5] 的值为 –1. 负数表明剩余的独立字符串存储在起始位置为 -BASE[5] = 1 的TAIL数组中,其他关键码的检索同以上过程,注意每次检索开始都是从root节点开始;

注意到上面检索过程只涉及到数组直接的查找,以及加法运算,可知检索算法非常的高效;

2.2、Reduced Trie 的插入(构造):

插入(构造)又分四种情况:

case 1:当双数组trie 为空时，插入关键码;

case 2:在没有冲突时插入关键码;

case 3:当插入关键码时有冲突,这时新增字符必须添加进 BASE,同时将对应独立字符串从TAIL 中移除、修改以便解决冲突; 但是不需要移动 BASE 数组中原有值;

case 4:同case3 当插入关键码时有冲突,不同的是这时需要移动 BASE 中原有值,以便能解决冲突;

发生冲突说明两个不同的字符在BASE、CHECK 中有相同的索引值，四种情况分别以插入"bachelor#"(case 1),"jar#"case 2),"badge#"case 3),"baby#"case 4)为例,并配以图示;

下面是详细过程:

case 1:当双数组trie 为空时，插入关键码,以插入"bachelor#"为例:

Step 1:从root 节点 BASE[1] 开始, 'b'对应数字3:

BASE[1] + 'b' = BASE[l] + 3 = l + 3 = 4, and CHECK[4] = 0 ≠ 1

Step 2:上面求出的CHECK[4] = 0 表明该节点 BASE[4] 为独立节点，同时直接记录剩余的独立字符串 "achelor#" 至TAIL[]中;

Step 3:设置:

BASE[4] = -tail_pos = -1;(tail_pos 初始为1, TAIL[0]不存储)

表明剩余的独立字符串存储在TAIL[] 起始位置为 tail_pos;同时设置:

CHECK[4] = 1;

表明节点4 的父节点是节点1;

Step 4:在把独立字符串"achelor#"拷贝进 TAIL[] 后, 更新 TAIL 空闲索引值:

tail_pos = 9;

表明 TAIL[] 数组下次允许插入位置;

同时下图是插入"bachelor#" 后 reduced trie 结构以及各数组数据的图示(图二):

case 2:在没有冲突时插入关键码,以插入"jar#"为例:

Step 1:同样从root节点开始，即BASE[1],'j'对应数字11,有:

BASE[l] + 'j' = BASE[1]+11 = 1+11 = 12, and CHECK [12]= 0 ≠ 1

Step 2:CHECK[12] = 0 表明该节点BASE[12]为独立节点，不会和已有节点冲突，可以直接记录剩余的独立字符串 "r#" 至 TAIL[] 尾部;

Step 3:设置

BASE[12] = -tail_pos = -9;

表明该节点后续的独立字符串"r#"存储以 TAIL[9] 开始的后面数组中,同时设置:

CHECK[12] = 1;

表明节点12 的父节点是节点1;

Step 4:在把独立字符串"r#"拷贝进 TAIL[] 后, 更新 TAIL 空闲索引值:

tail_pos = 12;

表明 TAIL[] 数组下次允许插入位置;

通过观察得知,case 2 和 case 1没有本质区别;下图是插入"jar#" 后 reduced trie 结构以及各数组数据的图示(图三):

在讲解case3、4之前，先引入一个函数 X_CHECK(list)，函数返回正数q,其中q满足

1、q > 0;

2、对于字符串list中所有字符'c'有,CHECK[q+c] = 0;

q 是从1开始确认，并每次递增1,该函数本质是在BASE[]数组中发生冲突时,找到最近一个基准位置，确保有足够空间能保存所有冲突(重叠)的节点;

case 3:当插入关键码时有冲突,这时新增字符必须添加进 BASE,同时将对应独立字符串从TAIL 中移除、修改以便解决冲突; 但是不需要移动 BASE 数组中原有值,这里以插入"badge#"为例:

Step 1:同样从root节点开始，即BASE[1],'j'对应数字11:

BASE[l] + 'b' = BASE [l]+3 = l+3= 4, 已有 CHECK[4] = 1

上面CHECK[4] = 1 非0，表明从节点1 到节点4 的有向边已经存在;

Step 2:利用上面求出的数值4，知道 BASE[] 数组对应位置数值:

BASE[4] = -1;

BASE[4] 位置的负数表明该节点是独立节点，以及剩余的独立字符串存储在TAIL 中，现在新的关键码有同样的节点，说明原来该节点不能作为新的独立节点，即原来独立字符串中有字符需要存储到BASE 中，同时需要修改TAIL 中存储的对应独立字符串;

Step 3:从-BASE[4]位置开始检索读取存储在 TAIL[] 的独立字符串, 和新插入关键码后续字符比对，即比对“chelor#”和"dge#"，两者不相等，说明不是同一个关键码，接下来存储两者的最大公共前缀，以及两者各自剩余的独立字符串;

Step 4:保存下原来独立字符串起始位置:

TEMP = -BASE[4] = 1;

Step 5:已知"adge#" and "achelor#" 两者最大公共前缀"a", 通过 X_CHECK({'a'})求出新基节点:

CHECK[ q+a ]= CHECK [ l+'a' ] = CHECK[ l+2 ]= CHECK[3] = 0

可知当 q=1 满足条件，同时是BASE[4]的新值，以及CHECK[3]=0 表明新基节点3为空;

Step 6:BASE[4] 赋新值:

BASE[4] = q = 1;

同时赋予上面节点3 对应 CHECK 值;

CHECK[ BASE[4]+'a'] = CHECK[l+2] = CHECK [3] = 4;

容易得知节点3 的父节点是节点 4;

注意:本例这里步骤5、6不需要重复执行，如果公共前缀不止一个字符，则需要重复多次,次数为公共前缀字符长度;

Step 7:接下来存储两个关键码剩余的字符串 "chelor#","dge#", 通过X_CHECK({'c','d'})计算，存储基于BASE[3]节点的两条外向边'c','d'对应节点的基索引值,如下:

For 'c': CHECK[q + 'c'] = CHECK[l + 4] = CHECK[5] = 0;

For 'd': CHECK[q + 'd'] = CHECK[l + 5] = CHECK[6] = 0;

可以知道节点5、6均空闲，所以q = 1 满足条件,所以设置:

BASE[3] = 1;

Step 8:计算"chelor#" 的独立节点字符'c' 以及剩余独立字符串在BASE 以及CHECK[] 对应数值:

BASE[3] + 'c' = 1+4 = 5;

BASE[5] = -TEMP = –1;

CHECK[5] = 3;

BASE[] 中的值为正时解释当前节点所有子节点的基准值，为负时解释独立字符串在TAIL 中的位置;

CHECK[] 中的值表明节点5节点父节点是3，解释各节点的层次关系;

同时图示中各节点的数值为其父节点基准值和至该节点外向边字符索引值之和;

Step 9:把上面剩余的独立字符串 "helor#" 存储到TAIL 中, 起始地址为-CHECK[5] = 1,根据以下图示，TAIL[7] TAIL[8] 处字符变成'?'表明无效数据;(我的代码里面没有做这个处理，读者可以自己实现下);

Step 10:接下来存储另一个字符串"dge#':

BASE[3] +‘d’= l + 5 = 6;

BASE[6] = -tail_pos = –12;

CHECK[6] = 3;

同时把独立字符串 "ge#' 存储到 TAIL[12] 位置;

Step 11:最后更新TAIL[] 空闲索引值为插入"ge#" 后的位置:

tail_pos = 12 + length["ge#"] = 12 + 3 = 15;

总结:当新增关键码和已有关键码因有相同前缀导致冲突，需要已经存储进TAIL[] 的独立字符串提取出来比对，把公共前缀字符存储进BASE[] CHECK[] 中,依次根据上一个节点求下一个节点存储位置，并根据最后一个公共节点 BASE 值和独立字符索引，存储对应独立节点，同时独立节点BASE[] 值关联对应独立字符串在TAIL[]位置; 下图是case 3 插入结束后的数据图(图四):

case 4:同case3 当插入关键码时有冲突,不同的是这时需要移动 BASE 中原有值,以便能解决冲突,以插入"baby#"为例:

Step 1:同样从root节点开始，依据前面解释，可以遍历前三个字符:

BASE[l] + 'b' = BASE[l]+3 = l+3= 4, and CHECK[4] = 1;

BASE[4] + 'a' = BASE[4]+2 = l+2= 3, and CHECK[3] = 4;

BASE[3] + 'b' = BASE[3]+3 = l+3= 4, and CHECK[4] = l ≠ 3;

CHECK[4] 位置的不一致, 表明节点1 和节点3 有冲突，需要修改以便允许后续字符插入;

Step 2:保存一个临时变量:

EMP_NODE1 = BASE[3] + 'b' = 1 + 3 = 4;

假如CHECK[4]是为0,则表明该节点空闲,可以直接插入TAIL[] 的tail_pos位置;但实际不是,需如下处理:

Step 3:将上面发生冲突节点的各外向变对应字符,存储在以冲突的节点数值号(3)为序号的 (char *)LIST[] 对应位置中,有:

LIST[3] = {'c','d'};

另一个list,以step 1 中 CHECK 算出的冲突节点号 1 为序号,并把所有该节点的外向变对应的字符,存储到(char *)LIST[] 对应位置中:

LIST[1] = {'b','j'};

Step 4:现在的目的是要把新字符串关联到节点3处,比较这两个 LIST 长度,其中LIST[3] 做加1处理,因考虑到在节点3处需新增关联字符.关系式如下:

compare( length(LlST[3]) + 1, length(LIST[l]) ) = compare(3, 2)

如果length(LIST[3])+1 < length(LIST[1]),则节点3需要修改;但现在正好相反,则需要修改节点1,具体如下;

Step 5:把上面需要修改的节点对应 BASE 值存储到一个临时变量中:

TEMP_BASE = BASE[l] = l;

计算出一个能保存LIST[1]所有字符,且距离最近的有效 BASE 基值,计算如下:

X_CHECK['b'] : CHECK[q+'b']

= CHECK[1+3] = CHECK[4] = l ≠ 0;

CHECK[2+3] = CHECK[5] = –l ≠ 0;

CHECK[3+3] = CHECK[6] =–12 ≠ 0;

CHECK[4+3] = CHECK[7] = 0 (available)

同时有:

X_CHECK['j']: CHECK[q+'j'] = CHECK[4+11] = CHECK[15] ≠ 0 (available)

可知当 q = 4 是可行的,设置新 BASE 值:

BASE[1] = 4;

Step 6:对于字符'b',将该节点各值存储至临时变量:

TEMP_NODE1 = TEMP_BASE + 'b' = 1 + 3 = 4;

TEMP_NODE2 = BASE[1] + 'b' = 4 + 3 = 7;

首先把原来节点的 BASE 值赋值到新节点:

BASE[TEMP_NODE2] = BASE[TEMP_NODE1]; 即: BASE[7] = BASE[4] = 1;

同时设置新节点的CHECK 值:

CHECK[TEMP_NODE2] = CHECK[7] = CHECK[4] = 1;

Step 7:因有:

BASE[TEMP_NODE1] = BASE[4] = 1 > 0;

可知,该节点作为基准值，而不是指向TAIL 存储位置,所以需要把所有以该节点为基准值的节点关联到新节点,即遍历从该节点基准值后所有节点是否其父节点为原来节点:

CHECK[ BASE[TEMP_NODE1] + w ] = TEMP_NODE1;

即查找所有满足下式的 w 偏移值:

CHECK[ BASE[4]+ w ] = 4;

CHECK[1+ w ] = 4;

可知只有 w = 2 (字符'a')满足条件;

同时修改对应CHECK 值指向新节点,有:

CHECK[ BASE[4] + w ] = CHECK[ l+2 ] = CHECK[3] = TEMP_NODE2 = 7;

Step 8:初始化字符'b'对应节点(图四中的节点4)的BASE 值以及CHECK 值:

BASE [ TEMP_NODE1 ] = BASE [4] = 0;

CHECK [ TEMP_NODE1 ] = CHECK [4] = 0;

Step 9:前面移动了字符'b'对应的节点4，接下来移动字符'j'对应节点12,类似的，将该节点各值存储至临时变量:

TEMP_NODE1 = TEMP_BASE + 'j' = 1+11 = 12;

TEMP_NODE2 = BASE[1] + 'j' = 4+11 = 15;

首先把原来节点的 BASE 值赋值到新节点:

BASE[ TEMP_NODE2] = BASE[ TEMP_NODE1 ]; 即 BASE[15] = BASE[12]= -9;

同时修改对应CHECK 值指向新节点,有:

CHECK[ TEMP_NODE2 ] = CHECK[15] = CHECK[12] = 1;

Step 10:和前面节点4 BASE 值为正不同:

BASE[ TEMP_NODE1 ] = BASE[12] = –9 < 0;

表明该节点为独立节点，及其后面后缀存储在TAIL 数组中;只需要初始化原来节点12 BASE 及 CHECK 值:

BASE [ TEMP_NODE1 ] = BASE [12] = 0;

CHECK [ TEMP_NODE1 ] = CHECK [12 ] = 0;

至此，baby 中'b'插入导致的冲突已经解决了,下面只需存储剩余字符串"by#"就行了;

Step 11:下面考虑下原来没修改的节点3(图四)，在其后面插入新节点ba'b'y中第二个'b':

TEMP_NODE = BASE[3] + 'b' = 1+3 = 4;

Step 12:并将新节点BASE 值指向独立字符串存储位置:

BASE [ TEMP_NODE ] =BASE [4] = –tail_pos =–15;

同时设置该独立节点CHECK值:

CHECK[ TEMP_NODE ] = CHECK[4] = 3;

Step 13:插入对应独立字符串至 TAIL[] tail_pos位置:

TAlL[ tail_pos ] = TAlL[15] + "y#";

Step 14:更新TAIL[] 数组最新位置值:

tail_pos = tail_pos + length["y#"] = 15+2 = 17;

总结:当插入发送冲突时，如果BASE 数组值必须修改以便能够正常存储新插入字符时;需要比较发送冲突的节点和原来节点各自分支数，移动分支较少的"轴点" 至新位置以便插入新节点；如case 4中需要比较

节点1 分支"b,j" 和节点3 分支"c, d ,b" ，故需移动节点1 的两个子节点;

2.3、Reduced Trie 的删除:

从双数组tire 中删除节点也是直接了当的,删除操作和插入 case 2 中遍历处理过程类似.实际上，唯一的区别是需要重置指向删除了的关键字存储在TAIL[]中的指针;这里以删除"badge#"为例:

step 1:同样从root节点开始，即BASE[1],对于关键字"badge"各字符BASE[] CHECK[] 值如下:

BASE[1] + 'b' = BASE[1]+3 = 4+3=7, and CHECK[7] = 1;

BASE[7] + 'a' = BASE[7]+2 = l+2=3, and CHECK[3] = 7;

BASE[3] + 'd' = BASE[3]+5 = l+5=6, and CHECK[6] = 3;

BASE[6] = –12 < 0; 表明为 separate node.

step 2:比较剩余字符串"ge#" 和存储在TAIL -BASE[6] 即12位置的字符串:

compare("ge#", "ge#");

step 3:对应字符串相等，所以重置对应指向TAIL[] 的指针,即:

BASE [6] = 0;

CHECK [6] = 0;

下图(图五)为删除"badge"后结果图:

完整 code 我放在GitHub，ReadMe.txt里面有具体测试输入介绍;

https://github.com/oncelife/double-array-trie/

三、后记:

本文大部分从PDF 翻译过来，但是很多地方加上了我个人理解，也是我开始觉得不好理解,难理解的地方;

后续可以优化的有:

1、算法结构优化;

2、增加对中文支持等;

最近时间较忙，致使断断续续几经拖延才完成，本文如有任何问题，还请不吝赐教;

reference:

http://zh.wikipedia.org/zh-cn/Trie

An Implementation of Double-Array Trie.pdf

http://linux.thai.net/~thep/datrie/datrie.html

An Efficient Digital Search Algorithm by Using a Double-Array Structure.pdf

http://blog.csdn.net/zzran/article/details/8462002

你可能感兴趣的:(DAT,单词查找树,多模式匹配算法)

人工智能赋能气象气候：从数据智能到预测创新的融合之路慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
Python中使用Graphviz绘制决策树图解黃昱儒
本文还有配套的精品资源，点击获取简介：Graphviz是一款用于数据可视化和算法流程展示的图形绘制软件，特别适用于Python中绘制决策树和其他图形类型。本安装包包含Graphviz安装程序和配置指南，以及如何在Python中利用pydot库等第三方库进行图形绘制的详细步骤。通过配置环境变量和利用DOT语言，用户可以将决策树模型转换为可视化图形，加深对机器学习模型的理解和调试。1.Graphviz
【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 优秀论文推荐深度学习学习架构
【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构结果与讨论3.1消融区制图欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要
AI原生应用开发必知：事件驱动架构的10个最佳实践 AI原生应用开发 AI-native 架构 ai
AI原生应用开发必知：事件驱动架构的10个最佳实践关键词：AI原生应用、事件驱动架构、微服务、消息队列、异步处理、可扩展性、实时数据处理摘要：本文深入探讨了AI原生应用开发中事件驱动架构的10个最佳实践。我们将从基本概念出发，逐步分析事件驱动架构在AI应用中的优势，并通过实际代码示例展示如何实现这些最佳实践。文章涵盖了从设计模式到实际部署的全过程，旨在帮助开发者构建高性能、可扩展的AI应用系统。背
Agno（一）
一、基本功能介绍Agno是一个python框架，用于构建具有共享内存、知识和推理的多代理系统。工程师和研究人员使用Agno构建：1级：带有工具和说明的代理2级：具有知识和存储的代理3级：具有记忆和推理能力的代理4级：可以推理和协作的代理团队5级：具有状态和确定性的代理工作流例：使用YFinanceAPI回答问题的1级推理代理：fromagno.agentimportAgentfromagno.mo
【STM32】ADC的认识和使用——以STM32F407为例 Aeonio 嵌入式STM32 stm32 嵌入式硬件单片机
【STM32】ADC的认识和使用——以STM32F407为例文章目录【STM32】ADC的认识和使用——以STM32F407为例一、ADC简介ADC特性参数STM32F407的ADC主要特性ADC框图①输入电压②输入通道③转换顺序⑤转换时间⑦中断DMA请求（==只适用于规则组==）ADC工作模式单次转换模式和连续转换模式扫描模式不同模式组合的作用二、ADC配置单通道ADC采集配置步骤单通道ADC采
程序员简历包装实战指南：没有华而不实，只有直击要害的干货熊猫钓鱼>_> 面试技巧
简历不是自传，而是为雇主定制的解决方案说明书——每一行字都该回答“我为何值得你花一小时面试”这个核心命题作为甲方的技术面试官，我在技术招聘领域摸爬滚打十年，见过太多才华横溢的开发者因简历表达失焦而错失机会。本文将用最直白的语言，拆解程序员简历包装的底层逻辑和实操策略。一、理解筛选者的认知漏斗：HR与面试官的关注点分层HR的30秒扫描逻辑（关键词匹配模式）核心任务：从数百份简历中快速筛选出基本匹配者
Java基础字符串类 String StringBuffer 和StringBuilder 骑牛小道士 java 基础 java 开发语言
字符串核心对比表String：不可变字符串StringBuffer：线程安全的可变字符串扩容机制：StringBuilder：线程不安全的高效可变字符串使用场景决策树1.String：不可变字符串，任何修改都会创建新的字符串对象。2.StringBuffer：可变字符串，线程安全（方法使用synchronized修饰），适合多线程环境3.StringBuilder：可变字符串，非线程安全（没有同步
【字节跳动】数据挖掘面试题0005：在旋转有序数组中查找是否存在元素key 言析数智数据挖掘常见面试题算法面试题数据挖掘二分查找法
文章大纲方法思路代码解释问题场景：在“打乱”的有序数组里找数核心思路：每次排除一半可能性分步骤找数（以数组[7,8,9,10,1,2,3]为例，找数字10）再举个反例：找数字5（数组中没有）用“左右有序”的逻辑来总结代码的“人话”翻译为什么时间复杂度是O(logn)？要在旋转后的有序数组中以O(logn)时间复杂度查找元素，可利用二分查找的变体。关键在于确定哪一半数组仍然有序，并判断目标值是否在该
RPC--Netty客户端实现高兴达 rpc java spring
组件一、channelProvider为netty客户端提供可用的通道的组件，本质上就是维护了一个channelMap，为了线程安全，这里用的是concurrentHashMap（有点连接池的意思，有状态感知获取channel时判断channel状态）1、get方法：根据传入的服务地址（如127.0.0.1：9980）查找对应的channel，如果channel已经关闭或者不可用就清理缓存避免使用
设计模式之【模版方法模式】丶小鱼丶设计模式设计模式 java
目录接口抽象类多种实现算法接口publicinterfaceIndex{//最大容量intMAX_CAPACITY=1implementsIndex{@OverridepublicintcomputeIndex(intcapacity,Ekey){//整体实现步骤//1、使容量为2的n次幂(通用逻辑在父类中实现)capacity=twoPowerCapacity(capacity);//2、计算k
Java创建型模式---单例模式 hqxstudying java 设计模式数据结构代码规范
单例模式基础概念单例模式是一种创建型设计模式，其核心思想是确保一个类仅有一个实例，并提供一个全局访问点来获取这个实例。在Java中实现单例模式主要有以下关键点：私有构造函数-防止外部通过new关键字创建实例静态实例变量-类内部持有唯一实例的引用静态访问方法-提供全局访问该实例的入口单例模式的几种实现方式1.饿汉式（线程安全）饿汉式是最简单的实现方式，在类加载时就创建实例：publicclassEa
canal同步mysql到kafka_使用Canal同步MySQL数据到Kafka 得到的数据中sql字段无值-问答-阿里云开发者社区-阿里云... 又可乐
这个应该跟你的binlog记录模式有关系，binlog有3中模式，ROW(行模式),Statement(语句模式),Mixed(混合模式)三种模式的用法如下：ROW(行模式)：记录那条数据修改了，注意：记录的是这条记录的全部数据，即使只更新了一个字段，binlog里也会记录所有字段的数据优点：他不记录sql语句的上下文信息，日志内容会非常清楚的记录每条数据详细的变更细节，即使只更新了一个字段，bi
flutter 绘制源码解析阿旭哟嘿 flutter
//绘制过程概述：在绘制过程中，渲染树会生成一个合成层树，这些层被上传到引擎并由合成器显示。//Layer是合成层树的一个切片,layer被排列成层次结构，每个节点都可能影响它下面的节点在绘制的时候，会把每个绘制节点保存到Layer上面，//最后合成树，创建一个SceneBuilder对象，根layer对象调用addToScene方法，SceneBuilder.build以获得一个Scene。然后
零代码，搭出专属PLC监控大屏
不同行业PLC需监测的数据各异，ZWS-IoT低代码平台通过CATCOM-100网关接入PLC数据，快速搭建专属IoT监控页面。行业痛点：数据多样性与可视化瓶颈在工业自动化领域，不同行业对PLC监测的业务数据有着截然不同的需求，例如：能源行业的锅炉压力、温度曲线，到制造业的产线节拍、设备状态；环保领域的排放指标、能耗分析，每一项数据都需要精准采集与直观呈现。传统开发模式下，为每种场景定制Web监控
Flutter开发者 3.29版本关注要点 2501_91395209 http udp https websocket 网络安全网络协议 tcp/ip
哈喽，我是老刘Flutter3.29已经发布有一段时间了，老刘写Flutter代码已经6年多，对这种例行的Flutter版本更新基本上已经是内心毫无波澜。不过最近有不少朋友问要不要更新到最新版，这里罗列一下从开发者角度看比较重要的更新，大家自己判断。一、架构与性能优化Dart代码执行线程调整Dart代码现直接在Android/iOS的主线程运行，减少了线程切换开销，但需注意可能加剧平台UI线程的负
【Flutter原理】FlutterView相关源码分析 2401_83817689 程序员 flutter
而在FlutterFragment中RenderMode是通过ARG_FLUTTERVIEW_RENDER_MODE参数来决定。思考：为什么透明模式下使用RenderMode.texture，而不透明模式下使用RenderMode.surface显而易见三种渲染模式对应的在FlutterView创建时以来不同的类，分别是：FlutterSurfaceView，FlutterTextureView，
《YOLO11的ONNX推理部署：多语言多架构实践指南》空云风语 YOLO 人工智能深度学习目标跟踪人工智能计算机视觉 YOLO
引言：YOLO11与ONNX的相遇在计算机视觉的广袤星空中，目标检测始终是一颗耀眼的明星，其在自动驾驶、智能安防、工业检测、医疗影像分析等诸多领域都有着举足轻重的应用。想象一下，自动驾驶汽车需要实时准确地检测出道路上的车辆、行人、交通标志；智能安防系统要快速识别出监控画面中的异常行为和可疑人员；工业生产线上，需要精准检测产品的缺陷；医疗影像分析中，辅助医生检测病变区域。这些场景都对目标检测技术的准
使用reactor-rabbitmq库监听Rabbitmq 后会无期77 message queue Java日记 rabbitmq ruby 分布式
文章目录ReactorRabbitMQ简介ReactorRabbitMQ核心特性使用方法添加依赖创建连接发送消息接收消息高级配置消息确认模式错误处理集群监听（自动ACK）集群监听手动ACK性能优化建议适用场景ReactorRabbitMQ简介ReactorRabbitMQ是Reactor项目的一部分，旨在提供基于ProjectReactor的RabbitMQ响应式编程支持。它将RabbitMQ的消
OneCode图表组件深度解析：注解驱动的Java可视化方案低代码老李领域设计低代码软件行业 java 开发语言
在数据驱动决策的时代，企业级应用对可视化的需求日益复杂。OneCode作为专注于企业级开发的Java框架，其可视化引擎通过创新的设计理念和技术实现，为开发者带来了截然不同的图表开发体验。本文将深入剖析OneCode在可视化领域的五大独特优势。一、注解驱动的零前端代码开发模式OneCode彻底颠覆了传统图表开发需要编写JavaScript的模式，创新性地将所有图表配置通过Java注解完成：@FCha
数据结构复习提纲 DeadPool loves Star 数据结构复习大纲
数据结构复习提纲算法的五个特征设计算法通常应考虑线性表线性表的特性广义表的结构特点树的有关术语二叉树特点满二叉树完全二叉树二叉树的性质二叉树的按层遍历算法等价二叉树等价二叉树树的表示方法Huffman树的相关概念内外节点的相关概念Huffman树的应用图的定义图的存储结构邻接表的特点生成树最小生成树拓扑排序有关概念拓扑排序特点关键路径有关概念事件的最早发生时间事件的最迟发生时间活动的最早开始时间活
视觉系统驱动工业变革：迁移科技赋能智能制造新时代 lingling009 数码相机
在工业自动化浪潮中，视觉系统正成为智能制造的“眼睛”，它精准捕捉细节、引导机械动作，彻底改变传统生产模式。然而，许多企业仍面临视觉方案部署复杂、回报周期长等痛点。作为行业领先的3D工业相机和3D视觉系统供应商，迁移科技（成立于2017年）通过15年技术沉淀，打造了稳定、易用、高回报的AI+3D视觉系统。我们已服务新能源、汽车、化工等众多行业，累计融资数亿元，致力于将复杂技术转化为可感知价值。本文将
规则书在自动驾驶中的作用初学大模型自动驾驶
我们应该知道自动驾驶的重要性，它对车辆的控制牵扯到车内人员安全，车外的人的安全（车外哪里的人都不安全，有人会问车能上树？现在车真能上树，车能进屋，哎车真能进屋）所以责任重大，而大模型不具备边界清晰的控制，所以我们必须用规则库来做最后的底线。规则库在plc中还在应用，来实现精准控制机器生产产品，使合格率很高，正因为有清晰的边界，致使机器操作精准，虽然自动辅助驾驶用大模型可以更接近人类的操作，但大模型
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法神经网络15044 仿真模型神经网络深度学习深度学习分类 cnn 算法网络集成学习数据挖掘
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法1.任务概述岩性分类是地质遥感的核心任务，旨在通过遥感影像识别地表岩石类型。本文使用ASTER（多光谱热辐射传感器）和Sentinel（多光谱成像卫星）数据，采用卷积神经网络（CNN）及CNN-集成学习（CNN-EL）方法实现高精度岩性分类。2.数据预处理2.1数据源说明ASTER数据：14个波段（VNIR/SWIR/TIR），分辨率
新互联经济时代企业营销模式变革研讨会召开 xvgpjnhc 企业美团网用友软件解决方案京东
据悉，北京大学和用友公司联合成立的营销模式变革研究课题组于2014年6月17日，在用友软件(600588,股吧)园成功举办了“新互联经济时代企业营销模式变革研讨会”。此次研讨会聚集了业内专家、学者、行业媒体专家20余人，共同探讨新互联网经济时代，企业营销模式变革的话题。本次研讨会嘉宾阵容强大，有来自北京大学专家教授、京东、京客隆、易果生鲜、IT经理世界、光明网、美团网、第三方研究机构专家代表，以及
关于信号降噪的一些方法我不是哆啦A梦故障诊断人工智能信号处理机器学习算法
在通信系统中传输信号或在接收信号的同时，一些不需要的信号被引入到通信中，使接收机信号变差，从而影响了通信质量，一般称这些干扰称为噪声。从而，可以理解噪声是一些没有模式的信号，其特点是没有恒定的频率或振幅，且随机性强，不能完全消除。常用的信号降噪方法有以下这些：（1）滑动平均法（movingaverage）也叫做移动平均法、移动平均值滤波法等等，是一种时间域思想上的信号光滑方法。算法思路为：将该点附
遗传算法：原理、实现与应用的全面解析 2后啥样算法
摘要本文深入探讨遗传算法这一模拟自然进化过程的计算模型，详细阐述其核心原理、关键步骤、实现方式及在多领域的应用。通过分析遗传算法与传统优化算法的差异，结合实际案例展示其在解决复杂优化问题上的优势，并探讨算法的改进策略与未来发展趋势，旨在为相关领域研究和实践提供全面理论支撑与实践指导，助力解决复杂优化难题，推动技术创新与发展。一、引言在现代科学与工程领域，诸多问题可归结为优化问题，如资源分配、路径规
三体融合实战：Django+讯飞星火+Colossal-AI的企业级AI系统架构 IT莫染 Function Module AI大模型工具及插件 django 人工智能系统架构讯飞星火 Colossal-AI WebSocket
目录技术栈关键词：Django5.0讯飞星火4.0UltraColossal-AI1.2WebSocket联邦学习⚡核心架构设计️一、Django深度集成讯飞星火API（免费版）1.获取API凭证2.流式通信改造（解决高并发阻塞）3.Django视图层集成⚡二、Colossal-AI加速多模型适配策略1.私有模型微调方案2.多模型路由逻辑三、私有化部署安全加固方案1.三重安全防护体系2.请求签名防
java练习3
随机生成20个数字（随机种子）分别使用冒泡排序、二叉树排序、插入排序进行排序并输出最终结果以及三种排序使用的时间packagea01_第一次练习.a03_排序;importjava.time.Duration;importjava.time.LocalDateTime;importjava.util.TreeSet;publicclassTest{publicstaticvoidmain(Stri
Flink OceanBase CDC 环境配置与验证 Edingbrugh.南空运维大数据 flink flink oceanbase 大数据
一、OceanBase数据库核心配置1.环境准备与版本要求版本要求：OceanBaseCE4.0+或OceanBaseEE2.2+组件依赖：需部署LogProxy服务（社区版/企业版部署方式不同）兼容模式：支持MySQL模式（默认）和Oracle模式2.创建用户与权限配置在sys租户创建管理用户（社区版示例）：--连接sys租户（默认端口2881）mysql-h127.0.0.1-P2881-ur
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默