chinalinuxzend

关于双数组Trie查询词典构造总结

原贴：http://www.firtex.org/firtex_forum/archiver/?tid-241.html

FirteX开发论坛 » FirteX开发者专区 » 关于双数组Trie查询词典构造总结

2007-5-12 12:25 AM firtexer

关于双数组Trie查询词典构造总结

[b]首先需要对词典创建一个DFA[/b]（如果对于DFA不熟悉的话，可以看看形式语言和自动机方面的书），构造DFA的过程如下：
对于每一个词a1 a2 … an，依次按该词中每个字的顺序，遍历DFA的状态跳转表，直到遇到该DFA不能接受某个输入时，假设这个字为ai，那么从ai … an将依次建立新的状态以及状态跳转，同时需要对ai进行编码。DFA的实现需要一个数组去保存所有的状态，每个数组元素是一个集合，该集合包含了该状态所能接受的输入以及对应的下一个状态，因而会占用比较大的内存。

[b]其次是把DFA转化成双数组Trie[/b]（如果对于双数组Trie不熟悉的话，可以参考[url]http://linux.thai.net/~thep/datrie/datrie.html[/url]）转化过程如下：
base值从1开始，双数组Trie的第一个元素的base值为1，check为-1，状态si从0开始，如果双数组Trie的大小不能够容纳状态si的所有下一个状态，那么需要申请更大的内存，之后遍历双数组Trie，找到合适的base值i，设置好Trie[i].base和Trie[i]. check的值，如果该状态也是一个终止状态，那么需要把Trie[i].base的最高位设置为1，之后遍历si状态的所有的下一个状态，假设si的输入为ai，ai对应的编码为idx，对应的下一个状态为sj，那么设置Trie[idx].check=i，Trie[idx].base=-1，并把 (idx，sj)插入到一个队列中，作为下依次要扩展的状态。所有的状态处理完后，就得到了双数组Trie。为了使双数组Trie尽量占用小的内存，在插入队列时，需要根据sj的所有下一个状态的个数以及空隙的密度进行权衡，比如空隙越大就越靠近队列的前面，使得扩展下一个状态时，尽量能够在sj的状态空隙中来保存。如果插入队列的时间越长，那么构造双数组Trie的时间就越长，目前我采用的是状态空隙比较，即谁的空隙越多，那么就插入到队列的队首，并且如果发现在找base值，如果找了很多次才找到合适的值，那么将适当增加下一次扩展时的base值得初始值，这样就能减少查找base值的时间。

双数组Trie查询词典构造算法由于有些长，暂时未贴出，之后会贴一个带有完整源代码的附件,欢迎大家讨论更好的优化算法。

该双数组Trie查询词典构造算法对Firtex的影响：
由于表示终止状态和以及没有下一个状态的终止状态有些变化，那么Analyzer中需要修改的地方是：

头文件需要修改的地方：
typedef unsigned int int_t;
typedef unsigned short short_t;

struct state
{//state information in double-array trie
int_t base;//base value
int_t check;//check value
int_t handle;//handle for dictionary entry
};

short_t m_charset[_CHARSET_SIZE];

cpp文件需要修改的地方：

#define FINAL_TAG 0x80000000

nextTokensInternal(CReader* reader,CTokens* pInput)
{
int i = 0,nWordLen = 0,nCharLen = 0,j = 0,nStart = 0;
size_t nLen;
char* sLine = NULL;
int_t check,base, nPos;
short_t code;
int nWordHandle=0;
termid_t* tokenBuff = (termid_t*)pInput->getBuffer();
CTokenXs<termid_t>* pTokenXs = (CTokenXs<termid_t>*)pInput->asTokensX();
int buffbase = 0;
char lastwordbuf[50];
int lastwordlen = 0;

#define INIT_STATE() /
base=1; /
check=0; /
nWordLen=0; /
nStart=i; /
nWordHandle=0;

INIT_STATE();

bool bIsEof = false;
do
{
if(nWordLen > 0)
{
strncpy(lastwordbuf,sLine + nStart - buffbase,nWordLen);
lastwordlen = nWordLen;
}

sLine = reader->readWithoutCopy(nLen);
bIsEof = reader->isEof();
buffbase = i;

while( (i-buffbase < (int)nLen) || bIsEof && ( (nStart-buffbase) < ((int)nLen-1) && nWordLen>0) )
//while (i-buffbase < (int)nLen)
{
if (i-buffbase >= (int)nLen) //( (nStart-buffbase) < ((int)nLen-1) && nWordLen>0)
{//Not complete word in the last part

if(!pTokenXs->addTokenX(nWordHandle))
{
return pInput;
}

i=nStart+nWordLen;

INIT_STATE();
continue;
}

if(i - buffbase < 0)//has back off
{
int c = lastwordlen + i - buffbase;
if ( (lastwordbuf[c] > 0))
{//Single byte character
code = (unsigned char)lastwordbuf[c];
nCharLen = 1;//Character Length
}
else//2-byte character
{
if( (c+1) == lastwordlen )
{
code = ((unsigned char)lastwordbuf[c] << 8) | (unsigned char)sLine[0];
}
else
{
code = ((unsigned char)lastwordbuf[c] << 8) | (unsigned char)lastwordbuf[c+1];//Get code
nCharLen = 2;//Character Length
}
}
}
else
{
if ( (sLine[i-buffbase] > 0) || ( (i+1-buffbase == nLen) && reader->isEof()) )
{//Single byte character
code = (unsigned char)sLine[i-buffbase];
nCharLen = 1;//Character Length
}
else//2-byte character
{
if( (i+1-buffbase) == nLen )
{
//code = 256*(uint8_t)sLine[i-buffbase];
code = ((unsigned char)sLine[i-buffbase]) << 8;
strncpy(lastwordbuf,sLine + nStart - buffbase,nWordLen + 1);
lastwordlen = nWordLen + 1;

sLine = reader->readWithoutCopy(nLen);
code |= (unsigned char)sLine[0];
nCharLen = 2;
buffbase = i + 1;
}
else
{
code = ((unsigned char)sLine[i - buffbase] << 8) | (unsigned char)sLine[i+1-buffbase];//Get code
nCharLen = 2;//Character Length
}
}

}
i += nCharLen;

if ( !m_charset[code] )
{//Invalid Character
if (nWordLen>0)
{
if( nWordHandle != 0 || (j>0 && (tokenBuff[j-1] != 0) ))
{
if(!pTokenXs->addTokenX(nWordHandle))
{
return pInput;
}
j++;
}
i=nStart+nWordLen;//added 06.5.12
}
else
{
if( j>0 && (tokenBuff[j-1] != 0) )
{
if(code != ' ')
{
if(!pTokenXs->addTokenX(0))
{
return pInput;
}
j++;
}

//m_pResultID[j++]=0;
}
}

INIT_STATE();
continue;
}

nPos = base + m_charset[code];//current position
if (nPos>m_nLowerBound||m_pData[nPos].check!=check)
{//Not exists
if (nWordLen>0)
{//Have a word
if( nWordHandle != 0 || (j>0 && (tokenBuff[j-1] != 0) ))
{
if(!pTokenXs->addTokenX(nWordHandle))
{
return pInput;
}
j++;
}
i = nStart+nWordLen;//Back off
}
else
{//First Character, not exists
if( (j>0 && (tokenBuff[j-1] != 0) ))
{
if(!pTokenXs->addTokenX(0))
{
return pInput;
}
j++;
}
}
INIT_STATE();
continue;
}

if (m_pData[nPos].base&FINAL_TAG)
{
check=nPos;

nWordLen = i - nStart;
nWordHandle = m_pData[nPos].handle;//Record Handle

if ( m_pData[nPos].base == -1 )//Leaf
{
//if (j==0&&lastID!=0||j>0&&m_pResultID[j-1]!=0||nWordHandle!=0)
if( nWordHandle != 0 || (j>0 && (tokenBuff[j-1] != 0) ))
{
if(!pTokenXs->addTokenX(nWordHandle))
{
return pInput;
}
j++;
//m_pResultID[j++]=(unsigned short)nWordHandle;
}

INIT_STATE();
continue;
}
else
{
base = m_pData[nPos].base & (~FINAL_TAG);
}
}
else
{
base=m_pData[nPos].base;
if (nWordLen==0)//Single Char being a word
{
nWordLen=nCharLen;
}
check=nPos;
}
}//end while

if(reader->isEof())
{
//if (j==0&&lastID!=0||j>0&&m_pResultID[j-1]!=0||nWordHandle!=0)
if( nWordHandle != 0 )
{
if(!pTokenXs->addTokenX(nWordHandle))
{
return pInput;
}

i = nStart+nWordLen;
INIT_STATE();
j++;
continue;

//m_pResultID[j++]=(unsigned short)nWordHandle;
}
}
}while (!reader->isEof());

return pInput;
}
Load(const tchar *sFilename)
{
FILE *fp;
fp=_tfopen(sFilename,_T("rb"));
if (fp==NULL)
{//Open file fail.
return false;
}
fread(m_charset,_CHARSET_SIZE,sizeof(short_t),fp);
//Read charset
fread(&m_nLowerBound,1,sizeof(int_t),fp);
//read lower bound

if (m_pData)
{
free(m_pData);
}
m_nLength=m_nLowerBound;
--m_nLowerBound;
m_pData=0;
m_pData=(PSTATE)malloc(sizeof(STATE)*m_nLength);
fread(m_pData,m_nLength,sizeof(STATE),fp);
//read data

fclose(fp);
return true;
}

[[i] 本帖最后由 firtexer 于 2007-5-13 10:55 PM 编辑 [/i]]

2007-5-14 09:19 AM admin

双数组TRIE树词典的构建源代码和分词部分相应的修改会和FirteX的下一个版本一起发布。可以先使用附件中的可执行程序生成你自己的词典，替换 data目录下的coredict.pdat 文件，再根据上贴的说明修改CChineseAnalyzer.h 和CChineseAnalyzer.cpp相应部分的代码即可。有什么问题请向我们报告。

PS：firtexer是FirteX开发组的主要成员，这部分代码主要由他贡献。

2007-5-14 10:28 AM firtexer

忘记说一点了，原始词典的格式是每行一个词。

2007-6-6 02:37 PM nonego

最近在学习双数组Trie，所以看了一下Firtex的代码，在下面的代码中fread的用法好像和该函数的说明不太一致（size 和count位置互换了），MSDN上fread的函数原型是： size_t fread( void* buffer, size_t size, size_t count, FILE* stream );
是有什么特别的原因吗？

[i]          fread(m_charset,_CHARSET_SIZE,sizeof(short_t),fp);
         //Read charset
         fread(&m_nLowerBound,1,sizeof(int_t),fp);[/i]

2007-6-6 02:56 PM admin

没什么特殊用意，是写代码时没有注意，不过并不影响结果。多谢你的细心

2007-6-6 07:59 PM yxg_80

admin :论坛的一个缺点是一次发表的字多了就成了斜题了，影响阅读啊！看看能不能修改一下论坛设置！

2007-7-9 05:16 PM bg1011

谢谢

结合代码看有收获~

2007-7-12 10:29 AM stickyman

Dictionary.rar 里的exe是否也可以开放源代码？

2007-7-12 10:31 AM admin

[quote]原帖由 [i]stickyman[/i] 于 2007-7-12 10:29 AM 发表
Dictionary.rar 里的exe是否也可以开放源代码？ [/quote]
可以，待整理整合后会和FirteX代码一起发布

2007-8-1 09:17 AM phinix

上面的代码中CTokenXs<termid_t>* pTokenXs = (CTokenXs<termid_t>*)pInput->asTokensX();
怎么在源程序中找不到CTokenXs这个类
Thank you!

2007-8-1 09:35 AM admin

在analyzer目录下的Tokens.h中

2007-8-1 10:18 AM phinix

我是从Firtex网站上本地下载的firtex-1.0.2_beta3_src.zip，在Tokens.h中没有CTokenXs这个类，CTokens也没有asTokensX()函数。
还有一个问题，我下载的代码，在执行完CTokens* CChineseAnalyzer::nextTokensInternal(CReader* reader,CTokens* pInput)之后，查看 pInput->getTokenNum()的值，好像这个值是按单字分词的个数，是词典的原因还是专门这样设计的？
谢谢！

2007-8-1 10:22 AM admin

是词典的缘故。
看看sourceforge上的SVN代码吧，要是来得及，这几天就发布

2007-8-12 11:34 PM admin

这部分代码已整合并更新至SVN，见contrib/DoubleArrayTrieDict和contrib/app/Dictionary，暂时还没有包含在发布的1.0.3_RC版中

2007-8-13 12:11 AM stickyman

admin辛苦了。 // bow
拉下来看看先~

2007-8-15 12:02 AM stickyman

经确认，虽然部分地方考虑到了,不过这部分的代码也不支持_UNICODE编译,呼呼

2007-8-15 07:56 AM stickyman

CTrieDictCreator::CreateDict函数的
pTrie[idx].handle = m_wordHanleTable[pState->m_pState[k].state];
应该是
pTrie[idx].handle = m_wordHanleTable[pState->m_pState[k].state-1];吧?

2007-8-15 11:52 AM firtexer

没必要支持_UNICODE编译，词典生成跟unicode没任何关系。

请仔细看看CreateStates().

谢谢你对算法提出的问题，个人有个建议，当你在遇到问题的时候，应该多去思考，这样对你的进步会更大：）

2007-8-15 12:13 PM stickyman

谢谢firtexer的建议。
因为早上debug模式运行到这一步就出数组越界的错误，减1就正常了。
恩，晚上回去再看看。

2007-8-16 09:54 AM admin

[quote]原帖由 [i]firtexer[/i] 于 2007-8-15 11:52 AM 发表
没必要支持_UNICODE编译，词典生成跟unicode没任何关系。

请仔细看看CreateStates().

谢谢你对算法提出的问题，个人有个建议，当你在遇到问题的时候，应该多去思考，这样对你的进步会更大：） [/quote]

stickyman 的意思应该是程序不支持编译成UNICODE版，而不是程序支持UNICODE编码。目前FirteX的核心代码也是，虽然很多地方考虑UNICODE编译的支持，但是目前还不能直接编译成UNICODE版

2007-8-16 10:11 AM stickyman

恩
算法部分还没来得及看，有个小问题先report一下， DictionaryDlg.cpp的OnBnClickedButtonQuery函数，最后应该需要调用一下close吧？否则会有内存泄漏。当然，这只是测试代码中的小问题，不影响字典的生成

2007-8-16 10:59 AM firtexer

哦,那应该是CTrieDictCreator::TestDict出的问题,里面的字符串加上 _T 宏就应该可以了。

最近搬家还没收拾好东西，没法在家用电脑，晚上应该能看看。

2007-8-16 11:57 PM firtexer

[quote]原帖由 [i]stickyman[/i] 于 2007-8-15 12:13 PM 发表
谢谢firtexer的建议。
因为早上debug模式运行到这一步就出数组越界的错误，减1就正常了。
恩，晚上回去再看看。 [/quote]

目前没有发现数组越界的异常，你可以把你的词库发给我，这样我可以调试一下程序

2007-8-19 12:05 AM stickyman

奇怪了，state 是从1开始计数的，vector的m_wordHanleTable，vector本身是从0开始计数的，到最后一位的时候应该是会越界才对啊。
不能上传附件，不过我测试的时候就在一个文件里放了三个单词：
live
look
man

2007-8-20 06:40 PM firtexer

[quote]原帖由 [i]stickyman[/i] 于 2007-8-19 12:05 AM 发表
奇怪了，state 是从1开始计数的，vector的m_wordHanleTable，vector本身是从0开始计数的，到最后一位的时候应该是会越界才对啊。
不能上传附件，不过我测试的时候就在一个文件里放了三个单词：
live
look
man [/quote]

state 从0开始编号

2007-8-20 08:05 PM stickyman

初始值是0，
pStateSet->push_back(sInput, total_state, final); 这里用的是total_state，第一次是1

2007-8-20 09:51 PM stickyman

因为最近需要用到DAT……不过现在已经搞清楚算法了。上面的问题和算法本身没有关系，浪费了firtexer 的不少时间，谢谢firtexer和admin~:)

2007-8-20 10:05 PM firtexer

[quote]原帖由 [i]stickyman[/i] 于 2007-8-20 09:51 PM 发表
因为最近需要用到DAT……不过现在已经搞清楚算法了。上面的问题和算法本身没有关系，浪费了firtexer 的不少时间，谢谢firtexer和admin~:) [/quote]

弄懂了就好了。不过还是提醒你一下，这里的state从0开始编号，当然你也可以从1开始，不过对写程序没什么好处。

论文阅读笔记——QLORA: Efficient Finetuning of Quantized LLMs 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习语言模型
QLoRA论文4-bit标准浮点数量化常见的量化技术是最大绝对值量化：XInt8=round(127absmax(XFP32)XFP32)=round(cFP32,XFP32)式(1)X^{Int8}=round(\frac{127}{absmax(X^{FP32})}X^{FP32})=round(c^{FP32},X^{FP32})\qquad\qquad\text{式(1)}XInt8=ro
多线程到底重不重要？ Vic2334 JAVA java 开发语言
我们先说一下为什么要讲多线程和高并发？原因是，你想拿到一个更高的薪水，在面试的时候呈现出了两个方向的现象：第一个是上天项目经验高并发缓存大流量大数据量的架构设计第二个是入地各种基础算法，各种基础的数据结构JVMOS线程IO等内容多线程和高并发，就是入地里面的内容。基本概念我们先从线程的基本概念开始，给大家复习一下，不知道有多少同学是基础不太好，说什么是线程都不知道的，如果这样的话，花时间去补初级内
【Python机器学习】2.2. 聚类分析算法理论：K均值聚类(KMeans Analysis)、KNN(K近邻分类)、均值漂移聚类(MeanShift) SomeB1oody Python机器学习机器学习算法 python 聚类分类算法
喜欢的话别忘了点赞、收藏加关注哦（关注即可查看全文），对接下来的教程有兴趣的可以关注专栏。谢谢喵！(=･ω･=)2.2.1.K均值聚类(KMeansAnalysis)K均值算法是以空间中K个点为中心进行聚类，对最靠近他们的对象归类，是聚类算法中最为基础但也最为重要的算法。数学原理计算数据点与各簇中心点的距离：dist(xi,ujt){dist}(x_i,u_j^t)dist(xi,ujt)然后根据
你的AI客服为何总抓不住客户核心诉求？（附特征优化方案）人工智能
1特征工程的意义nlp任务中，原始文本经数值映射后形成的词向量序列，难充分表达语言深层语义特征。就需引入文本特征增强技术：语义信息补全：突破单词语义局限，捕获词序关联特征模型适配优化：构建符合算法输入规范的矩阵结构评估指标提升：通过特征增强直接影响模型准确率、召回率等核心KPI如电商评论情感分析场景，单纯用词频特征可能导致"这个手机质量差得惊人"和"这个手机质量惊人地差"被判定为相同语义，此时bi
JVM GC四大算法 coding_-_半生 jvm 算法 java
JVMGC四大算法文章目录JVMGC四大算法GC四大算法一、引用计数法二、复制算法（COPY）三、标记清除算法（MARK-SWEEP）四、标记整理算法（MARK-COMPACT）五、总结GC四大算法一、引用计数法描述：给每一个对象分配一个计数器，用于记录对象是否被引用，被引用一次，计数进行+1优点：方便直接判断对象是否能够回收缺点：使用计数器需要消耗一定的内存，且每一次计数的修改同样需要消耗内存致
【手撕算法系列】多头自注意力机制MHSA Nastu_Ho-小何同学 python 深度学习机器学习
importtorch.nnasnnclassAttention(nn.Module):def__init__(self,dim,num_heads=8,qkv_bias=False,qk_scale=None,attn_drop=0.,proj_drop=0.,num_classes=20):super().__init__()self.num_classes=num_classesself.n
浏览器防截屏,录屏. zhongshizhi91 前端浏览器
浏览器防截屏,录屏使用加密媒体扩展APIhttps://developer.mozilla.org/zh-CN/docs/Web/API/Encrypted_Media_Extensions_APIEncryptedMediaExtensions(EME)EME是一种允许Web应用程序使用内容保护系统（通常称为DRM，数字版权管理）来控制媒体播放的API。它主要用于支持加密媒体内容的播放，比如流媒
懂车帝 2025.3.13 一面经凉 WispX888 java 面试
懂车帝2025.3.13一面经凉上来一道算法题：小于n的最大数（dfs）n=23121，数组{2,4,9},问利用数组中的数字组成的最大的小于n的数publicclassTest{publicstaticvoidmain(String[]args){for(inti=0;i<3;i++){dfs(1,a[i]);}System.out.println(ans);}privatestaticint[
算法手撕面经系列(1)--手撕多头注意力机制夜半罟霖算法 python 深度学习
多头注意力机制一个简单的多头注意力模块可以分解为以下几个步骤：先不分多头，对输入张量分别做变换，得到Q,K,VQ,K,VQ,K,V对得到的Q,K,VQ,K,VQ,K,V按头的个数进行split；用Q,KQ,KQ,K计算向量点积考虑是否要添因果mask利softmax计算注意力得分矩阵atten对注意力得分矩阵施加Dropout将atten矩阵和VVV矩阵相乘再过一道最终的输出变换代码给出一个d
Matlab多种算法解决未来杯B的多分类问题 Subject.625Ruben 算法分类机器学习数学建模未来杯 matlab 人工智能
1.读取数据首先，我们从Excel文件中读取训练集和测试集：2.训练集划分我们将80%的数据用于训练，20%用于验证。3.训练多个模型我们选取8种常见分类模型，并存储预测结果。fori=1:length(modelNames)switchmodelNames{i}case'MultinomialLogisticRegression'B=mnrfit(X_train,Y_train,'model',
基于群智能算法的三维无线传感网络覆盖优化数学模型-可以使用群智能算法直接调用进行优化，完整MATLAB代码算法小狂人算法应用 matlab php 开发语言
1.1三维覆盖模型由于节点随机抛洒，而传感器节点的分布情况会影响网络覆盖率，以RcovR_{\text{cov}}Rcov作为覆盖率评价标准。在三维覆盖区域中，传感器节点的覆盖区域是某一半径确定的球。在三维监测区域中随机抛洒NNN个传感器节点，形成节点集S={s1,s2,s3,⋯ ,sN}S=\{s_1,s_2,s_3,\cdots,s_N\}S={s1,s2,s3,⋯,sN}，第iii个节点的坐
开博尔支持超高清8K显示HDMI2.1线材评测体验只你不知测评文 HDMI2.1 HDMI2.1高清线 8K电视线 4K高清线
前言（网络整理）：虽然目前没有真正的HDMI2.1的电视机，但是HDMI协会针对HDMI2.1标准做出了临时参数标准和HDMI2.1连接器认证授权，经开博尔技术咨询后得知，开博尔对于HDMI协会当前对HDMI2.1的研产要求均满足，采用定制HDMI2.1认证连接器。HDMI2.0能够实现60FPS的4K图像或30FPS的8K图像。而新的HDMI2.1则可以显示120FPS的4K图像或60FPS的8
程序员必看！DeepSeek全栈开发指南：从代码生成到分布式训练的黑科技解析 AI创享派后端
一、DeepSeek技术新突破：程序员必须掌握的MoE架构实战2025年2月25日，DeepSeek开源了专为MoE模型设计的DeepEP通信库，这项技术革新直接影响了分布式训练和推理效率。该库支持FP8精度与NVLink/RDMA技术，吞吐量提升3倍以上，特别适合处理千亿级参数的分布式任务。对于后端工程师而言，DeepEP的以下特性值得关注：计算-通信重叠机制：通过回调函数实现GPU资源动态分配
elasticsearch analyzer 学习笔记 weixin_40455124 elasticsearch 代码分析及扩展 elasticsearch analyzer token
基本定义analyzer执行将输入字符流分解为token的过程使用场景在indexing的时候，也即在建立索引的时候在searching的时候，也即在搜索时，分析需要搜索的词语analysisCharacterfiltering(字符过滤器):使用字符过滤器转换字符Breakingtextintotokens(把文字转化为标记):将文本分成一组一个或多个标记Tokenfiltering：使用标记过
MATLAB算法实战应用案例精讲-【深度学习】归一化林聪木 matlab 算法深度学习
目录为什么要做特征归一化/标准化？常用featurescaling方法计算方式上对比分析featurescaling需要还是不需要什么时候需要featurescaling？什么时候不需要FeatureScaling？归一化基础知识点1.什么是归一化2.为什么要归一化3.为什么归一化能提高求解最优解的速度4.归一化有哪些类型5.不同归一化的使用条件6.归一化和标准化的联系与区别层归一化综述提出背景概
PCIe信号传输的幕后：HCSL与LP-HCSL深度解析赛卡单片机嵌入式硬件服务器人工智能硬件架构 fpga开发
在数字化浪潮席卷的当下，PCIe（PeripheralComponentInterconnectExpress）作为高速串行计算机扩展总线标准，已然成为计算机内部硬件设备连接领域的中流砥柱。其信号传输的质量与完整性，恰似计算机系统运行的“命门”，对系统整体性能起着决定性作用。在PCIe体系架构里，HCSL（High-speedCurrentSteeringLogic）与LP-HCSL（Low-Po
自动同步多服务器下SQL脚本3.0 a栋栋栋遇到的问题 sql 自动化事务失效
由于上一版发现数据库【MySQL】不支持DML事务回滚，该迭代主要是去兼容这种问题。数据表新增一个completed字段，用来表示当前版本下同步成功的个数。数据表CREATETABLE`auto_sql_version`(`id`intNOTNULLAUTO_INCREMENT,`version`varchar(20)CHARACTERSETutf8mb4COLLATEutf8mb4_0900_a
Tornado 初识 Wu_Candy Web服务器
一、什么是tornadoTornado是使用Python编写的一个强大的、可扩展的Web服务器。它在处理严峻的网络流量时表现得足够强健，但却在创建和编写时有着足够的轻量级，并能够被用在大量的应用和工具中。二、tornado有什么优势Tornado和现在的主流baiduWeb服务器框架（包括大多数Python的框架）有着明显的区别：它是非阻塞式服务器，而且速度相当快，得利于其非阻塞的方式和对epol
SSL的原理和应用 m0_74092749 ssl 网络协议网络
前言：SSL协议便是Internet上应用最为广泛的网络数据安全传输协议。SSL协议隶属于会话层,处于有连接的会话层之上,它一经产生就在Internet领域发挥了它的巨大作用。目前,国外著名的商用浏览器和Web服务器都支持SSL协议,SSL已成为最流行的WWW安全协议。目前已经有若干国外厂商推出了基于SSL的安全产品,但是协议在核心密码算法上都有出口限制,大多采用一些低安全强度的算法,而且协议代码
黑板模式（Blackboard Design Pattern）。软件求生黑板模式设计模式
意图黑板模式是观察者模式的一个扩展，知名度并不高，但是我们使用的范围却非常广。黑板模式的意图如下：允许消息的读写同时进行，广泛的交互消息。简单的说，黑板模式允许多个消息读写者同时存在，消息的生产者和消费者完全分开。这就像一个黑板，任何一个教授（消息的生产者）都可以在其上书写消息，任何一个学生（消息的消费者）都可以从黑板上读取消息，两者在空间和时间上可以解耦，并且互不干扰。黑板模式确实是消息的广播，
庖丁解java(一篇文章学java) 庖丁解java java 开发语言
(大家不用收藏这篇文章,因为这篇文章会经常更新,也就是删除后重发)一篇文章学java,这是我滴一个执念...当然,真一篇文章就写完java基础,java架构,java业务实现,java业务扩展,根本不可能.所以,这篇文章,就是一个索引,索什么呢?请看下文...关于决定开始写博文的介绍(一切故事的起点源于这一次反省)中小技术公司的软扩展(微服务扩展是否有必要?)-CSDN博客SpringCloud(
MCU的工作原理：嵌入式系统的控制核心绿算技术 MCU架构介绍单片机嵌入式硬件
MCU的工作原理可以概括为以下几个步骤：1.初始化上电后，MCU从Flash存储器中加载程序代码，并初始化外设和寄存器。2.任务执行根据程序逻辑，MCU执行数据处理、外设控制和通信等任务。通过中断系统实时响应外部事件。3.低功耗管理在空闲时，MCU进入低功耗模式，等待外部事件唤醒。4.结果输出通过GPIO、通信接口或模拟接口输出处理结果。MCU的架构：模块化与可扩展性MCU的架构设计注重模块化和可
useblackbox黑箱AI编码助理百态老人 python 开发语言
黑箱AI是一个人工智能的编码助理可以让代码快10倍。它使您能够把任何问题变成代码和功能,如从任何视频提取代码和代码自动完成。它有以下几个特点：可以从视频、图片、PDF等格式中复制代码。可以将任何问题转换成代码。可以快速找到任何代码片段，并开始编码。支持20多种编程语言的代码自动补全。有Chrome扩展和VSCode扩展。这个网站有不同的收费方案，根据你需要的功能和使用量而定。它有以下几种选择：好开
计算机系统04 - Unicode 和 UTF-8 是小崔啊 #计算机组成原理计算机组成原理
Unicode和UTF-8文章目录Unicode和UTF-8什么是字符编码什么是字符？什么是字符集认识Unicode字符集为什么要使用Unicode字符集Unicode编码标准Unicode编码格式UTF-8编码UTF的字节序问题总结什么是字符编码什么是字符？字符（Character）是对文字和符号的总称，例如汉字、拉丁字母、emoji都是字符。在计算机中，一个字符由2部分组成：1、字符的编码：字
2025年Python生态全景：从AI霸主到量子计算，揭秘其不可替代的技术魅力南玖yy python 人工智能量子计算
在2025年的技术浪潮中，Python凭借其极简的语法、庞大的生态系统以及跨领域融合能力，依然稳坐编程语言界的“头把交椅”。尽管Java等语言在AI领域发起挑战，但Python通过持续的技术革新和生态扩展，展现出不可撼动的生命力。本文将从技术趋势、行业应用与未来挑战三个维度，解析Python的“常青”密码。一、AI领域的持续主导：生态优势与工具革新Python在AI领域的统治地位仍未动摇。尽管有观
深入 Python 网络爬虫开发：从入门到实战南玖yy python python爬虫
一、为什么需要爬虫？在数据驱动的时代，网络爬虫是获取公开数据的重要工具。它可以帮助我们：监控电商价格变化抓取学术文献构建数据分析样本自动化信息收集二、基础环境搭建1.核心库安装pipinstallrequestsbeautifulsoup4lxmlseleniumscrapy2.开发工具推荐PyCharm（专业版）VSCode+Python扩展JupyterNotebook（适合调试）三、爬虫开发
论单调队列优化DP VU-zFaith870 c++动态规划推荐算法
前情提要，参考资料：单调队列优化DP（超详细！！！）-endl\n-博客园【动态规划】选择数字（单调队列优化dp）_哔哩哔哩_bilibili背景：最近作者快被DP逼疯了，写篇博客做记录。以下是对各DP的原理阐释：单调队列通过队列元素的吸入与弹出，形成单调性的结构，使算法能够进行线性处理，大大优化了时间复杂度。接下来讲解单调队列在区间DP、背包DP、树形DP还有数位DP中的应用：1.单调队列优化区
[LeetCode]46.全排列（python） xyhaaab leetcode python 算法
1.代码fromtypingimportListclassSolution:defpermute(self,nums:List[int])->List[List[int]]:result:List[List[int]]=[]length=len(nums)deffill(n:int,nums:List[int]):ifn==length:result.append(nums[:])returnfo
DPU的架构：模块化与可扩展性绿算技术 DPU架构介绍架构科技缓存算法
DPU的架构设计注重模块化和可扩展性，以下是其典型架构：1.网络接口模块支持高速网络接口，例如100GbE、200GbE，甚至更高带宽的接口。2.处理核心模块包括多个ARM核心和专用加速核心，用于处理控制平面和数据平面任务。3.硬件加速模块包括网络加速引擎、存储加速引擎、加密引擎等，用于加速特定任务。4.内存与缓存集成高速内存和缓存，用于存储临时数据和指令。5.PCIe接口模块提供与主机CPU的高
DPU的未来：技术趋势与挑战绿算技术 DPU架构介绍科技 gpu算力硬件工程缓存架构
随着数据中心的不断发展，DPU技术也在快速演进。以下是DPU未来的技术趋势与挑战：1.更高性能·支持更高的网络带宽（如400GbE、800GbE）和更低的延迟。2.更广泛的应用·在AI、5G、物联网等领域，DPU的应用将进一步扩展。3.软件生态的完善·开源工具和开发框架的普及，将降低DPU的开发门槛。4.能效优化·在提升性能的同时，进一步降低功耗，满足绿色计算的需求。总结DPU作为一种新兴的数据处
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

关于双数组Trie查询词典构造总结

你可能感兴趣的:(算法,vector,扩展,character,FP,Dictionary)