wzb56

中文分词：之Trie树

中文分词一直都是中文自然语言处理领域的基础研究。目前，网络上流行的很多中文分词软件都可以在付出较少的代价的同时，具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何，目前而言的分词系统绝大多数都是基于中文词典的匹配算法。

在这里我想介绍一下中文分词的一个最基础算法：最大匹配算法 (Maximum Matching，以下简称MM算法) 。MM算法有两种：一种正向最大匹配，一种逆向最大匹配。

● 算法思想

正向最大匹配算法：从左到右将待分词文本中的几个连续字符与词表匹配，如果匹配上，则切分出一个词。但这里有一个问题：要做到最大匹配，并不是第一次匹配到就可以切分的。我们来举个例子：

待分词文本： content[]={"中"，"华"，"民"，"族"，"从"，"此"，"站"，"起"，"来"，"了"，"。"}

词表： dict[]={"中华"， "中华民族" ， "从此"，"站起来"}

(1) 从content[1]开始，当扫描到content[2]的时候，发现"中华"已经在词表dict[]中了。但还不能切分出来，因为我们不知道后面的词语能不能组成更长的词(最大匹配)。

(2) 继续扫描content[3]，发现"中华民"并不是dict[]中的词。但是我们还不能确定是否前面找到的"中华"已经是最大的词了。因为"中华民"是dict[2]的前缀。

(3) 扫描content[4]，发现"中华民族"是dict[]中的词。继续扫描下去：

(4) 当扫描content[5]的时候，发现"中华民族从"并不是词表中的词，也不是词的前缀。因此可以切分出前面最大的词——"中华民族"。

由此可见，最大匹配出的词必须保证下一个扫描不是词表中的词或词的前缀才可以结束。

● 算法实现

词表的内存表示：很显然，匹配过程中是需要找词前缀的，因此我们不能将词表简单的存储为Hash结构。在这里我们考虑一种高效的字符串前缀处理结构——Trie树《Trie Tree 串集合查找》。这种结构使得查找每一个词的时间复杂度为O(word.length)，而且可以很方便的判断是否匹配成功或匹配到了字符串的前缀。

下图是我们建立的Trie结构词典的部分，(词语例子："中华"，"中华名族"，"中间"，"感召"，"感召力"，"感受")。

(1) 每个结点都是词语中的一个汉字。

(2) 结点中的指针指向了该汉字在某一个词中的下一个汉字。这些指针存放在以汉字为key的hash结构中。

(3) 结点中的"#"表示当前结点中的汉字是从根结点到该汉字结点所组成的词的最后一个字。

TrieNode源代码如下：

     Java代码   
     
   
 import java.util.HashMap;  
 /** 
  * 构建内存词典的Trie树结点 
  *  
  * @author single(宋乐) 
  * @version 1.01, 10/11/2009 
  */  
 public class TrieNode {  
   
     /**结点关键字，其值为中文词中的一个字*/  
     public char key=(char)0;  
     /**如果该字在词语的末尾，则bound=true*/  
     public boolean bound=false;  
     /**指向下一个结点的指针结构，用来存放当前字在词中的下一个字的位置*/  
     public HashMap<Character,TrieNode> childs=new HashMap<Character,TrieNode>();  
       
     public TrieNode(){  
     }  
       
     public TrieNode(char k){  
         this.key=k;  
     }  
 }  

这套分词代码的优点是：

(1) 分词效率高。纯内存分词速度大约240.6ms/M，算上IO读取时间平均1.6s/M。测试环境：Pentium(R) 4 CPU 3.06GHZ、1G内存。

(2) 传统的最大匹配算法需要实现确定一个切分的最大长度maxLen。如果maxLen过大，则大大影响分词效率。而且超过maxLen的词语将无法分出来。但本算法不需要设置maxLen。只要词表中有的词，不管多长，都能够切分。

(3) 对非汉字的未登录词具备一定的切分能力。比如英文单词[happy, steven]，产品型号[Nokia-7320]，网址[http://www.sina.com]等。

缺点也很明显：

(1) 暂时无词性标注功能，对中文汉字的未登录词无法识别，比如某个人名。

(2) 内存占用稍大，目前词表为86725个词。如果继续扩展词表，很有可能内存Trie树将非常庞大。

代码的进一步优化方案：

(1) 想在内存占用空间上降低代价。实际上Trie树主要的空间消耗在每个结点的指针HashMap上。我使用的是JDK中的HashMap，其加载因子为 loadFactor= 0.75，初始化空间大小为DEFAULT_INITIAL_CAPACITY= 16。每次存储数据量超过 loadFactor*DEFAULT_INITIAL_CAPACITY的时候，整个Map空间将翻倍。因此会照成一定的空间浪费。

但目前还没有想到很好的办法，即能够随机定位到下一个结点的指针，又降低Hash结构的空间代价？

转自：http://hxraid.iteye.com/blog/667134

【串和序列处理 3】Trie Tree 串集合查找

文章分类:综合技术

Trie 树， 又称字典树，单词查找树。它来源于retrieval(检索)中取中间四个字符构成(读音同try)。用于存储大量的字符串以便支持快速模式匹配。主要应用在信息检索领域。

Trie 有三种结构：标准trie (standard trie)、压缩trie、后缀trie(suffix trie) 。最后一种将在《字符串处理4：后缀树》中详细讲，这里只将前两种。

1. 标准Trie (standard trie)

标准 Trie树的结构 ：所有含有公共前缀的字符串将挂在树中同一个结点下。实际上trie简明的存储了存在于串集合中的所有公共前缀。假如有这样一个字符串集合X{bear,bell,bid,bull,buy,sell,stock,stop}。它的标准Trie树如下图：

上图（蓝色圆形结点为内部结点，红色方形结点为外部结点），我们可以很清楚的看到字符串集合X构造的Trie树结构。其中从根结点到红色方框叶子节点所经历的所有字符组成的串就是字符串集合X中的一个串。

注意这里有一个问题：如果X集合中有一个串是另一个串的前缀呢？比如，X集合中加入串bi。那么上图的Trie树在绿色箭头所指的内部结点i 就应该也标记成红色方形结点。这样话，一棵树的枝干上将出现两个连续的叶子结点(这是不合常理的)。

也就是说字符串集合X中不存在一个串是另外一个串的前缀。如何满足这个要求呢？我们可以在X中的每个串后面加入一个特殊字符$(这个字符将不会出现在字母表中)。这样，集合X{bear$、bell$、.... bi$、bid$}一定会满足这个要求。

总结：一个存储长度为n，来自大小为d的字母表中s个串的集合X的标准trie具有性质如下：

(1) 树中每个内部结点至多有d个子结点。

(2) 树有s个外部结点。

(3) 树的高度等于X中最长串的长度。

(4) 树中的结点数为O(n)。

标准 Trie树的查找

对于英文单词的查找，我们完全可以在内部结点中建立26个元素组成的指针数组。如果要查找a，只需要在内部节点的指针数组中找第0个指针即可(b=第1个指针，随机定位)。时间复杂度为O(1)。

查找过程：假如我们要在上面那棵Trie中查找字符串bull (b-u-l-l)。

(1) 在root结点中查找第('b'-'a'=1)号孩子指针，发现该指针不为空，则定位到第1号孩子结点处——b结点。

(2) 在b结点中查找第('u'-'a'=20)号孩子指针，发现该指针不为空，则定位到第20号孩子结点处——u结点。

(3) ... 一直查找到叶子结点出现特殊字符'$'位置，表示找到了bull字符串

如果在查找过程中终止于内部结点，则表示没有找到待查找字符串。

效率：对于有n个英文字母的串来说，在内部结点中定位指针所需要花费O(d)时间，d为字母表的大小，英文为26。由于在上面的算法中内部结点指针定位使用了数组随机存储方式，因此时间复杂度降为了O(1)。但是如果是中文字，下面在实际应用中会提到。因此我们在这里还是用O(d)。查找成功的时候恰好走了一条从根结点到叶子结点的路径。因此时间复杂度为O(d*n)。

但是，当查找集合X中所有字符串两两都不共享前缀时，trie中出现最坏情况。除根之外，所有内部结点都自由一个子结点。此时的查找时间复杂度蜕化为O(d*(n^2))

标准 Trie树的Java代码实现：

      Java代码   
      
    
 package net.hr.algorithm.stroper;  
   
 import java.util.ArrayList;  
   
 enum NodeKind{LN,BN};  
 /** 
  * Trie结点 
  */  
 class TrieNode{  
   
     char key;  
     TrieNode[] points=null;  
     NodeKind kind=null;  
 }  
 /** 
  * Trie叶子结点 
  */  
 class LeafNode extends TrieNode{  
       
     LeafNode(char k){  
         super.key=k;  
         super.kind=NodeKind.LN;  
     }  
 }  
 /** 
  * Trie内部结点 
  */  
 class BranchNode extends TrieNode{  
       
     BranchNode(char k){  
         super.key=k;  
         super.kind=NodeKind.BN;  
         super.points=new TrieNode[27];  
     }  
 }  
 /** 
  * Trie树 
  * @author heartraid 
  */  
 public class StandardTrie {  
   
     private TrieNode root=new BranchNode(' ');  
       
     /** 
      * 想Tire中插入字符串 
      */  
     public void insert(String word){  
           
         //System.out.println("插入字符串："+word);  
         //从根结点出发  
         TrieNode curNode=root;  
         //为了满足字符串集合X中不存在一个串是另外一个串的前缀   
         word=word+"$";  
         //获取每个字符  
         char[] chars=word.toCharArray();  
         //插入  
         for(int i=0;i<chars.length;i++){  
             //System.out.println("   插入"+chars[i]);   
             if(chars[i]=='$'){  
                 curNode.points[26]=new LeafNode('$');  
             //  System.out.println("   插入完毕,使当前结点"+curNode.key+"的第26孩子指针指向字符：$");  
             }  
             else{  
                 int pSize=chars[i]-'a';  
                 if(curNode.points[pSize]==null){  
                     curNode.points[pSize]=new BranchNode(chars[i]);  
                 //  System.out.println("   使当前结点"+curNode.key+"的第"+pSize+"孩子指针指向字符: "+chars[i]);  
                     curNode=curNode.points[pSize];  
                 }  
                 else{  
                 //  System.out.println("   不插入，找到当前结点"+curNode.key+"的第"+pSize+"孩子指针已经指向字符: "+chars[i]);  
                     curNode=curNode.points[pSize];  
                 }  
             }  
         }  
     }  
     /** 
      * Trie的字符串全字匹配 
      */  
     public boolean fullMatch(String word){  
         //System.out.print("查找字符串："+word+"/n查找路径：");  
         //从根结点出发  
         TrieNode curNode=root;  
         //获取每个字符  
         char[] chars=word.toCharArray();  
           
         for(int i=0;i<chars.length;i++){  
             if(curNode.key=='$'){  
                 System.out.println('&');  
             //  System.out.println(" 【成功】");  
                 return true;  
             }else{  
                 System.out.print(chars[i]+" -> ");     
                 int pSize=chars[i]-'a';  
                 if(curNode.points[pSize]==null){  
                 //  System.out.println(" 【失败】");  
                     return false;  
                 }else{  
                     curNode=curNode.points[pSize];  
                 }  
             }  
         }  
     //  System.out.println("  【失败】");  
         return false;  
     }  
       
   
     /** 
      * 先根遍历Tire树 
      */  
     private void preRootTraverse(TrieNode curNode){  
           
         if(curNode!=null){  
             System.out.print(curNode.key+" ");  
             if(curNode.kind==NodeKind.BN)  
                 for(TrieNode childNode:curNode.points)  
                     preRootTraverse(childNode);  
         }  
           
     }  
     /** 
      * 得到Trie根结点 
      */  
     public TrieNode getRoot(){  
         return this.root;  
     }  
     /** 
      * 测试 
      */  
     public static void main(String[] args) {  
           
         StandardTrie trie=new StandardTrie();  
         trie.insert("bear");  
         trie.insert("bell");  
         trie.insert("bid");  
         trie.insert("bull");  
         trie.insert("buy");  
         trie.insert("sell");  
         trie.insert("stock");  
         trie.insert("stop");  
           
         trie.preRootTraverse(trie.getRoot());  
           
         trie.fullMatch("stoops");  
     }  
 }  

中文词语的标准 Trie树

由于中文的字远比英文的26个字母多的多。因此对于trie树的内部结点，不可能用一个26的数组来存储指针。如果每个结点都开辟几万个中国字的指针空间。估计内存要爆了，就连磁盘也消耗很大。

一般我们采取这样种措施：

(1) 以词语中相同的第一个字为根组成一棵树。这样的话，一个中文词汇的集合就可以构成一片Trie森林。这篇森林都存储在磁盘上。森林的root中的字和root所在磁盘的位置都记录在一张以Unicode码值排序的有序字表中。字表可以存放在内存里。

(2) 内部结点的指针用可变长数组存储。

特点：由于中文词语很少操作4个字的，因此Trie树的高度不长。查找的时间主要耗费在内部结点指针的查找。因此将这项指向字的指针按照字的Unicode码值排序，然后加载进内存以后通过二分查找能够提高效率。

标准Trie树的应用和优缺点

(1) 全字匹配：确定待查字串是否与集合的一个单词完全匹配。如上代码fullMatch()。

(2) 前缀匹配：查找集合中与以s为前缀的所有串。

注意：Trie树的结构并不适合用来查找子串。这一点和前面提到的PAT Tree以及后面专门要提到的Suffix Tree的作用有很大不同。

优点：查找效率比与集合中的每一个字符串做匹配的效率要高很多。在o(m)时间内搜索一个长度为m的字符串s是否在字典里。

缺点：标准Trie的空间利用率不高，可能存在大量结点中只有一个子结点，这样的结点绝对是一种浪费。正是这个原因，才迅速推动了下面所讲的压缩trie的开发。

2. 压缩Trie (compressed trie)

压缩Trie类似于标准Trie，但它能保证trie中的每个内部结点至少有两个子节点(根结点除外)。通过把单子结点链压缩进叶子节点来执行这个规则。

压缩Trie的定义

冗余结点(redundant node)：如果T的一个非根内部结点v只有一个子结点，那么我们称v是冗余的。

冗余链(redundant link)：如上标准Trie图中，内部结点e只有一个内部子结点l，而l也只有一个叶子结点。那么e-l-l就构成了一条冗余链。

压缩(compressed)：对于冗余链 v1- v2- v3- ... -vn，我们可以用单边v1-vn来替代。

对上面标准Trie的图压缩之后，形成了Compressed Trie的字符表示图如下：

压缩Trie的性质和优势：

与标准Trie比较，压缩Trie的结点数与串的个数成正比了，而不是与串的总长度成正比。一棵存储来自大小为d的字母表中的s个串的结合T的压缩trie具有如下性质：

(1) T中的每个内部结点至少有两个子结点，至多有d个子结点。

(2) T有s个外部结点。

(3) T中的结点数为O(s)

存储空间从标准Trie的O(n)降低到压缩后的O(s)，其中n为集合T中总字符串长度，s为T中的字符串个数。

压缩Trie的压缩表示

上面的图是压缩Trie的字符串表示。相比标准Trie而言，确实少了不少结点。但是细心的读者会发现，叶子结点中的字符数量增加了，比如结点ell，那么这种压缩空间的效率当然会打折扣了。那么有什么好办法呢，这里我们介绍一种压缩表示方法。即把所有结点中的字符串用三元组的形式表示如下图：

其中三元组(i，j，k)表示S[i]的从第j个位置到第k个位置间的子串。比如(5,1,3,)表示S[5][1...3]="ell"。

这种压缩表示的一个巨大的优点就是：无论结点需要存储多长的字串，全部都可以用一个三元组表示，而且三元组所占的空间是固定有限的。但是为了做到这一点，必须有一张辅助索引结构（如上图右侧s0—s7所示）。

转自：http://hxraid.iteye.com/blog/618962

【软件系统架构】系列四：数字信号处理器（DSP）
目录一、什么是DSP？二、DSP的核心架构特点1.基本结构2.工作流程：3.关键特性：三、DSP与MCU/MPU/NPU的对比四、DSP与通用处理器的对比五、常用DSP算法类型六、常见DSP芯片平台七、开发工具链与语言支持八、典型应用场景举例通信领域：音频处理：图像与视频处理：工业控制：军事与航空航天：九、选型关键因素十、技术趋势总结一、什么是DSP？DSP（DigitalSignalProces
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
使用Picgo+Cloudflare R2构建图床 Chrislime 云计算网络网络安全缓存
R2是Cloudflare推出的非结构性Objectstorage（对象存储）服务。本文将介绍我推荐R2的原因以及与Picgo联动的使用方式。为什么选择R2正如我在博客中多次提到，Cloudflare是一家服务范围遍及全球的网络资源供应商。因此对象存储自然也会成为其主打服务之一选择R2的理由有以下：10GB免费空间无流量费免费CDN节点及DDos防护服务国际化兼容S3无政治原因的审查得益于Clou
同步日志系统深度解析【链式调用】【宏定义】【固定缓冲区】【线程局部存储】【RAII】 weixin_47868976 链表 python
你的理解完全正确！让我结合你的项目，深入讲解同步日志的实现原理和代码。同步日志系统深度解析开始之前：没有必要一行一行理解！没有必要一行一行理解！我建议你采用更高效的学习策略：一、学习策略建议重点理解核心概念和设计思路//只需要理解这些核心概念：1.RAII模式：构造函数获取资源，析构函数释放资源2.链式调用：operatorstream()output();//手动调用输出deletelogger
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
【学习】《算法图解》第八章学习笔记：平衡树自学也学好编程程序人生
前言在上一章中，我们学习了二叉搜索树(BST)的基本概念和操作。虽然BST在平均情况下提供了O(logn)的搜索、插入和删除效率，但在最坏情况下（如按顺序插入数据），它可能退化为链表，导致操作效率降为O(n)。为了解决这个问题，《算法图解》第八章介绍了平衡树的概念和几种主要的平衡树结构，这些结构能够在各种情况下保持较好的平衡性，确保操作的高效性。一、平衡树的基本概念（一）什么是平衡树平衡树是一种特
【分治算法】【Python实现】Strassen矩阵乘法「已注销」 #分治算法分治算法 Python
文章目录@[toc]问题描述基础算法时间复杂性Strassen算法时间复杂性问题时间复杂性Python实现个人主页：丷从心·系列专栏：分治算法学习指南：算法学习指南问题描述设AAA和BBB是两个n×nn\timesnn×n矩阵，AAA和BBB的乘积矩阵CCC中元素cij=∑k=1naikbkjc_{ij}=\displaystyle\sum\limits_{k=1}^{n}{a_{ik}b_{kj
【算法设计与分析】（三）二分搜索技术与大整数乘法珹洺 #算法设计与分析算法
【算法设计与分析】（三）二分搜索技术与大整数乘法前言一、二分搜索技术1.为什么需要二分搜索？2.二分搜索怎么做？3.为什么说它很快？4.哪些场景会用到？二、大整数乘法1.问题来了：数字太大怎么办？2.传统方法3.用分治思想优化4.Karatsuba算法：具体怎么算？5.效率提升有多大？6.实际应用场景总结前言在上一篇博客中，我们已深入剖析了递归的本质内涵与分治法的核心思想——通过将复杂问题分解为规
【算法设计与分析】（四）Strassen 矩阵珹洺 #算法设计与分析算法矩阵线性代数
【算法设计与分析】（四）Strassen矩阵前言一、传统矩阵乘法二、Strassen矩阵乘法1.算法步骤2.效率提升三、实际应用场景四、算法的局限性与改进前言上一篇博客我们以生动形象的例子和清晰的步骤，为大家详细讲解了二分搜索技术与大整数乘法。接下来，这篇博客将带大家深入探索**Strassen矩阵**乘法，感受算法优化魅力。我的个人主页，欢迎来阅读我的其他文章https://blog.csdn.
MCP如何助力智能交通系统？从数据融合到精准决策 Echo_Wish Python 进阶 python 开发语言
MCP如何助力智能交通系统？从数据融合到精准决策近年来，智能交通系统（ITS）正在全球范围内快速发展，它结合人工智能（AI）、物联网（IoT）和数据分析，致力于提高交通效率、减少拥堵、增强安全性。而MCP（Multi-ConstraintPathfinding，多约束路径寻优）技术作为一种复杂路径优化算法，在智能交通系统中扮演着重要角色，尤其是在导航优化、公共交通调度、应急响应等场景。今天，我们就
解锁云原生微服务架构：搭建与部署实战全攻略奔跑吧邓邓子必备核心技能云原生架构微服务搭建与部署实战全攻略
目录一、引言二、微服务拆分2.1拆分的必要性2.2拆分方法2.3注意事项三、服务注册与发现3.1概念与原理3.2常用组件介绍3.3实践案例四、负载均衡4.1作用与原理4.2实现方式4.3负载均衡算法4.4案例与代码实现4.4.1项目依赖配置4.4.2配置Ribbon4.4.3代码实现负载均衡调用五、容器化部署5.1容器化技术基础5.2容器化部署流程5.2.1编写Dockerfile5.2.2构建D
YOLOv13：开启目标检测新时代，手把手教你实操奔跑吧邓邓子必备核心技能 YOLO 目标检测目标跟踪人工智能实操
目录一、YOLOv13初印象1.1YOLO系列发展脉络1.2YOLOv13独特之处二、前期准备工作2.1环境搭建2.2依赖安装三、深入使用指南3.1模型验证3.2模型训练3.3模型推理四、应用案例与拓展4.1实际场景应用展示4.2与其他技术结合思路五、总结与展望一、YOLOv13初印象1.1YOLO系列发展脉络YOLO（YouOnlyLookOnce）系列算法在目标检测领域中，就如同一位不断进化的
InfluxDB 3 Core 持久化机制深度解析：高可靠实时数据引擎的设计哲学与工业实践梦想画家数据库 InfluxDB 分层持久化架构
本文深入拆解InfluxDB3Core的数据持久化架构，涵盖写入流程、故障恢复、存储引擎设计，并结合物联网、金融监控等场景分析其高可靠性实现逻辑。通过对比传统时序数据库架构与性能实测数据，揭示新一代引擎如何平衡实时性与数据安全性，为大规模时序数据处理提供生产级保障。一、持久化核心机制：从写入到落盘的全链路保护1.分层持久化架构InfluxDB3Core采用三级数据保护策略：写入请求→内存缓冲区(V
pandas 优雅处理值类型为list的列的csv读写问题 Allocator Python pandas list python
文章目录直接存储joinlist变成字符串存储json.dumps序列化存储以及json.loads反序列化读取总结之所以分析这个问题,是因为读者在跟第三方数据供应商对接数据的时候,老是会遇到数据加载都会出错的问题,其中一个原因就是list类型数据没有正确储存,于是笔者在这篇文章里面详细分析一下list数据怎么优雅的写入csv以及读取.直接存储第一种方法,直接存,不做任何转换defdirect_w
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
家谱html源码,好看的族谱树状图效果代码 Illusion.H 家谱html源码
家谱树状代码demobywww.webym.net/*NowtheCSS*/*{margin:0;padding:0;}.treeul{padding-top:20px;position:relative;transition:all0.5s;-webkit-transition:all0.5s;-moz-transition:all0.5s;}.treeli{float:left;text-al
Java 开发新手必看：Eclipse 基础操作 Java大师兄学大数据AI应用开发 java eclipse python ai
Java开发新手必看：Eclipse基础操作关键词：Java开发、Eclipse、基础操作、新手入门、集成开发环境摘要：本文专为Java开发新手打造，详细介绍了Eclipse这一强大集成开发环境的基础操作。从背景知识入手，逐步解释核心概念，深入剖析核心算法原理，通过项目实战展示具体操作，还介绍了实际应用场景、工具资源推荐以及未来发展趋势。旨在帮助新手快速上手Eclipse，开启Java开发之旅。背
浅析JVM虚拟机之一 �欢快↑㎡ jvm java linux
1.为什么要学习JVM可以深入了解Java,分析字节码，得到准确的结论可以提升排查问题的能力，可能出现内存溢出，GC频率导致响应慢等等2.JVM的部分核心2.1类装载子系统类装载子系统主要功能是查找并验证类文件、完成相关内存空间的分配和对象赋值。2.2运行时数据区类文件加载到内存之后由运行时数据区来完成数据存储和数据交换。运行时数据区又分为线程共享内存区和线程隔离内存区。线程共享内存区包括方法区（
JVM堆（Heap）详解与工作流程分析 empti_ Java基础 jvm java
JVM堆（Heap）详解与工作流程分析1.JVM堆核心架构1.1堆内存整体布局Java堆新生代YoungGeneration老年代OldGenerationEden区Survivor区S0Survivor区S1元空间Metaspace字符串常量池1.2各区域核心参数区域默认占比JVM参数存储内容Eden区80%新生代-XX:NewRatio新创建的对象Survivor区10%新生代×2-XX:Su
AcWing--数据结构1 谢耳朵(wer~wer~) Acwing学习数据结构 c++算法
用数组来模拟链表。这种实现链表的方式也叫静态链表。1.单链表写邻接表：存储图和树我们定义：e[N]用来表示某个点的值是多少；ne[N]用来表示某个点的next指针是多少e和ne是用下标关联起来的如：head->3->5->7->9->空(下标从0开始，3的下标是0，以此类推，空的下标为-1）那么e[0]=3,ne[0]=1;e[1]=5,ne[1]=2;...e[3]=9,ne[3]=-1//单
HashMap HansenPole825 哈希算法散列表算法
一、结构1.数组（桶数组）初始容量默认16。数组元素成为桶，每个桶存储链表或红黑树（jdk1.8及以后）。2.链表当不同key的哈希值映射到同一桶式，以链表形式存储。3.红黑树jdk1.8及以后引入红黑树：当链表长度大于等于8且桶数组长度大于等于64式，链表转化为红黑树，查询时间从O（n）降为O（logn）。树节点小于6时退化为链表二、关键机制1.哈希计算（jdk1.8）staticfinalin
浅谈新能源与计算机萝萝仔笔记能源计算机新能源
最刚开始听到老师说让谈新能源跟计算机的关系的时候，我是感觉怎么这两者完全扯不上什么联系，根本就是两个不同领域啊。后来想着计算机本身也是需要能源支撑着的，这不就是联系所在，而且就我现在的专业——计算机系统结构而言，现在越来越多的研究想要做到计算机的能耗与效率的负载均衡，从体系结构层次、软件层次、算法层次，都是想要尽量节约计算机的能源。再后来想着我本科的专业——物联网工程，其实就是提倡物物相连的一个概
AWS中的 CloudFormation 等待的L先生 aws 云计算
AWS中的CloudFormation1.CloudFormation是什么？AWSCloudFormation是亚马逊科技（AWS）提供的一项服务，允许用户通过模板来描述和配置，从而实现基础设施即代码（InfrastructureasCode，lac）。CloudFormation使用JSON或者YAML文件编写的模板来定义一组AWS资源的集合，称为“堆栈”，这些资源可以包括EC2实例，S3存储
Android笔记（十五）ContentProvider源码浅析 jametang25 andorid
ContentProvider作为四大组件之一，由于业务上用到的地方不多,目前业务是系统界面，属于系统应用，最适合使用ContentProvider来进行少量数据存储，我们业务中涉及到的Settings.system和Settings.Secure等数据库，就是通过ContentProvider来封装、用ContentResolver来访问的//通过ContentResolver来访问Settin
红黑树与2-3树：插入、删除操作的时间复杂度与实现机制比较一键难忘红黑树数据结构
本文收录于专栏：算法之翼红黑树与2-3树：插入、删除操作的时间复杂度与实现机制比较红黑树（Red-BlackTree）和2-3树（2-3Tree）是两种广泛用于平衡二叉查找树的自平衡树结构。它们在插入、删除和查找操作中的性能都表现良好，并且可以确保树的高度是对数级别，从而保证了高效的操作时间。本文将对红黑树和2-3树进行深入的比较，并结合代码实例说明它们的实现和应用。1.数据结构简介1.1红黑树简
Python网安-zip文件暴力破解（仅供学习） Whoisshutiao python网安 python 开发语言网络安全
目录源码在这里需要的模块准备一个密码本和需要破解的ZIP文件一行一行地从密码文件中读取每个密码。核心部分注意，需要修改上段代码注释里的这段具有编码问题的代码：源码在这里https://github.com/Wist-fully/Attack/tree/cracker需要的模块fromtqdmimporttqdmimportzipfileimportpyzipper准备一个密码本和需要破解的ZIP文
【力扣hot100】python刷题笔记之哈希 Animato. 哈希算法 leetcode 笔记
1.两数之和（简单）题目描述：给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。示例：解法一：暴力解法：双层循环（这里就不给代码了）解法二：哈希表（时间复杂度O(n)）算法思路：（1）先创建一个空字典当做哈希表来存储已经遍历过的
K8S必问面试题之：K8S架构中每个组件的作用运维爱背锅 K8S面试题 kubernetes 架构容器 K8S面试题面试 devops 运维
微信关注运维爱背锅，用通俗易懂的方式教你运维K8S面试题：K8S架构中每个组件的作用大家好！今天我们来聊聊Kubernetes（简称K8S）中各个组件的作用，这是一道必问的面试题——各个组件就像一支分工明确的足球队，有人守门、有人射门，还有人负责喊战术。下面咱们就用“人话”拆解一下这些组件的职责。1.etcd：集群的“八卦的小本本”作用：分布式K-V（键值）存储数据库，专门记录集群的所有“秘密”，
大模型本地部署，拥有属于自己的ChatGpt 小妖同学学AI chatgpt
ChatGpt以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人的能力。不管用于文案撰写还是程序辅助开发都大大提高了我们的工作效率，但是其使用有一定的门槛，让我们大多数人都望而却步，今天我们利用ollama实现本地大模型的步骤，让我们轻松拥有自己的人工智能。Ollama作为一个轻量级的工具，可以帮助用户在本地运行这些大型语言模型，无需持续依赖云服务，既保护了数据隐私，又能减少网
左神算法之矩阵旋转90度岳轩子左神算法算法矩阵线性代数
目录旋转矩阵90度（原地操作）1.题目2.解释3.思路4.代码5.总结6.其他旋转矩阵90度（原地操作）1.题目旋转矩阵90度，且只能用有限的几个变量。比如下面的矩阵：12345678910111213141516转换结果为：139511410621511731612842.解释旋转矩阵90度是指将矩阵顺时针旋转90度。观察旋转前后的变化可以发现：原矩阵的第一行变为旋转后矩阵的最后一列原矩阵的第二
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

中文分词：之Trie树

【串和序列处理 3】Trie Tree 串集合查找

你可能感兴趣的:(算法,HashMap,tree,Lucene,存储,自然语言处理)