happyever2012

中文分词之HMM模型详解

关于HMM模型的介绍，网上的资料已经烂大街，但是大部分都是在背书背公式，本文在此针对HMM模型在中文分词中的应用，讲讲实现原理。

尽可能的撇开公式，撇开推导。结合实际开源代码作为例子，争取做到雅俗共赏，童叟无欺。

没有公式，就没有伤害。

模型介绍

第一次听说HMM模型是从李开复的博文论文中听说的：

中文分词之HMM模型详解_第1张图片

李开复1988年的博士论文发表了第一个基于隐马尔科夫模型（HMM）的语音识别系统Sphinx，被《商业周刊》评为1988年美国最重要的科技发明。

出处点我

乍一听似乎很玄妙，但是其实很简单。下面是相关参数介绍，也是第一眼觉得很抽象，但是慢慢看下去随着具体含义的解释就渐渐清晰。

HMM(Hidden Markov Model): 隐式马尔科夫模型。

HMM模型可以应用在很多领域，所以它的模型参数描述一般都比较抽象，以下篇幅针对HMM的模型参数介绍直接使用它在中文分词中的实际含义来讲：

HMM的典型介绍就是这个模型是一个五元组:

StatusSet: 状态值集合
ObservedSet: 观察值集合
TransProbMatrix: 转移概率矩阵
EmitProbMatrix: 发射概率矩阵
InitStatus: 初始状态分布

HMM模型可以用来解决三种问题：

参数(StatusSet,TransProbMatrix,EmitRobMatrix,InitStatus)已知的情况下，求解观察值序列。(Forward-backward算法)
参数(ObservedSet,TransProbMatrix,EmitRobMatrix,InitStatus)已知的情况下，求解状态值序列。(viterbi算法)
参数(ObservedSet)已知的情况下，求解(TransProbMatrix,EmitRobMatrix,InitStatus)。(Baum-Welch算法)

其中，第三种问题最玄乎也最不常用，第二种问题最常用，【中文分词】，【语音识别】, 【新词发现】，【词性标注】都有它的一席之地。所以本文主要介绍第二种问题，即【viterbi算法求解状态值序列】的方法。

五元组参数在中文分词中的具体含义

接下来我们讲实的，不讲虚的，针对中文分词应用，直接给五元组参数赋予具体含义：

StatusSet & ObservedSet

状态值集合为(B, M, E, S): {B:begin, M:middle, E:end, S:single}。分别代表每个状态代表的是该字在词语中的位置，B代表该字是词语中的起始字，M代表是词语中的中间字，E代表是词语中的结束字，S则代表是单字成词。

观察值集合为就是所有汉字(东南西北你我他...)，甚至包括标点符号所组成的集合。

状态值也就是我们要求的值，在HMM模型中文分词中，我们的输入是一个句子(也就是观察值序列)，输出是这个句子中每个字的状态值。比如:

小明硕士毕业于中国科学院计算所

输出的状态序列为

BEBEBMEBEBMEBES

根据这个状态序列我们可以进行切词:

BE/BE/BME/BE/BME/BE/S

所以切词结果如下:

小明/硕士/毕业于/中国/科学院/计算/所

同时我们可以注意到：

B后面只可能接(M or E)，不可能接(B or E)。而M后面也只可能接(M or E)，不可能接(B, S)。

没错，就是这么简单，现在输入输出都明确了，下文讲讲输入和输出之间的具体过程，里面究竟发生了什么不可告人的秘密，请看下文：

上文只介绍了五元组中的两元【StatusSet, ObservedSet】，下文介绍剩下的三元【InitStatus, TransProbMatrix, EmitProbMatrix】。

这五元的关系是通过一个叫Viterbi的算法串接起来，ObservedSet序列值是Viterbi的输入，而StatusSet序列值是Viterbi的输出，输入和输出之间Viterbi算法还需要借助三个模型参数，分别是InitStatus, TransProbMatrix, EmitProbMatrix，接下来一一讲解：

InitStatus

初始状态概率分布是最好理解的，可以示例如下：

#B
-0.26268660809250016
#E
-3.14e+100
#M
-3.14e+100
#S
-1.4652633398537678

示例数值是对概率值取对数之后的结果(可以让概率相乘的计算变成对数相加)，其中-3.14e+100作为负无穷，也就是对应的概率值是0。下同。

也就是句子的第一个字属于{B,E,M,S}这四种状态的概率，如上可以看出，E和M的概率都是0，这和实际相符合，开头的第一个字只可能是词语的首字(B)，或者是单字成词(S)。

TransProbMatrix

转移概率是马尔科夫链很重要的一个知识点，大学里面学过概率论的人都知道，马尔科夫链最大的特点就是当前T=i时刻的状态Status(i)，只和T=i时刻之前的n个状态有关。也就是:

{Status(i-1), Status(i-2), Status(i-3), ... Status(i - n)}

更进一步的说，HMM模型有三个基本假设(具体哪三个请看文末备注)作为模型的前提，其中有个【有限历史性假设】，也就是马尔科夫链的n=1。即Status(i)只和Status(i-1)相关，这个假设能大大简化问题。

回过头看TransProbMatrix，其实就是一个4x4(4就是状态值集合的大小)的二维矩阵，示例如下：

矩阵的横坐标和纵坐标顺序是BEMS x BEMS。(数值是概率求对数后的值，别忘了。)

-3.14e+100 -0.510825623765990 -0.916290731874155 -3.14e+100
-0.5897149736854513 -3.14e+100 -3.14e+100 -0.8085250474669937
-3.14e+100 -0.33344856811948514 -1.2603623820268226 -3.14e+100
-0.7211965654669841 -3.14e+100 -3.14e+100 -0.6658631448798212

比如TransProbMatrix[0][0]代表的含义就是从状态B转移到状态B的概率，由TransProbMatrix[0][0] = -3.14e+100可知，这个转移概率是0，这符合常理。由状态各自的含义可知，状态B的下一个状态只可能是ME，不可能是BS，所以不可能的转移对应的概率都是0，也就是对数值负无穷，在此记为-3.14e+100。

由上TransProbMatrix矩阵可知，对于各个状态可能转移的下一状态，且转移概率对应如下：

#B
#E:-0.510825623765990,M:-0.916290731874155
#E
#B:-0.5897149736854513,S:-0.8085250474669937
#M
#E:-0.33344856811948514,M:-1.2603623820268226
#S
#B:-0.7211965654669841,S:-0.6658631448798212

EmitProbMatrix

这里的发射概率(EmitProb)其实也是一个条件概率而已，根据HMM模型三个基本假设(哪三个请看文末备注)里的【观察值独立性假设】，观察值只取决于当前状态值，也就是:

P(Observed[i], Status[j]) = P(Status[j]) * P(Observed[i]|Status[j])

其中P(Observed[i]|Status[j])这个值就是从EmitProbMatrix中获取。

EmitProbMatrix示例如下：

#B
耀:-10.460283,涉:-8.766406,谈:-8.039065,伊:-7.682602,洞:-8.668696,...
#E
耀:-9.266706,涉:-9.096474,谈:-8.435707,伊:-10.223786,洞:-8.366213,...
#M
耀:-8.47651,涉:-10.560093,谈:-8.345223,伊:-8.021847,洞:-9.547990,....
#S
蘄:-10.005820,涉:-10.523076,唎:-15.269250,禑:-17.215160,洞:-8.369527...

虽然EmitProbMatrix也称为矩阵，这个矩阵太稀疏了，实际工程中一般是将上面四行发射转移概率存储为4个Map，详见代码HMMSegment。

到此，已经介绍完HMM模型的五元参数，假设现在手头上已经有这些参数的具体概率值，并且已经加载进来，(也就是有该模型的字典了，详见HMMDict里面的hmm_model.utf8)，那么我们只剩下Viterbi这个算法函数，这个模型就算可以开始使用了。所以接下来讲讲Viterbi算法。

HMM中文分词之Viterbi算法

输入样例:

小明硕士毕业于中国科学院计算所

Viterbi算法计算过程如下：

定义变量

二维数组 weight[4][15]，4是状态数(0:B,1:E,2:M,3:S)，15是输入句子的字数。比如 weight[0][2] 代表状态B的条件下，出现'硕'这个字的可能性。

二维数组 path[4][15]，4是状态数(0:B,1:E,2:M,3:S)，15是输入句子的字数。比如 path[0][2] 代表 weight[0][2]取到最大时，前一个字的状态，比如 path[0][2] = 1, 则代表 weight[0][2]取到最大时，前一个字(也就是明)的状态是E。记录前一个字的状态是为了使用viterbi算法计算完整个 weight[4][15] 之后，能对输入句子从右向左地回溯回来，找出对应的状态序列。

使用InitStatus对weight二维数组进行初始化

已知InitStatus如下:

#B
-0.26268660809250016
#E
-3.14e+100
#M
-3.14e+100
#S
-1.4652633398537678

且由EmitProbMatrix可以得出

Status(B) -> Observed(小)  :  -5.79545
Status(E) -> Observed(小)  :  -7.36797
Status(M) -> Observed(小)  :  -5.09518
Status(S) -> Observed(小)  :  -6.2475

所以可以初始化 weight[i][0] 的值如下：

weight[0][0] = -0.26268660809250016 + -5.79545 = -6.05814
weight[1][0] = -3.14e+100 + -7.36797 = -3.14e+100
weight[2][0] = -3.14e+100 + -5.09518 = -3.14e+100
weight[3][0] = -1.4652633398537678 + -6.2475 = -7.71276

注意上式计算的时候是相加而不是相乘，因为之前取过对数的原因。

遍历句子计算整个weight二维数组

//遍历句子，下标i从1开始是因为刚才初始化的时候已经对0初始化结束了
for(size_t i = 1; i < 15; i++)
{
    // 遍历可能的状态
    for(size_t j = 0; j < 4; j++) 
    {
        weight[j][i] = MIN_DOUBLE;
        path[j][i] = -1;
        //遍历前一个字可能的状态
        for(size_t k = 0; k < 4; k++)
        {
            double tmp = weight[k][i-1] + _transProb[k][j] + _emitProb[j][sentence[i]];
            if(tmp > weight[j][i]) // 找出最大的weight[j][i]值
            {
                weight[j][i] = tmp;
                path[j][i] = k;
            }
        }
    }
}

如此遍历下来，weight[4][15] 和 path[4][15] 就都计算完毕。

确定边界条件和路径回溯

边界条件如下：

对于每个句子，最后一个字的状态只可能是 E 或者 S，不可能是 M 或者 B。

所以在本文的例子中我们只需要比较 weight[1(E)][14] 和 weight[3(S)][14] 的大小即可。

在本例中：

weight[1][14] = -102.492;
weight[3][14] = -101.632;

所以 S > E，也就是对于路径回溯的起点是 path[3][14]。

回溯的路径是:

SEBEMBEBEMBEBEB

倒序一下就是:

BE/BE/BME/BE/BME/BE/S

所以切词结果就是:

小明/硕士/毕业于/中国/科学院/计算/所

到此，一个HMM模型中文分词算法过程就阐述完毕了。

也就是给定我们一个模型，我们对模型进行载入完毕之后，只要运行一遍Viterbi算法，就可以找出每个字对应的状态，根据状态也就可以对句子进行分词。

模型的训练问题

以上讲的前提是基于模型来进行切词，也就是假设我们手头上的HMM模型已经是被训练好了的(也就是InitStatus, TransProbMatrix, EmitProbMatrix这三个模型的关键参数都是已知的)，没有涉及到这三个参数是如何得到的。这三个参数其实也是基于已分词完毕的语料进行统计计算，计算出相应的频率和条件概率就可以算出这三个参数。具体在此就不讲了。

备注

HMM模型的三个基本假设如下：

有限历史性假设:

P(Status[i]|Status[i-1],Status[i-2],... Status[1]) = P(Status[i]|Status[i-1])

齐次性假设(状态和当前时刻无关):

P(Status[i]|Status[i-1]) = P(Status[j]|Status[j-1])

观察值独立性假设(观察值只取决于当前状态值):

P(Observed[i]|Status[i],Status[i-1],...,Status[1]) = P(Observed[i]|Status[i])

源码参考

HMMSegment

你可能感兴趣的:(基础算法)

信息学奥赛-一本通-第二部分基础算法 --＞第五章搜索与回溯算法攻城丶狮 C++比赛信息算法深度优先图论 c++青少年编程
1317：【例5.2】组合的输出【题目描述】排列与组合是常用的数学方法，其中组合就是从n个元素中抽出r个元素(不分顺序且r≤n)，我们可以简单地将n个元素理解为自然数1，2，…，n，从中任取r个数。现要求你用递归的方法输出所有组合。例如n＝5，r＝3，所有组合为：123124125134135145234235245345【题目分析】1.搜索函数参数:上一次搜索的数字i(i(n)>=i(n-1))
零基础数据结构与算法——第四章：基础算法-排序（总） qqxhb 零基础数据结构与算法算法小学生编程算法排序算法数据结构插入桶归并
排序上（冒泡/选择/插入）排序中（归并/堆排/快排）排序下（计数/基数/桶）4.1.10排序算法的比较性能比较下表总结了我们学习的排序算法的性能特点：排序算法平均时间复杂度最坏时间复杂度最好时间复杂度空间复杂度稳定性是否基于比较冒泡排序O(n²)O(n²)O(n)O(1)稳定是选择排序O(n²)O(n²)O(n²)O(1)不稳定是插入排序O(n²)O(n²)O(n)O(1)稳定是归并排序O(nlo
算法设计与分析知识总结 vortex5 算法
一、算法基础算法是对特定问题求解步骤的描述，是指令的有限序列，具有输入、输出、有穷性、确定性和可行性五个性质。程序则是算法用某种编程语言的具体实现。优秀的算法应具备正确性、健壮性、可理解性、抽象分级和高效性，其中时间复杂度是衡量算法效率的重要标准。常用的时间复杂度符号包括O（上界）、Ω（下界）和Θ（紧确界）。1.1时间复杂度分析非递归算法以嵌套循环为例，分析以下代码的时间复杂度：for(i=1;i
基础算法枚举，贪心
1.枚举穷举所有可能的解：算法枚举通过尝试所有可能的组合或排列来解决问题，确保不会错过任何潜在的解。并进行验证和比较，找到最优解。或者所有解。解空间的类型：可以是一个范围的所有数字（或二元组，字符串），或者满足某个条件的所有数字。蓝桥杯一题枚举问题小明对数位中含有2、0、1、9的数字很感兴趣（不包括前导0），在1到40中这样的数包括1、2、9、10至32、39和40，共28个，他们的和是574。请
【基础算法】贪心 (二) ：推公式让我们一起加油好吗 #贪心基础算法篇（一）算法数据结构贪心算法洛谷数学
文章目录什么是推公式1.拼数⭐⭐(1)解题思路(2)代码实现2.ProtectingtheFlowersS⭐⭐⭐(1)解题思路(2)代码实现3.奶牛玩杂技⭐⭐⭐(1)解题思路(2)代码实现什么是推公式如果细说的话，本篇标题应该叫推公式+排序。推公式就是寻找排序规则，排序就是在该排序规则下对整个对象排序。在解决某些问题的时，当我们发现最终结果需要调整每个对象的先后顺序，也就是对整个对象排序时，那么我
图论基础算法入门笔记
图论基础与建图图的定义图是由若干给定的顶点及连接两顶点的边所构成的图形，顶点用于代表事物，连接两顶点的边用于表示两个事物间的特定关系。建图的概念建图是指找到合适的方法将图表示出来。图的存储方法直接存边存储方式：直接使用一个数组，将边的起点与终点信息存储。代码实现：#includeusingnamespacestd;structEdge{intu,v;//边的起点和终点};intn,m;//n为顶点
LeetCode第300题_最长递增子序列 @蓝莓果粒茶算法 leetcode 算法职场和发展学习 c#游戏 python
LeetCode第300题：最长递增子序列文章摘要本文详细解析LeetCode第300题"最长递增子序列"，这是一道考察动态规划和二分查找的中等难度题目。文章提供了动态规划和贪心+二分查找两种实现方案，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合学习动态规划和二分查找的读者。核心知识点：动态规划、二分查找、贪心算法难度等级：中等推荐人群：具备基础算法知识，想要提升
LeetCode第301题_删除无效括号 @蓝莓果粒茶算法 leetcode 算法职场和发展 c#学习 python c++
LeetCode第301题：删除无效括号文章摘要本文详细解析LeetCode第301题"删除无效括号"，这是一道考察DFS和括号匹配的困难难度题目。文章提供了DFS和BFS两种实现方案，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合学习深度优先搜索和字符串处理的读者。核心知识点：DFS、BFS、括号匹配、字符串处理难度等级：困难推荐人群：具备基础算法知识，想要提升搜
【机器学习】机器学习的基本分类-监督学习-线性回归（Linear Regression） IT古董人工智能机器学习机器学习分类学习人工智能线性回归
线性回归是监督学习中的一种基础算法，用于解决回归问题。它通过拟合一条直线（或平面、高维超平面），来预测输出与输入变量之间的关系。1.线性回归的基本概念目标给定输入和对应的输出y，找到一个线性函数：其中：是权重（回归系数）。b是偏置（截距）。y是预测值。损失函数为了找到最佳的w和b，需要最小化预测值和真实值
算法-基础算法-枚举算法（Python）总裁余(余登武) 算法与数据结构算法 leetcode
文章目录前言解题思路题目1两数之和2计数质数前言枚举算法（EnumerationAlgorithm）：也称为穷举算法，指的是按照问题本身的性质，一一列举出该问题所有可能的解，并在逐一列举的过程中，将它们逐一与目标状态进行比较以得出满足问题要求的解。在列举的过程中，既不能遗漏也不能重复。枚举算法的核心思想是：通过列举问题的所有状态，将它们逐一与目标状态进行比较，从而得到满足条件的解。由于
【分治算法】【Python实现】Strassen矩阵乘法「已注销」 #分治算法分治算法 Python
文章目录@[toc]问题描述基础算法时间复杂性Strassen算法时间复杂性问题时间复杂性Python实现个人主页：丷从心·系列专栏：分治算法学习指南：算法学习指南问题描述设AAA和BBB是两个n×nn\timesnn×n矩阵，AAA和BBB的乘积矩阵CCC中元素cij=∑k=1naikbkjc_{ij}=\displaystyle\sum\limits_{k=1}^{n}{a_{ik}b_{kj
【学习】《算法图解》第七章学习笔记：树程序员
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
【学习】《算法图解》第七章学习笔记：树自学也学好编程程序人生
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
LeetCode第287题_寻找重复数 @蓝莓果粒茶算法 leetcode 算法职场和发展 c#学习 python c++
LeetCode第287题：寻找重复数文章摘要本文详细解析LeetCode第287题"寻找重复数"，这是一道考察数组和二分查找的中等难度题目。文章提供了二分查找和快慢指针两种实现方案，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合学习数组操作和查找算法的读者。核心知识点：二分查找、快慢指针、数组操作难度等级：中等推荐人群：具备基础算法知识，想要提升数组操作和查找算法
【C语言练习】100. 使用C语言实现简单的自然语言理解算法视睿从零开始学习机器人 c语言算法开发语言排序算法
100.使用C语言实现简单的自然语言理解算法100.使用C语言实现简单的自然语言理解算法关键词匹配算法简介示例代码：简单的关键词匹配算法代码说明示例运行扩展功能其他方法基于规则的方法统计机器学习方法C语言中统计机器学习方法概述常见统计机器学习算法的C实现贝叶斯定理基础算法核心思想常见变体实现示例（Python）优缺点优化库与工具性能与注意事项有限状态自动机（FSA）深度学习接口调用混合方法100.
从搬砖工到架构师，Java全栈知识体系（2025版）程序员岳彬 java 开发语言后端程序人生
文章目录一、前端技术体系1.前端基础2.前端框架与生态3.工程化工具4.跨端与性能优化二、后端Java技术体系1.Java核心基础2.后端Web开发3.持久层技术4.微服务与中间件三、运维与DevOps1.Linux服务器2.容器与集群3.持续集成/部署4.监控与日志四、AI算法与大模型集成1.基础算法2.大模型工程实践3.应用场景五、工程工具与最佳实践1.开发工具2.代码规范与质量3.架构设计六
图像基础算法学习笔记 jerry201108 视觉基础知识学习笔记计算机视觉
目录概要一、图像采集二、图像标注四、图像几何变换五、图像边缘检测Sobel算子Scharrt算子Laplacian算子Canny边缘检测六、形态学转换十三、图像去噪概要参考书籍：《机器视觉与人工智能应用开发技术》廖建尚，钟君柳出版时间：2024-02-01图像采集图像标注：绘制直线、矩阵、圆形、椭圆和多边形图像灰度转换：灰度化、二值化等图像转换方法图像几何变换：图像旋转、图像镜像、图像缩放、图像透
推荐算法介绍-基础算法盒子6910 运维视角下的广告业务算法推荐算法机器学习 c++java python
本系列教程也可以称为【深度学习-推荐系统】的读书笔记，该书系统化讲解了现代推荐系统的演进历程和工程实现，是一本非常优秀的推荐系统入门教程一、推荐系统架构1.1推荐系统介绍概述：获得“用户信息”、“物品信息”、“场景信息”的基础上，推荐系统要处理的问题可以形式化的定义为对于用户U(user)，在特定场景C(context)下，针对海量的“物品信息”，构建一个函数f(U,I,C)，预测用户对特定候选物
【原神 × 二叉树】角色天赋树、任务分支和圣遗物强化路径的算法秘密！星之尘1021 游戏视角下的算法通识课算法
【原神×二叉树】角色天赋树、任务分支和圣遗物强化路径的算法秘密！作者：星之辰标签：#原神#二叉树#天赋树#任务分支#圣遗物强化#算法科普发布时间：2025年6月总字数：6000+一、引子：提瓦特大陆的“树型奥秘”你是否曾留意过《原神》角色面板的天赋树？升级技能要先解锁前置分支，圣遗物强化出现“加成路径”，主线剧情层层递进……其实，这些常见的“分叉与递归”，都和二叉树这类基础算法结构有着天然联系！二
中美大模型技术路径差异解析：产品经理视角下的核心逻辑与产业启示 charles666666 人工智能产品经理语言模型自然语言处理产品经理
一、基础研究与工程化能力的差异化演进在技术底层架构层面，中美呈现出显著的路径分野。美国企业更注重基础算法突破与通用能力建设，如OpenAI通过Transformer架构的持续迭代，将模型参数量推升至万亿级别（如GPT-4Turbo的1.8万亿参数）。这种“技术驱动型”模式强调对长文本理解、多模态融合等底层能力的突破，其核心逻辑在于构建通用人工智能的“技术护城河”。中国技术路径则更聚焦场景驱动的工程
学而思编程2025年CodeStars年度综合评估真题解析 | 基础算法组 T1 除虫计划热爱编程的通信人算法
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
如何成为一名优秀的产品经理一点.点 #自动驾驶相关知识点自动驾驶汽车
一、夯实核心基础深入理解智能驾驶技术栈：感知：摄像头、雷达（毫米波、激光雷达）、超声波传感器的工作原理、优缺点、融合策略。了解目标检测、跟踪、SLAM等基础算法概念。定位：GNSS、IMU、高精地图、轮速计等定位技术，RTK，定位精度与可靠性。规划决策：路径规划（全局/局部）、行为决策（跟车、换道、路口处理）、运动控制（纵向/横向控制）。了解状态机、规则引擎、预测算法等。地图：高精地图（HDMap
Day123 | 灵神 | 二叉树 | 找树左下角的值为了前进而后退，为了走直路而走弯路刷题记录 c++算法深度优先数据结构二叉树
Day123|灵神|二叉树|找树左下角的值513.找树左下角的值513.找树左下角的值-力扣（LeetCode）思路：初学者可以看灵神视频二叉树的层序遍历【基础算法精讲13】_哔哩哔哩_bilibili我的思路就是在每层的循环前加个判断，把res更新队头元素，队头肯定是最左边的灵神思路是先入队右孩子再入队左孩子，这样最后一个出队的肯定是最左边的完整代码：笔者思路：classSolution{pub
实习校招面试手撕代码真题题型7——滑动窗口学会歌唱的老周 #面试 java 数据结构 leetcode 算法题手撕代码面试手撕
滑动窗口思路:连续最大长度要想起滑动窗口可以去看下这个up讲滑动窗口的视频，我就是看了他讲的，讲的很不错：滑动窗口【基础算法精讲03】_哔哩哔哩_bilibili1最长不重复子串3.无重复字符的最长子串-力扣（LeetCode）publicintlengthOfLongestSubstring(Strings){intn=s.length();//左指针intleft=0;//最长子串的长度int
编程日志5.15 牛牛程序员成长日记哈希算法算法 c++
哈希表的基础算法#includeusingnamespacestd;//哈希表结点类定义//这段代码定义了一个名为HashNode的模板类，用于哈希表中的结点，其中每个结点存储一个键值对。//哈希表结点类template//模板声明，用于定义一个通用的类模板，可以用于处理不同类型的键KeyType和值ValueTypeclassHashNode{public:KeyTypekey;//存储结点的键
梦熊解析：202505基础算法 C-DHEnry 算法图论
T1-最小数码解法：第一问答案为2n，因为从n变成2n的过程中，若进位会使数码和减少（逢十进一），因此不进位时数码和最大。不进位的充要条件是每一位权值在4以内。第二问需找到每一位均为4或更小，且数码和为n的最小值。为使位数最少，贪心策略是尽可能多填4，小数放前。示例：若n=5，答案为14若n=8，答案为44Code:#includeusingnamespacestd;#definesc(x)sca
算法 - 常用模板（一）（Java） zhaozll 算法专栏算法 java leetcode
算法-常用模板（一）（Java）很多情况下，一些基础的代码在求解复杂问题时可以进行复用，而无需重复造轮子。因此，本篇对一些常用的基础算法进行了总结。由于笔者目前仍在学习阶段，因此本篇将保持长期更新状态，目前并不代表最终的完全版本。一、链表相关1.1链表数据结构来自lc。/***Definitionforsingly-linkedlist.*publicclassListNode{*intval;*
如何优化搜索系统的分词效果？7个实用技巧搜索引擎技术 ai
如何优化搜索系统的分词效果？7个实用技巧关键词：搜索系统、分词优化、中文分词、NLP、搜索引擎、文本处理、算法优化摘要：本文深入探讨了搜索系统中分词效果的优化方法。我们将从分词的基本原理出发，分析影响分词效果的关键因素，并提出7个实用技巧来提升分词准确性。文章涵盖了从基础算法选择到高级优化策略的全方位内容，包括词典构建、算法调优、上下文理解等多个维度，并通过实际代码示例和案例分析展示每种技巧的具体
mysql关于join查询优化的方法 W-vergil 微服务 mysql
一、JOIN底层原理MySQL的JOIN操作核心基于嵌套循环算法（Nested-LoopJoin），结合索引优化和缓存机制提升性能。以下是其核心实现机制：1.Nested-LoopJoin（NLJ）基础算法驱动表选择优化器优先选择数据量较小的表作为驱动表（外层循环表），以减少循环次数。执行流程foreachrowin驱动表:foreachrowin被驱动表:if匹配JOIN条件:输出结果集时间复杂
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他