码农界的菜鸟

算法与数据结构-字符串匹配算法

文章目录

主串和模式串
BF 算法
RK 算法
BM算法
- 1. 坏字符规则
- 2. 好后缀规则

主串和模式串

在开始讲解这个算法之前，我先定义两个概念，方便我后面讲解。它们分别是主串和模式串。这俩概念很好理解，我举个例子你就懂了。

比方说，我们在字符串 A 中查找字符串 B，那字符串 A 就是主串，字符串 B 就是模式串。我们把主串的长度记作 n，模式串的长度记作 m。因为我们是在主串中查找模式串，所以 n>m。

BF 算法

BF 算法中的 BF 是 Brute Force 的缩写，中文叫作暴力匹配算法，也叫朴素匹配算法。从名字可以看出，这种算法的字符串匹配方式很“暴力”，当然也就会比较简单、好懂，但相应的性能也不高。

作为最简单、最暴力的字符串匹配算法，BF 算法的思想可以用一句话来概括，那就是，我们在主串中，检查起始位置分别是 0、1、2…n-m 且长度为 m 的 n-m+1 个子串，看有没有跟模式串匹配的。我举一个例子给你看看，你应该可以理解得更清楚。

从上面的算法思想和例子，我们可以看出，在极端情况下，比如主串是“aaaaa…aaaaaa”（省略号表示有很多重复的字符 a），模式串是“aaaaab”。我们每次都比对 m 个字符，要比对 n-m+1 次，所以，这种算法的最坏情况时间复杂度是 O(n*m)。

尽管理论上，BF 算法的时间复杂度很高，是 O(n*m)，但在实际的开发中，它却是一个比较常用的字符串匹配算法。为什么这么说呢？原因有两点。

第一，实际的软件开发中，大部分情况下，模式串和主串的长度都不会太长。而且每次模式串与主串中的子串匹配的时候，当中途遇到不能匹配的字符的时候，就可以就停止了，不需要把 m 个字符都比对一下。所以，尽管理论上的最坏情况时间复杂度是 O(n*m)，但是，统计意义上，大部分情况下，算法执行效率要比这个高很多。

第二，朴素字符串匹配算法思想简单，代码实现也非常简单。简单意味着不容易出错，如果有 bug 也容易暴露和修复。在工程中，在满足性能要求的前提下，简单是首选。这也是我们常说的KISS（Keep it Simple and Stupid）设计原则。

所以，在实际的软件开发中，绝大部分情况下，朴素的字符串匹配算法就够用了。

RK 算法

RK 算法的全称叫 Rabin-Karp 算法，是由它的两位发明者 Rabin 和 Karp 的名字来命名的。这个算法理解起来也不是很难。我个人觉得，它其实就是刚刚讲的 BF 算法的升级版。

我在讲 BF 算法的时候讲过，如果模式串长度为 m，主串长度为 n，那在主串中，就会有 n-m+1 个长度为 m 的子串，我们只需要暴力地对比这 n-m+1 个子串与模式串，就可以找出主串与模式串匹配的子串。

但是，每次检查主串与子串是否匹配，需要依次比对每个字符，所以 BF 算法的时间复杂度就比较高，是 O(n*m)。我们对朴素的字符串匹配算法稍加改造，引入哈希算法，时间复杂度立刻就会降低。

RK 算法的思路是这样的：我们通过哈希算法对主串中的 n-m+1 个子串分别求哈希值，然后逐个与模式串的哈希值比较大小。如果某个子串的哈希值与模式串相等，那就说明对应的子串和模式串匹配了（这里先不考虑哈希冲突的问题，后面我们会讲到）。因为哈希值是一个数字，数字之间比较是否相等是非常快速的，所以模式串和子串比较的效率就提高了。

不过，通过哈希算法计算子串的哈希值的时候，我们需要遍历子串中的每个字符。尽管模式串与子串比较的效率提高了，但是，算法整体的效率并没有提高。有没有方法可以提高哈希算法计算子串哈希值的效率呢？

这就需要哈希算法设计的非常有技巧了。我们假设要匹配的字符串的字符集中只包含 K 个字符，我们可以用一个 K 进制数来表示一个子串，这个 K 进制数转化成十进制数，作为子串的哈希值。表述起来有点抽象，我举了一个例子，看完你应该就能懂了。

比如要处理的字符串只包含 a～z 这 26 个小写字母，那我们就用二十六进制来表示一个字符串。我们把 a～z 这 26 个字符映射到 0～25 这 26 个数字，a 就表示 0，b 就表示 1，以此类推，z 表示 25。

在十进制的表示法中，一个数字的值是通过下面的方式计算出来的。对应到二十六进制，一个包含 a 到 z 这 26 个字符的字符串，计算哈希的时候，我们只需要把进位从 10 改成 26 就可以。

这个哈希算法你应该看懂了吧？现在，为了方便解释，在下面的讲解中，我假设字符串中只包含 a～z 这 26 个小写字符，我们用二十六进制来表示一个字符串，对应的哈希值就是二十六进制数转化成十进制的结果。

这种哈希算法有一个特点，在主串中，相邻两个子串的哈希值的计算公式有一定关系。我这有个例子，你先找一下规律，再来看我后面的讲解。

从这里例子中，我们很容易就能得出这样的规律：相邻两个子串 s[i-1]和 s[i]（i 表示子串在主串中的起始位置，子串的长度都为 m），对应的哈希值计算公式有交集，也就是说，我们可以使用 s[i-1]的哈希值很快的计算出 s[i]的哈希值。如果用公式表示的话，就是下面这个样子：

不过，这里有一个小细节需要注意，那就是 26^(m-1) 这部分的计算，我们可以通过查表的方法来提高效率。我们事先计算好 26⁰、26¹、26²……26^(m-1)，并且存储在一个长度为 m 的数组中，公式中的“次方”就对应数组的下标。当我们需要计算 26 的 x 次方的时候，就可以从数组的下标为 x 的位置取值，直接使用，省去了计算的时间。

我们开头的时候提过，RK 算法的效率要比 BF 算法高，现在，我们就来分析一下，RK 算法的时间复杂度到底是多少呢？

整个 RK 算法包含两部分，计算子串哈希值和模式串哈希值与子串哈希值之间的比较。第一部分，我们前面也分析了，可以通过设计特殊的哈希算法，只需要扫描一遍主串就能计算出所有子串的哈希值了，所以这部分的时间复杂度是 O(n)。

模式串哈希值与每个子串哈希值之间的比较的时间复杂度是 O(1)，总共需要比较 n-m+1 个子串的哈希值，所以，这部分的时间复杂度也是 O(n)。所以，RK 算法整体的时间复杂度就是 O(n)。

这里还有一个问题就是，模式串很长，相应的主串中的子串也会很长，通过上面的哈希算法计算得到的哈希值就可能很大，如果超过了计算机中整型数据可以表示的范围，那该如何解决呢？

刚刚我们设计的哈希算法是没有散列冲突的，也就是说，一个字符串与一个二十六进制数一一对应，不同的字符串的哈希值肯定不一样。因为我们是基于进制来表示一个字符串的，你可以类比成十进制、十六进制来思考一下。实际上，我们为了能将哈希值落在整型数据范围内，可以牺牲一下，允许哈希冲突。这个时候哈希算法该如何设计呢？

哈希算法的设计方法有很多，我举一个例子说明一下。假设字符串中只包含 a～z 这 26 个英文字母，那我们每个字母对应一个数字，比如 a 对应 1，b 对应 2，以此类推，z 对应 26。我们可以把字符串中每个字母对应的数字相加，最后得到的和作为哈希值。这种哈希算法产生的哈希值的数据范围就相对要小很多了。

不过，你也应该发现，这种哈希算法的哈希冲突概率也是挺高的。当然，我只是举了一个最简单的设计方法，还有很多更加优化的方法，比如将每一个字母从小到大对应一个素数，而不是 1，2，3……这样的自然数，这样冲突的概率就会降低一些。

那现在新的问题来了。之前我们只需要比较一下模式串和子串的哈希值，如果两个值相等，那这个子串就一定可以匹配模式串。但是，当存在哈希冲突的时候，有可能存在这样的情况，子串和模式串的哈希值虽然是相同的，但是两者本身并不匹配。

实际上，解决方法很简单。当我们发现一个子串的哈希值跟模式串的哈希值相等的时候，我们只需要再对比一下子串和模式串本身就好了。当然，如果子串的哈希值与模式串的哈希值不相等，那对应的子串和模式串肯定也是不匹配的，就不需要比对子串和模式串本身了

所以，哈希算法的冲突概率要相对控制得低一些，如果存在大量冲突，就会导致 RK 算法的时间复杂度退化，效率下降。极端情况下，如果存在大量的冲突，每次都要再对比子串和模式串本身，那时间复杂度就会退化成 O(n*m)。但也不要太悲观，一般情况下，冲突不会很多，RK 算法的效率还是比 BF 算法高的。

BM算法

我们把模式串和主串的匹配过程，看作模式串在主串中不停地往后滑动。当遇到不匹配的字符时，BF 算法和 RK 算法的做法是，模式串往后滑动一位，然后从模式串的第一个字符开始重新匹配。我举个例子解释一下，你可以看我画的这幅图。

在这个例子里，主串中的 c，在模式串中是不存在的，所以，模式串向后滑动的时候，只要 c 与模式串没有重合，肯定无法匹配。所以，我们可以一次性把模式串往后多滑动几位，把模式串移动到 c 的后面。

BM 算法包含两部分，分别是坏字符规则（bad character rule）和好后缀规则（good suffix shift）。我们下面依次来看，这两个规则分别都是怎么工作的。

1. 坏字符规则

前面两节讲的算法，在匹配的过程中，我们都是按模式串的下标从小到大的顺序，依次与主串中的字符进行匹配的。这种匹配顺序比较符合我们的思维习惯，而 BM 算法的匹配顺序比较特别，它是按照模式串下标从大到小的顺序，倒着匹配的。我画了一张图，你可以看下。

从模式串的末尾往前倒着匹配，当发现某个字符没法匹配的时候，我们把这个没有匹配的字符叫作坏字符（主串中的字符）。

我们拿坏字符 c 在模式串中查找，发现模式串中并不存在这个字符，也就是说，字符 c 与模式串中的任何字符都不可能匹配。这个时候，我们可以将模式串直接往后滑动三位，将模式串滑动到 c 后面的位置，再从模式串的末尾字符开始比较。

这个时候，我们发现，模式串中最后一个字符 d，还是无法跟主串中的 a 匹配，这个时候，还能将模式串往后滑动三位吗？答案是不行的。因为这个时候，坏字符 a 在模式串中是存在的，模式串中下标是 0 的位置也是字符 a。这种情况下，我们可以将模式串往后滑动两位，让两个 a 上下对齐，然后再从模式串的末尾字符开始，重新匹配。

第一次不匹配的时候，我们滑动了三位，第二次不匹配的时候，我们将模式串后移两位，那具体滑动多少位，到底有没有规律呢？

当发生不匹配的时候，我们把坏字符对应的模式串中的字符下标记作 si。如果坏字符在模式串中存在，我们把这个坏字符在模式串中的下标记作 xi。如果不存在，我们把 xi 记作 -1。那模式串往后移动的位数就等于 si-xi。（注意，我这里说的下标，都是字符在模式串的下标）

这里我要特别说明一点，如果坏字符在模式串里多处出现，那我们在计算 xi 的时候，选择最靠后的那个，因为这样不会让模式串滑动过多，导致本来可能匹配的情况被滑动略过。

利用坏字符规则，BM 算法在最好情况下的时间复杂度非常低，是 O(n/m)。比如，主串是 aaabaaabaaabaaab，模式串是 aaaa。每次比对，模式串都可以直接后移四位，所以，匹配具有类似特点的模式串和主串的时候，BM 算法非常高效。

不过，单纯使用坏字符规则还是不够的。因为根据 si-xi 计算出来的移动位数，有可能是负数，比如主串是 aaaaaaaaaaaaaaaa，模式串是 baaa。不但不会向后滑动模式串，还有可能倒退。所以，BM 算法还需要用到“好后缀规则”。

2. 好后缀规则

好后缀规则实际上跟坏字符规则的思路很类似。你看我下面这幅图。当模式串滑动到图中的位置的时候，模式串和主串有 2 个字符是匹配的，倒数第 3 个字符发生了不匹配的情况。

这个时候该如何滑动模式串呢？当然，我们还可以利用坏字符规则来计算模式串的滑动位数，不过，我们也可以使用好后缀处理规则。两种规则到底如何选择，我稍后会讲。抛开这个问题，现在我们来看，好后缀规则是怎么工作的？

我们把已经匹配的 bc 叫作好后缀，记作{u}。我们拿它在模式串中查找，如果找到了另一个跟{u}相匹配的子串{u*}，那我们就将模式串滑动到子串{u*}与主串中{u}对齐的位置。

如果在模式串中找不到另一个等于{u}的子串，我们就直接将模式串，滑动到主串中{u}的后面，因为之前的任何一次往后滑动，都没有匹配主串中{u}的情况。

不过，当模式串中不存在等于{u}的子串时，我们直接将模式串滑动到主串{u}的后面。这样做是否有点太过头呢？我们来看下面这个例子。这里面 bc 是好后缀，尽管在模式串中没有另外一个相匹配的子串{u*}，但是如果我们将模式串移动到好后缀的后面，如图所示，那就会错过模式串和主串可以匹配的情况。

如果好后缀在模式串中不存在可匹配的子串，那在我们一步一步往后滑动模式串的过程中，只要主串中的{u}与模式串有重合，那肯定就无法完全匹配。但是当模式串滑动到前缀与主串中{u}的后缀有部分重合的时候，并且重合的部分相等的时候，就有可能会存在完全匹配的情况。

所以，针对这种情况，我们不仅要看好后缀在模式串中，是否有另一个匹配的子串，我们还要考察好后缀的后缀子串，是否存在跟模式串的前缀子串匹配的。

所谓某个字符串 s 的后缀子串，就是最后一个字符跟 s 对齐的子串，比如 abc 的后缀子串就包括 c, bc。所谓前缀子串，就是起始字符跟 s 对齐的子串，比如 abc 的前缀子串有 a，ab。我们从好后缀的后缀子串中，找一个最长的并且能跟模式串的前缀子串匹配的，假设是{v}，然后将模式串滑动到如图所示的位置。

坏字符和好后缀的基本原理都讲完了，我现在回答一下前面那个问题。当模式串和主串中的某个字符不匹配的时候，如何选择用好后缀规则还是坏字符规则，来计算模式串往后滑动的位数？

我们可以分别计算好后缀和坏字符往后滑动的位数，然后取两个数中最大的，作为模式串往后滑动的位数。这种处理方法还可以避免我们前面提到的，根据坏字符规则，计算得到的往后滑动的位数，有可能是负数的情况。

毕设基于python的搜索引擎设计与实现 A毕设分享家 python 毕业设计
文章目录0简介1课题简介2系统设计实现2.1总体设计2.2搜索关键流程2.3推荐算法2.4数据流的实现3实现细节3.1系统架构3.2爬取大量网页数据3.3中文分词3.4相关度排序第1个排名算法：根据单词位置进行评分的函数第2个排名算法：根据单词频度进行评价的函数第3个排名算法：根据单词距离进行评价的函数最后0简介今天学长向大家分享一个毕业设计项目毕业设计基于python的搜索引擎设计与实现项目运行
毕设开源深度学习图像搜索算法-图像搜索引擎(源码分享) knooor 毕业设计毕设大数据
文章目录0简介1前言2图像检索介绍(1)无监督图像检索(2)有监督图像检索3图像检索步骤4应用实例最后0简介今天学长向大家分享一个毕业设计项目毕业设计深度学习图像搜索算法-图像搜索引擎(源码分享)项目运行效果：毕业设计深度学习图像搜索算法-图像搜索引擎项目分享:见文末!1前言图像检索：是从一堆图片中找到与待匹配的图像相似的图片，就是以图找图。网络时代，随着各种社交网络的兴起，网络中图片，视频数据每
04树 + 堆 + 优先队列 + 图（D1_树（D10_决策树）） Java丨成神之路 06数据结构与算法数据结构算法
目录一、引言二、算法原理三、算法实现四、知识小结一、引言决策树算法是一种常用的机器学习算法，可用于分类和回归问题。它基于特征之间的条件判断来构建一棵树，树的每个节点代表一个特征，每个叶节点代表一个类别或回归值。决策树算法具有简单、易于理解和解释的特点，且在处理大规模数据时具有较高的效率。本文将介绍决策树算法的基本原理，并提供了Java代码示例来说明其实现过程。二、算法原理决策树算法基于“分而治之”
刷题汇总一览 JNU freshman 算法蓝桥杯算法蓝桥杯
文章目录贪心动态规划数据结构本题单设计力扣、牛客等多个刷题网站贪心贪心后悔徒步旅行中的补给问题LCP30.魔塔游戏题目使用到的思想解题分析徒步旅行中的补给问题每次我们都加入当前补给点的k个选择，同时进行升序排序，只保留前k个元素，然后取出第一个(也就是最小的那个)，一直重复操作题解LCP30.魔塔游戏首先判断是否或者到达，如果可以，使用最小堆维护最小的负数，血量<=0的时候就弹出最小的，一直到血量
前缀和算法+实现力扣刷穿算法 leetcode c++
目录1.前缀和算法2.前缀和实现Leetcode303：区域和检索-数组不可变Leetcode304：二维区间和检索-数组不可变Leetcode560：和为K的子数组3.总结1.前缀和算法前缀和的定义：数组从开始至某特定位置处的总和。通过前缀和问题，我们可以计算数组的在某个区间的数值总和。其步骤如下：（1）建立vector，用于存储前缀，并通过一定计算方式（如何计算见后续例题）计算每个位置处的前缀
二维差分与二维前缀和筱姌算法
二维差分二维差分是一种数据处理技术，应用于二维数组或矩阵中，用来快速计算和更新子矩阵元素的和。它是对一维差分概念的自然扩展，旨在简化对二维数据结构中特定区域元素进行加减操作的过程，同时保持较高的计算效率。通过计算原数组中相邻元素的差异，形成差分数组，从而支持对原数组中任意子矩阵元素进行快速的加法或减法操作，特别适用于需要频繁修改子区域元素值且需要频繁查询子区域和的应用场景，如动态规划问题、图像处理
《算法零基础100讲》(第61讲) 前缀和(五) 二维前缀和英雄哪里出来《算法零基础100讲》算法线性代数矩阵前缀和二维前缀和
文章目录一、概念定义1、预处理2、预处理代码实现3、查询4、查询代码实现二、题目描述三、算法详解四、源码剖析五、推荐专栏六、习题练习一、概念定义有关一维前缀和的概念，在《算法零基础100讲》(第57讲)前缀和(一)线性前缀和入门中已经较为清晰的阐述，今天我们来学习二维的情况。1、预处理问题的起源就是对一个矩阵，如何在最快的时间内，求出它的某个子矩阵的和。我们首先把问题简化，对于一个n×mn
双指针算法深度解析某个默默无闻奋斗的人双指针算法 java leetcode
双指针算法简介双指针是一种常用的算法技巧，它通过使用两个指针在数据结构上进行操作，通常用来优化时间复杂度，解决数组或链表中的一些特定问题。双指针技巧一般用于“有序”数据结构（如排序后的数组或链表），但也可以扩展到一些特殊的无序问题。双指针的基本思想双指针算法通过两个指针同时遍历数组或链表，指针之间根据特定规则相互移动，从而达到解决问题的目的。双指针的经典应用场景包括：寻找两数之和（例如给定一个有序
深度优先搜索（DFS) 某个默默无闻奋斗的人深度优先算法
深度优先搜索（DFS）：Java实现与原理解析深度优先搜索（Depth-FirstSearch，简称DFS）是一种用于遍历或搜索树或图的算法。它从起始节点出发，沿着图的一个分支一路向下探索，直到到达最深的节点（即没有未访问的邻居节点为止），然后回溯到上一个节点，继续探索其他未被访问的分支，直到所有节点都被访问过为止。在本文中，我们将详细解析如何在Java中实现DFS，并讨论相关的原理。1.深度优先
有效的括号（栈）某个默默无闻奋斗的人 c++数据结构
链接力扣题目20.使用数据结构----栈首先分析错位情况：第一种：左括号多余第二种：有括号多余第三种：括号不匹配以下为具体代码实现：首先判断字符串的长度是否为偶数，不为偶数则返回false遍历整个字符串，遇到'('则将')'入栈，[，{同理。完成操作后，若栈中无元素，则说明字符串s中没有左括号，返回false。若栈不为空，则判断栈顶元素是否等于s[i]，（i此时遍历到第一个右括号)，若不等则返回f
redis 过期策略都有哪些？LRU 算法知道吗？写一下 java 代码实现？晚夜微雨问海棠呀 redis java 数据库
Redis的过期策略Redis提供了多种数据过期策略，以确保内存的有效利用和数据的及时清理。以下是主要的过期策略：定时删除：在设置键的过期时间时，创建一个定时器（timer），在键过期时立即删除。优点：键过期后立即释放内存。缺点：每个键都需要一个定时器，会消耗大量的系统资源。惰性删除：只有在访问一个键时，才会检查该键是否已过期，如果已过期则删除。优点：不会浪费系统资源，只有在需要时才进行检查。缺点
使用numpy自定义数据集，使用scikit-learn中SVM的包实现SVM分类辞落山 numpy scikit-learn 支持向量机
概述：支持向量机（SVM）是一种强大的分类算法，适用于线性和非线性分类问题。本博客将展示如何使用numpy自定义一个数据集，并利用scikit-learn中的SVM实现分类。1.导入必要的库importnumpyasnpfromsklearn.svmimportSVCfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metri
【机器学习】自定义数据集，使用scikit-learn 中K均值包进行聚类加德霍克机器学习 scikit-learn 均值算法 python 作业
一、K均值算法简介K均值算法的目标是将数据集划分为K个簇，使得每个数据点属于离它最近的簇中心（centroid）所代表的簇。K均值聚类算法步骤①初始化：随机选择原始数据的K个数据点作为初始质心（聚类中心）。②分配：将每个数据点划分到距离最近的质心所对应的簇中，即计算每个数据点到每个质心的距离，选择距离最近的质心作为该数据点所属的簇。③更新：重新计算每个簇的质心，即将该簇中所有数据点的坐标取平均值，
《扫雷》游戏获胜算法分析三雷科技 QT小王子扫雷 qt c++算法游戏程序
目录错误算法正确算法扫雷游戏中是否能够获胜，其实获胜的算法很容易计算。计算思路如下。获胜的条件其实就是将所有的雷排除干净，并且将非雷的区域全部点击完毕。判断方格属性，如果方格的属性全部是雷，那么就可以认为获胜的话，这样会有漏洞，用户可以通过尝试的方法，在雷区不断的标注小旗，这样就可以获胜了。错误算法如下，统计用户确定（isOk）的方格为雷的数量。这样判断会有一个问题那就是用户盲标记，其实并没有进行
集合通讯概览 LIZHUOLONG1 集合通讯
（1）通信的算法是根据通讯的链路组成的（2）因为通信链路跟硬件强相关，所以每个CCL的库都不一样芯片与芯片、不同U之间是怎么通信的！！！！！！很重要，明天要把这个看完
go语言中slice原理和坑。 Carpe-Wang go slice golang 开发语言后端
slice原理Slice数据结构和原理1：相对于数组，Slice的长度是动态可变的。如下：funcCreatSlice(){s:=make([]int,len(),cap())vars1[]int}funcCreatArr(){vara[length]int}可以很清楚的看到，数组的长度是在编译时静态计算的，并且数组无法在运行时动态扩缩容量的。2:在go的/src/runtime/slice.go
Golang-切片与数组的关系及性能 Jeson-Sun golang 开发语言后端
1.切片的本质在go语言当中，切片（slice）是使用最为频繁的数据结构之一，其原因在于它在处理同类型数据序列有着方便且高效的特点，所以今天我就来和大家聊聊我对切片的理解！1.1数组首先，谈到切片，肯定是不能避开数组的，因为切片是在数组之上的抽象数据类型。数组由长度和类型两部分组成，如[3]int类型表示由3个int整型组成的数组。数组以索引方式进行访问，例如表达式s[n]访问数组的第n个元素。数
Liquibase和Flyway hhejunn java 数据库
Liquibase和Flyway-数据库迁移工具介绍和比较一、为什么需要数据库迁移管理比如第一个版本的产品只包含了最基本的功能，而第二版本就需要增加评论功能，这就涉及到数据结构的修改（包括创建新表，修改旧表的列，增加已有表的列等等）。直接进入产品数据库修改数据库并不适合快速的开发节奏，不仅仅不安全，更多的情况下数据库可能并不对外或者并不适合对外直接暴露连接，比如PAAS平台的数据库以服务的形式直接
数据字典是什么 Code.exe 数据库
理论阐述数据字典是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述，其目的是对数据流图中的各个元素作出详细的说明。数据字典是描述数据的信息集合，是对系统中使用的所有数据元素的定义的集合。数据字典（Datadictionary）是一种用户可以访问的记录数据库和应用程序元数据的目录。数据字典的内容非常丰富，包括数据库中所有模式对象的信息，如视图、簇、及索引等；还涉及空间分配和当前
DeepSeek- R1 原理介绍 kcarly 大模型知识乱炖杂谈 DeepSeek R1 原理介绍
DeepSeek-R1是由DeepSeek公司推出的一款基于强化学习（RL）的开源推理模型，其核心原理和特点如下：1.核心技术与架构强化学习驱动：DeepSeek-R1是首个完全通过强化学习训练的大型语言模型，无需依赖监督微调（SFT）或人工标注数据。它采用组相对策略优化（GRPO）算法，通过奖励机制和规则引导模型生成结构化思维链（CoT），从而提升推理能力。多阶段训练流程：模型采用冷启动阶段、强
leetcode字节面试高频题思路总结（二叉树专栏） hust_yrh leetcode 算法面试二叉树
leetcode刷题，一个好的思路很重要，刷leetcode不如就只看好的解题思路，记下来关键思路然后面试的时候就会容易很多。自己的算法思路可能就会有很多冗余代码，跟好的算法思路比起来差距很大，并且看了很多题解就不会出现有没有一点思路的情况。举例：顺时针打印数组，寻找重复数lc287，k个一组翻转链表。(乱序)顺时针打印：先第一行，然后消去，再最后一列，然后消去，最下一行，然后消去…287：给定一
深度学习框架PyTorch原理与实践 AI天才研究院 AI实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.简介2.背景介绍3.基本概念和术语3.1PyTorch简介3.2PyTorch的特点1）自动求导机制2）GPU加速3）模型部署4）数据管道5）代码阅读友好4.核心算法原理4.1神经网络结构4.2神经网络层4.3激活函数5.实际案例——MNIST手写数字识别数据准备模型定义训练测试整体代码1.简介Deeplearning(DL)hasbeenanincreas
LeetCode--347. 前 K 个高频元素/Golang中的堆(container/heap) Rinai_R LeetCode leetcode golang 算法数据结构
例题链接-前k个高频元素前言以前都是用的C++写算法题，最近也想熟悉一下golang的数据结构，故来一篇题解+堆分析。正文这里重点不在分析题目，在于golang中的container/heap对于内部实现逻辑有兴趣的可以去看看源码。这里先给出题解的代码packagemainimport("container/heap""fmt")//IHeap是一个最小堆的实现typeIHeap[][2]intf
自动生成关于软件程序开发的100个文件并可提供下载入口唐城 postgresql 数据库人工智能电脑机器人
创建一个包含100个关于软件程序开发的文件并提供下载入口是一个庞大的任务，因为这需要编写大量的代码、文档和示例。不过，我可以提供一个大致的框架和指导，帮助你生成这些文件，并说明如何设置下载入口。文件生成思路编程语言文件：每种主流编程语言（如Python、Java、C++、JavaScript等）的HelloWorld程序。数据结构示例（链表、树、图等）。算法实现（排序、搜索等）。项目模板：Web项
Paddle进阶实战系列（三）：基于SVTR算法的手写英文单词识别 GoAI 深入浅出OCR 深入浅出AI 计算机视觉 OCR paddle 深度学习人工智能
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️链接加群。专栏推荐：➡️
Spark3.1.2单机安装部署花菜回锅肉大数据 spark 大数据 hadoop
spark3.1.2单机安装部署概述Spark是一个性能优异的集群计算框架，广泛应用于大数据领域。类似Hadoop，但对Hadoop做了优化，计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析，而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。大数据问题场景包含以下三种：复杂的批量数据处理基于历史数据的交
说说 Java 中 HashMap 的原理？一只蜘猪【2025最新版】Java 集合面试题 java 哈希算法散列表面试 HashMap
回答重点HashMap是基于哈希表的数据结构，用于存储键值对（key-value）。其核心是将键的哈希值映射到数组索引位置，通过数组+链表（在Java8及之后是数组+链表+红黑树）来处理哈希冲突。HashMap使用键的hashCode()方法计算哈希值，并通过indexFor方法（JDK1.7及之后版本移除了这个方法，直接使用(n-1)&hash）确定元素在数组中的存储位置。哈希值是经过一定扰动处
分布式id-雪花算法精通HelloWorld! 分布式 java 算法
通常我们在生成用户id或者订单id时都需要一个全局唯一的id来唯一标识，在单体情况下我们可以使用UUID、时间戳、数据库自增id而在分布式情况下，需要考虑大量服务器之间生成的id全局唯一，所以就使用了今天要介绍的雪花算法来生成分布式下的全局id单体服务UUID、时间戳、数据库自增id存在以下问题：UUID是无序的且数据非常大（128bit），且一般会使用36位长度的字符串存储，这样会导致id存入数
Spring Boot 2 快速教程：WebFlux 集成 Mongodb（三）星如雨ｸﾞｯ!(๑•̀ㅂ•́)و✧ java spring boot mongodb 后端
一、前言上一讲用Map数据结构内存式存储了数据。这样数据就不会持久化，本文我们用MongoDB来实现WebFlux对数据源的操作。什么是MongoDB?官网：https://www.mongodb.com/MongoDB是一个基于分布式文件存储的数据库，由C++语言编写，旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当
排序算法--基数排序和风化雨代码库排序算法算法数据结构 c语言 c++
核心思想是按位排序（低位到高位）。适用于定长的整数或字符串，如例如：手机号、身份证号排序。按数据的每一位从低位到高位（或相反）依次排序，每次排序使用稳定的算法（如计数排序）。#include//获取数组中最大值（用于确定位数）intgetMax(intarr[],intn){intmax=arr[0];for(inti=1;imax){max=arr[i];}}returnmax;}//使用计数排
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本