Dashesand

图解机器学习 | 朴素贝叶斯算法详解

引言

在众多机器学习分类算法中，本篇我们提到的朴素贝叶斯模型，和其他绝大多数分类算法都不同，也是很重要的模型之一。

在机器学习中如KNN、逻辑回归、决策树等模型都是判别方法，也就是直接学习出特征输出YYY和特征XXX之间的关系（决策函数Y=f(X)Y= f(X)Y=f(X)或者条件分布P(Y∣X)P(Y|X)P(Y∣X)）。但朴素贝叶斯是生成方法，它直接找出特征输出YYY和特征XXX的联合分布P(X,Y)P(X,Y)P(X,Y)，进而通过P(Y∣X)=P(X,Y)P(X)P(Y \mid X)= \frac{P(X,Y)}{P(X)}P(Y∣X)=P(X)P(X,Y)计算得出结果判定。

朴素贝叶斯是一个非常直观的模型，在很多领域有广泛的应用，比如早期的文本分类，很多时候会用它作为baseline模型，本篇内容我们对朴素贝叶斯算法原理做展开介绍。

1.朴素贝叶斯算法核心思想

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯（Naive Bayes）分类是贝叶斯分类中最简单，也是常见的一种分类方法。

朴素贝叶斯算法的核心思想是通过考虑特征概率来预测分类，即对于给出的待分类样本，求解在此样本出现的条件下各个类别出现的概率，哪个最大，就认为此待分类样本属于哪个类别。

举个例子：眼前有100个西瓜，好瓜和坏瓜个数差不多，现在要用这些西瓜来训练一个「坏瓜识别器」，我们要怎么办呢？

一般挑西瓜时通常要「敲一敲」，听听声音，是清脆声、浊响声、还是沉闷声。所以，我们先简单点考虑这个问题，只用敲击的声音来辨别西瓜的好坏。根据经验，敲击声「清脆」说明西瓜还不够熟，敲击声「沉闷」说明西瓜成熟度好，更甜更好吃。

所以，坏西瓜的敲击声是「清脆」的概率更大，好西瓜的敲击声是「沉闷」的概率更大。当然这并不绝对——我们千挑万选地「沉闷」瓜也可能并没熟，这就是噪声了。当然，在实际生活中，除了敲击声，我们还有其他可能特征来帮助判断，例如色泽、跟蒂、品类等。

朴素贝叶斯把类似「敲击声」这样的特征概率化，构成一个「西瓜的品质向量」以及对应的「好瓜/坏瓜标签」，训练出一个标准的「基于统计概率的好坏瓜模型」，这些模型都是各个特征概率构成的。

这样，在面对未知品质的西瓜时，我们迅速获取了特征，分别输入「好瓜模型」和「坏瓜模型」，得到两个概率值。如果「坏瓜模型」输出的概率值大一些，那这个瓜很有可能就是个坏瓜。

2.贝叶斯公式与条件独立假设

贝叶斯定理中很重要的概念是先验概率、后验概率和条件概率。（关于这部分依赖的数学知识，大家可以查看ShowMeAI的文章图解AI数学基础 | 概率与统计，也可以下载我们的速查手册 AI知识技能速查 | 数学基础-概率统计知识）

1）先验概率与后验概率

先验概率：事件发生前的预判概率。可以是基于历史数据的统计，可以由背景常识得出，也可以是人的主观观点给出。一般都是单独事件概率。

举个例子：如果我们对西瓜的色泽、根蒂和纹理等特征一无所知，按照常理来说，西瓜是好瓜的概率是60%。那么这个概率P（好瓜）就被称为先验概率。

后验概率：事件发生后求的反向条件概率。或者说，基于先验概率求得的反向条件概率。概率形式与条件概率相同。

举个例子：假如我们了解到判断西瓜是否好瓜的一个指标是纹理。一般来说，纹理清晰的西瓜是好瓜的概率大一些，大概是75%。如果把纹理清晰当作一种结果，然后去推测好瓜的概率，那么这个概率P（好瓜|纹理清晰）就被称为后验概率。

条件概率：一个事件发生后另一个事件发生的概率。一般的形式为P(B∣A)P(B|A)P(B∣A)表示AAA发生的条件下BBB发生的概率。

2）贝叶斯公式

简单来说，贝叶斯定理（Bayes Theorem，也称贝叶斯公式）是基于假设的先验概率、给定假设下观察到不同数据的概率，提供了一种计算后验概率的方法。在人工智能领域，有一些概率型模型会依托于贝叶斯定理，比如我们今天的主角「朴素贝叶斯模型」。

P(A)P(A)P(A)是先验概率，一般都是人主观给出的。贝叶斯中的先验概率一般特指它。
P(B)P(B) P(B)是先验概率，在贝叶斯的很多应用中不重要（因为只要最大后验不求绝对值），需要时往往用全概率公式计算得到。
P(B∣A)P(B \mid A)P(B∣A)是条件概率，又叫似然概率，一般是通过历史数据统计得到。
P(A∣B)P(A \mid B) P(A∣B)是后验概率，一般是我们求解的目标。

3）条件独立假设与朴素贝叶斯

基于贝叶斯定理的贝叶斯模型是一类简单常用的分类算法。在「假设待分类项的各个属性相互独立」的情况下，构造出来的分类算法就称为朴素的，即朴素贝叶斯算法。

所谓「朴素」，是假定所有输入事件之间是相互独立。进行这个假设是因为独立事件间的概率计算更简单。

朴素贝叶斯模型的基本思想是：对于给定的待分类项X{a1,a2,a3,⋯,an}X \left { a_1,a_2,a_3,⋯,a_n \right } X{a1,a2,a3,⋯,an}，求解在此项出现的条件下各个类别yiy_iyi出现的概率，哪个P(yi∣X)P(y_i |X)P(yi∣X)最大，就把此待分类项归属于哪个类别。

朴素贝叶斯算法的定义为：设X{a1,a2,a3,⋯,an}X \left { a_{1},a_{2},a_{3},⋯,a_{n} \right } X{a1,a2,a3,⋯,an}为一个待分类项，每个aia_{i} ai为x的一个特征属性，且特征属性之间相互独立。设C{y1,y2,y3,⋯,yn}C \left {y_1,y_2,y_3,⋯,y_n\right }C{y1,y2,y3,⋯,yn}为一个类别集合，计算P(y1∣X),P(y2∣X),P(y3∣X),…,P(yn∣X)P\left(y_{1} \mid X\right), P\left(y_{2} \mid X\right), P\left(y_{3} \mid X\right), \ldots, P\left(y_{n} \mid X\right)P(y1∣X),P(y2∣X),P(y3∣X),…,P(yn∣X)。

P(yk∣X)=max⁡{P(y1∣X),P(y2∣X),P(y3∣X),…,P(yn∣X)}P\left(y_{k} \mid X\right)=\max \left{P\left(y_{1} \mid X\right), P\left(y_{2} \mid X\right), P\left(y_{3} \mid X\right), \ldots, P\left(y_{n} \mid X\right)\right}P(yk∣X)=max{P(y1∣X),P(y2∣X),P(y3∣X),…,P(yn∣X)}

则X∈yk X \in y_{k}X∈yk

要求出第四项中的后验概率P(yk∣X)P\left(y_{k} \mid X\right)P(yk∣X)，就需要分别求出在第三项中的各个条件概率，其步骤是：

找到一个已知分类的待分类项集合，这个集合叫做训练样本集
统计得到在各类别下各个特征属性的条件概率估计。即
- P(a1∣y1),P(a2∣y1),⋯ ,P(an∣y1)P\left(a_{1} \mid y_{1}\right), P\left(a_{2} \mid y_{1}\right), \cdots, P\left(a_{n} \mid y_{1}\right)P(a1∣y1),P(a2∣y1),⋯,P(an∣y1)
- P(a1∣y2),P(a2∣y2),⋯ ,P(an∣y2)P\left(a_{1} \mid y_{2}\right), P\left(a_{2} \mid y_{2}\right), \cdots, P\left(a_{n} \mid y_{2}\right)P(a1∣y2),P(a2∣y2),⋯,P(an∣y2)
- ···
- P(a1∣yn),P(a2∣yn),⋯ ,P(an∣yn)P\left(a_{1} \mid y_{n}\right), P\left(a_{2} \mid y_{n}\right), \cdots, P\left(a_{n} \mid y_{n}\right)P(a1∣yn),P(a2∣yn),⋯,P(an∣yn)

在朴素贝叶斯算法中，待分类项的每个特征属性都是条件独立的，由贝叶斯公式

P(yi∣X)=P(X∣yi)P(yi)P(X)P\left(y_{i} \mid X\right)=\frac{P\left(X \mid y_{i}\right) P\left(y_{i}\right)}{P(X)}P(yi∣X)=P(X)P(X∣yi)P(yi)

因为分母相当于在数据库中XXX存在的概率，所以对于任何一个待分类项来说P(X)P\left(X \right) P(X)都是常数固定的。再求后验概率P(yi∣X)P\left(y_{i} \mid X\right)P(yi∣X)的时候只用考虑分子即可。

因为各特征值是独立的所以有：

P(X∣yi)P(yi)=P(a1∣yi)P(a2∣yi)⋯P(an∣yi)P(yi)=P(yi)∏j=1nP(aj∣yi)\begin{aligned} P\left(X \mid y_{i}\right) P\left(y_{i}\right) &=P\left(a_{1} \mid y_{i}\right) P\left(a_{2} \mid y_{i}\right) \cdots P\left(a_{n} \mid y_{i}\right) P\left(y_{i}\right) \ &=P\left(y_{i}\right) \prod_{j=1}^{n} P\left(a_{j} \mid y_{i}\right) \end{aligned}P(X∣yi)P(yi)=P(a1∣yi)P(a2∣yi)⋯P(an∣yi)P(yi)=P(yi)j=1∏nP(aj∣yi)

可以推出：

P(X∣yi)=∏1k=1nP(ak∣yi)P\left(X \mid y_{i}\right)=\prod_{\frac{1}{k=1}}^{n} P\left(a_{k} \mid y_{i}\right)P(X∣yi)=k=11∏nP(ak∣yi)

对于P(yi)P\left(y_{i}\right) P(yi)是指在训练样本中yiy_{i}yi出现的概率，可以近似的求解为：

P(yi)=∣yi∣DP\left(y_{i}\right)=\frac{\left|y_{i}\right|}{D}P(yi)=D∣yi∣

对于先验概率P(aj∣yi)P\left ( a_{j} \mid y_{i} \right ) P(aj∣yi)，是指在类别yiy_{i}yi中，特征元素aja_{j}aj出现的概率，可以求解为：

P(aj∣yi)=∣在训练样本为yi时，aj出现的次数∣∣yi训练样本数∣P\left ( a_{j} \mid y_{i} \right ) = \frac{\left | 在训练样本为 y_{i} 时，a_{j} 出现的次数 \right | }{\left | y_{i} 训练样本数 \right | } P(aj∣yi)=∣yi训练样本数∣∣在训练样本为yi时，aj出现的次数∣

总结一下，朴素贝叶斯模型的分类过程如下流程图所示：

3.伯努利与多项式朴素贝叶斯

1）多项式vs伯努利朴素贝叶斯

大家在一些资料中，会看到「多项式朴素贝叶斯」和「伯努利朴素贝叶斯」这样的细分名称，我们在这里基于文本分类来给大家解释一下：

在文本分类的场景下使用朴素贝叶斯，那对应的特征aja_jaj就是单词，对应的类别标签就是yyy，这里有一个问题：每个单词会出现很多次，我们对于频次有哪些处理方法呢？

如果直接以单词的频次参与统计计算，那就是多项式朴素贝叶斯的形态。
如果以是否出现(0和1)**参与统计计算，就是**伯努利朴素贝叶斯的形态。

（1）多项式朴素贝叶斯

以文本分类为例，多项式模型如下。在多项式模型中，设某文档d=(t1,t2,…,tk)d=\left(t_{1}, t_{2}, \ldots, t_{k}\right)d=(t1,t2,…,tk)，tkt_{k}tk是该文档中出现过的单词，允许重复，则：

先验概率

P©=类c下单词总数整个训练样本的单词总数P\left ( c \right ) = \frac{类c下单词总数}{整个训练样本的单词总数} P©=整个训练样本的单词总数类c下单词总数

类条件概率

P(tk∣c)=类c下单词tk在各个文档中出现过的次数之和+1类c下单词总数+∣V∣P\left ( t_{k} \mid c \right ) = \frac{类c下单词t_{k}在各个文档中出现过的次数之和+1}{类c下单词总数+\left | V \right |} P(tk∣c)=类c下单词总数+∣V∣类c下单词tk在各个文档中出现过的次数之和+1

VVV是训练样本的单词表（即抽取单词，单词出现多次，只算一个），∣V∣\left | V \right |∣V∣则表示训练样本包含多少种单词。
P(tk∣c)P\left ( t_{k} \mid c \right )P(tk∣c)可以看作是单词tkt_{k} tk在证明ddd属于类ccc上提供了多大的证据，而P©P \left ( c \right )P©则可以认为是类别ccc在整体上占多大比例（有多大可能性）。

（2）伯努利朴素贝叶斯

对应的，在伯努利朴素贝叶斯里，我们假设各个特征在各个类别下是服从n重伯努利分布（二项分布）的，因为伯努利试验仅有两个结果，因此，算法会首先对特征值进行二值化处理（假设二值化的结果为1与0）。

对应的P©P \left ( c \right )P©和P(tk∣c)P\left ( t_{k} \mid c \right ) P(tk∣c)计算方式如下（注意到分子分母的变化）：

P©=类c下文件总数整个训练样本的文件总数P \left ( c \right )=\frac{类c下文件总数}{整个训练样本的文件总数} P©=整个训练样本的文件总数类c下文件总数

P(tk∣c)=类c下单词tk在各个文档中出现过的次数之和+1类c下单词总数+2P\left ( t_{k} \mid c \right ) = \frac{类c下单词t_{k}在各个文档中出现过的次数之和+1}{类c下单词总数+2} P(tk∣c)=类c下单词总数+2类c下单词tk在各个文档中出现过的次数之和+1

2）朴素贝叶斯与连续值特征

我们发现在之前的概率统计方式，都是基于离散值的。如果遇到连续型变量特征，怎么办呢？

以人的身高，物体的长度为例。一种处理方式是：把它转换成离散型的值。比如：

如果身高在160cm以下，特征值为1；
在160cm和170cm之间，特征值为2；
在170cm之上，特征值为3。

当然有不同的转换方法，比如还可以：

将身高转换为3个特征，分别是f1、f2、f3；
如果身高是160cm以下，这三个特征的值分别是1、0、0；
若身高在170cm之上，这三个特征的值分别是0、0、1。

但是，以上的划分方式，都比较粗糙，划分的规则也是人为拟定的，且在同一区间内的样本（比如第1套变换规则下，身高150和155）难以区分，我们有高斯朴素贝叶斯模型可以解决这个问题。

如果特征xix_{i}xi是连续变量，如何去估计似然度P(xi∣yk)P\left ( x_{i}\mid y_{k} \right ) P(xi∣yk)呢？高斯模型是这样做的：我们假设在yiy_{i}yi的条件下，xxx服从高斯分布（正态分布）。根据正态分布的概率密度函数即可计算出P(x∣yi)P\left ( x \mid y_{i} \right ) P(x∣yi)，公式如下：

P(xi∣yk)=12πσyk,i2e−(xi−μyk,i)22σyk,i2P\left(x_{i} \mid y_{k}\right)=\frac{1}{\sqrt{2 \pi \sigma_{y k, i}^{2}}} e^{-\frac{\left(x_{i}-\mu_{y k, i}\right)^{2}}{2 \sigma_{y k, i}^{2}}}P(xi∣yk)=2πσyk,i21e−2σyk,i2(xi−μyk,i)2

回到上述例子，如果身高是我们判定人性别（男/女）的特征之一，我们可以假设男性和女性的身高服从正态分布，通过样本计算出身高均值和方差，对应上图中公式就得到正态分布的密度函数。有了密度函数，遇到新的身高值就可以直接代入，算出密度函数的值。

4.平滑处理

1）为什么需要平滑处理

使用朴素贝叶斯，有时候会面临零概率问题。零概率问题，指的是在计算实例的概率时，如果某个量x，在观察样本库（训练集）中没有出现过，会导致整个实例的概率结果是0。

在文本分类的问题中，当「一个词语没有在训练样本中出现」时，这个词基于公式统计计算得到的条件概率为0，使用连乘计算文本出现概率时也为0。这是不合理的，不能因为一个事件没有观察到就武断的认为该事件的概率是0。

2）拉普拉斯平滑及依据

为了解决零概率的问题，法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率，所以加法平滑也叫做拉普拉斯平滑。

假定训练样本很大时，每个分量x的计数加1造成的估计概率变化可以忽略不计，但可以方便有效的避免零概率问题。

对应到文本分类的场景中，如果使用多项式朴素贝叶斯，假定特征xix_{i} xi表示某个词在样本中出现的次数（当然用TF-IDF表示也可以）。拉普拉斯平滑处理后的条件概率计算公式为：

P(xi∣y)=Nyi+αNy+nαP\left(x_{i} \mid y\right) =\frac{N_{y i}+\alpha}{N_{y}+n \alpha}P(xi∣y)=Ny+nαNyi+α

NyiN_{yi} Nyi表示类yyy的所有样本中特征xix_{i} xi的特征值之和。
NyN_{y}Ny表示类yyy的所有样本中全部特征的特征值之和。
α\alphaα表示平滑值（α∈[0,1]\alpha \in \left [ 0, 1 \right ] α∈[0,1]，主要为了防止训练样本中某个特征没出现而导致Nyi=0N_{yi} =0Nyi=0，从而导致条件概率P(xi∣y)=0P\left(x_{i} \mid y\right) = 0P(xi∣y)=0的情况，如果不加入平滑值，则计算联合概率时由于某一项为0导致后验概率为0的异常情况出现。
nnn表示特征总数。

更多监督学习的算法模型总结可以查看ShowMeAI的文章 AI知识技能速查 | 机器学习-监督学习。

ShowMeAI相关文章推荐

1.机器学习基础知识
2.模型评估方法与准则
3.KNN算法及其应用
4.逻辑回归算法详解
5.朴素贝叶斯算法详解
6.决策树模型详解
7.随机森林分类模型详解
8.回归树模型详解
9.GBDT模型详解
10.XGBoost模型最全解析
11.LightGBM模型详解
12.支持向量机模型详解
13.聚类算法详解
14.PCA降维算法详解

ShowMeAI系列教程推荐

图解Python编程：从入门到精通系列教程
图解数据分析：从入门到精通系列教程
图解AI数学基础：从入门到精通系列教程
图解大数据技术：从入门到精通系列教程
图解机器学习算法：从入门到精通系列教程

基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
代码随想录算法训练营第四十一天 | hot65/100| 33.搜索旋转排序数组、153.寻找旋转排序数组中的最小值、155.最小栈、394.字符串解码 boguboji 刷题算法 leetcode 数据结构
33.搜索旋转排序数组思路是：数组可能有两种情况2345671和6712345将数组一分为二，其中一定有一个是有序的，每次判断前半部分是有序的还是后半部分是有序的，每次只在有序的那部分里找。无序那部分不管（没找到会重新一分为二，继续在有序的一半里找，迟早会找到）注意点：这道题重点是记住边界条件（哪些是小于等于小于大于等于大于）有小于等于/大于等于的情况是因为，如果出现[2,1]中找1的情况，需要有
代码随想录算法训练营第三十八天 | hot57/100| 114.二叉树展开为链表、437.路径总和III、124.二叉树中的最大路径和、22.括号生成 boguboji 刷题算法链表数据结构
114.二叉树展开为链表思路是：（1）定义方法，先序遍历保证顺序，把节点按顺序保存（2）再for循环转成链表，一列都是往右排列完整代码：classSolution{ publicvoidflatten(TreeNoderoot){ Listlist=newArrayList(); preorderTraversal(root,list); intsize=list.size()
代码随想录算法训练营第十天 | 栈与队列part01| 232.用栈实现队列、225. 用队列实现栈、 20. 有效的括号、1047. 删除字符串中的所有相邻重复项 boguboji 刷题算法 java 开发语言
232.用栈实现队列栈与队列的基本知识：Stackstack=newStackq=newLinkedListstack=newStack显然是存储整数类型，如果要存储字符，应该用Dequedeque=newLinkedListstack=newStack<>();还有我写for(inti=0;i
代码随想录算法训练营第二十三天 | 回溯算法part02| 39. 组合总和、40.组合总和II、131.分割回文串 boguboji 刷题算法数据结构
39.组合总和这道题和前面组合问题的区别是，取的元素可以重复，也就是遍历的时候，同一个元素可以一直取。所以for循环里，逐个添加元素，判断和大于目标时break（否则会一直加）还是新建二维数组放结果，一维数组放path。输入参数为放结果数组、path、提供的数组、目标值、目前总和sum、startIndex提前把提供的数组排序，用Arrays.sort()这样sum超过target就break递归
AI 生成 PPT 网站介绍与优缺点分析 KL_lililli 人工智能 powerpoint
随着人工智能技术不断发展，利用AI自动生成PPT已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的AIPPT工具，重点列出免费使用机会较多的网站，并对各平台的优缺点进行详细分析，帮助用户根据自身需求选择合适的工具。1.免费及免费试用机会较多的网站1.1Tome网址：Tome–TheAIassistantforsales简介：Tome是一款专注于AI助力讲故事与演示制作的工具，用户只需输入简
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
双指针与二分算法打不了嗝蓝桥杯 c++算法
一.双指针1.基本介绍双指针算法是一种暴力枚举的优化算法，他也被叫做尺取法或者滑动窗口。当我们发现算法需要两次for循环时并且两个指针可以不回退，我们可以利用双指针来优化算法复杂度。2.例题详解题目描述企业家Emily有一个很酷的主意：把雪花包起来卖。她发明了一台机器，这台机器可以捕捉飘落的雪花，并把它们一片一片打包进一个包裹里。一旦这个包裹满了，它就会被封上送去发售。Emily的公司的口号是“把
算法刷题区域部分反转无敌的牛算法算法
不断创建数组，相加，利用cpp内字符串相加的性质即可。具体代码如下：classSolution{public:stringreverseStr(strings,intk){intsize=s.size();intcount=size/(2*k);stringa;inti=0;for(i=0;ik){reverse(a2.begin(),a2.begin()+k);}else{reverse(a2.
优选算法训练篇07--力扣LCR179.查找总价格为目标值的两个商品大胆飞猪算法训练篇算法 leetcode
目录1.题目链接：LCR179.查找总价格为目标值的两个商品2.题目描述：3.解法一(暴力解法，会超时)：4.解法二(双指针-对撞指针):1.题目链接：LCR179.查找总价格为目标值的两个商品2.题目描述：购物车内的商品价格按照升序记录于数组price。请在购物车中找到两个商品的价格总和刚好是target。若存在多种情况，返回任一结果即可。示例1：输入：price=[3,9,12,15],tar
LeetCode215. 数组中的第K个最大元素 techpupil 算法快速选择 leetcode
给定整数数组nums和整数k，请返回数组中第k个最大的元素。请注意，你需要找的是数组排序后的第k个最大的元素，而不是第k个不同的元素。你必须设计并实现时间复杂度为O(n)的算法解决此问题。示例1:输入:[3,2,1,5,6,4],k=2输出:5示例2:输入:[3,2,3,1,2,4,5,5,6],k=4输出:4分析：本题我们能想到最简单的方法就是直接给数组排序，然后取第第N-k个元素，但题目要求是
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
SM国密算法深度解析与技术实践安全
SM国密算法深度解析与技术实践一、算法体系概述SM系列密码算法是由中国国家密码管理局发布的商用密码标准体系，涵盖非对称加密、对称加密、杂凑算法、标识密码等多个领域。其核心组件包括：SM2：基于椭圆曲线的非对称加密算法（GB/T32918）SM3：密码杂凑算法（GB/T32905）SM4：分组对称加密算法（GB/T32907）与国际算法对比类型国密算法国际标准密钥长度安全强度非对称加密SM2RSA-
梯度下降法理论理解伶星37 机器学习人工智能
梯度下降法：看似原始却透露着机器学习的本质前提：在研究梯度下降方法之前，你要理解矩阵运算（解析解）的方法矩阵运算目前的缺点只能进行对线性函数经行分析，无法对复杂的函数经行分析什么是梯度，以及梯度向量梯度下降的形象例子以及基本思想有三个兄弟被困在山上，得要死，他们目标是看谁尽快找到山谷中的水源老大比较后选择最陡的方向随便探索一下，就朝较低处走去探测几下就走陡峭的方向梯度下降算法的核心思想就是沿着负梯
2.服务器负载均衡我是一条胖咸鱼华为安全HCIP 网络服务器安全负载均衡华为
1.服务器负载均衡概述负载均衡基本概念实服务器：处理业务流量的实体服务器，客户端发送的服务请求最终是由实服务器处理的。实服务器组：由多个实服务器组成的集群，对外提供特定的一种服务。虚拟服务器：实服务器组对外呈现的逻辑形态，客户端实际访问的是虚拟服务器。负载均衡算法：FW分配业务流量给实服务器时依据的算法，不同的算法可能得到不同的分配结果。服务健康检查：FW检查服务器状态是否正常的过程，可以增强为用
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
使用 Spring Security的一些常用功能代码代码快快显灵 springsecurity spring java 前端 SpringSecurity
在实际开发中，SpringSecurity常常涉及一些常用的功能。以下是一些在开发中经常使用的SpringSecurity功能：1.PasswordEncoderBean（密码加密）这段配置使用BCryptPasswordEncoder作为密码加密算法。它是SpringSecurity中常用的密码加密方式，通常用于存储和验证用户的密码。@BeanpublicPasswordEncoderpassw
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
最小生成树C He11o__Wor1d424 c语言算法图论
最小生成树是所有节点的最小连通子图，即：以最小的成本（边的权值）将图中所有节点链接到一起。图中有n个节点，那么一定可以用n-1条边将所有节点连接到一起。Primprim算法是从节点的角度采用贪心的策略每次寻找距离最小生成树最近的节点并加入到最小生成树中。prim算法核心就是三步：第一步，选距离生成树最近节点第二步，最近节点加入生成树第三步，更新非生成树节点到生成树的距离（即更新minDist数组）
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
代码随想录算法训练营Day19| LeetCode 77 组合、216 组合总和 III、17 电话号码的字母组合今天也要早睡早起代码随想录算法训练营跟练算法 leetcode c++数据结构递归回溯
理论基础回溯的本质是穷举，也就是暴力求解，它是递归的一部分。所有回溯法解决的问题都可以抽象为树形结构，因为回溯法解决的都是在集合中递归查找子集，集合的大小构成了树的宽度，递归的深度就构成了树的深度（cr.代码随想录）。应用回溯一般被用于以下几种问题（cr.代码随想录）的求解中：组合问题：N个数里面按一定规则找出k个数的集合切割问题：一个字符串按一定规则有几种切割方式子集问题：一个N个数的集合里有多
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
(python)保障信息安全的加密库-cryptography Marst·Zhang 基础知识实用工具 python
前言cryptography是一个广泛使用的Python加密库，提供了各种加密、哈希和签名算法的实现。它支持多种加密算法，如AES、RSA、ECC等，以及哈希函数（如SHA-256、SHA-384等）和数字签名算法(如DSA、ECDSA等).目录常见用途密码学函数主要功能优点缺点总结常见用途数据加密使用对称加密算法（如AES）对数据进行加密，确保数据在传输或存储过程中的机密性。数字签名生成和验证数
R.E.D.算法：革新文本分类的半监督学习新范式真智AI 算法 r语言分类人工智能学习
随着大型语言模型（LLMs）在解决问题方面的应用进入新时代，只有少数问题仍然存在不尽如人意的解决方案。大多数分类问题（在概念验证层面）可以通过良好的提示工程技术和自适应的上下文学习（ICL）示例，利用LLMs以70-90%的精确度/F1分数来解决。当您希望持续实现高于此水平的性能时——当提示工程不再足够时，会发生什么？分类难题文本分类是监督学习中最古老且最易理解的示例之一。鉴于这一前提，构建能够处
Python文件加密库之cryptography使用详解 Rocky006 python 开发语言
概要在现代信息社会中，数据的安全性变得越来越重要。为了保护敏感信息，文件加密技术被广泛应用。Python的cryptography库提供了强大的加密功能，可以轻松实现文件加密和解密。本文将详细介绍如何使用cryptography库进行文件加密，包含具体的示例代码。cryptography库简介cryptography是Python中一个功能强大且易用的加密库，提供了对称加密、非对称加密、哈希算法、
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

图解机器学习 | 朴素贝叶斯算法详解