装进了牛奶箱中

机器学习——朴素贝叶斯算法

一、朴素贝叶斯理论

1.1基于贝叶斯决策理论的分类方法

1.2条件概率

编辑

1.3全概率公式

编辑

1.4朴素贝叶斯分类器

二、贝叶斯分类器简单应用

三、使用朴素贝叶斯进行文档分类

3.1准备数据：从文本中构建词向量

3.2训练算法：从词向量计算概率

3.3测试算法：根据现实情况修改分类器

3.4准备数据：文档词袋模型

四、使用朴素贝叶斯过滤垃圾邮件

4.1准备数据：切分文本

4.2测试算法：使用朴素贝叶斯进行交叉验证

编辑

五、总结

一、朴素贝叶斯理论

1.1基于贝叶斯决策理论的分类方法

朴素贝叶斯是经典的机器学习算法之一，也是为数不多的基于概率论的分类算法。对于大多数的分类算法，在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。比如决策树，KNN，逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数，要么是条件分布。但是朴素贝叶斯却是生成方法，该算法原理简单，也易于实现。

朴素贝叶斯算法以贝叶斯理论为理论基础，通过计算样本属于不同类别的概率来进行分类，是一种经典的分类算法。朴素贝叶斯是贝叶斯分类器里的一种方法，之所以称它朴素，原因在于它采用了特征生命条件全部独立的假设。

贝叶斯理论是指基于能获得的最好证据（观察、数据和信息等），来计算信念度（或者假说、主张、命题）的有效方法。信念度即为对事物的真实性和正确性所具有的信心。朴素贝叶斯的核心便是朴素贝叶斯公式，在了解朴素贝叶斯公式之前不妨先了解条件概率、全概率公式、先验概率和后验概率等相关概念。

我们现在用p1(x,y)表示数据点(x,y)属于类别1（图中用圆点表示的类别）的概率，用p2(x,y)表示数据点(x,y)属于类别2（图中用三角形表示的类别）的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：

如果p1(x,y)>p2(x,y)，那么类别为1。
如果p2(x,y)>p1(x,y)，那么类别为2。

也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。看图1，如果该图中的整个数据使用6个浮点数来表示，并且计算类别概率的Python代码只有两行，那么我们应该使用下面哪种方法来对该数据点进行分类？

1.使用kNN算法，则需要进行1000次距离计算，和简单的概率计算相比，kNN的计算量太大；
2.使用决策树，则需要分别沿x轴、y轴划分数据，似乎效果并不是很好；
3.还有就是计算数据点属于每个类别的概率，并进行比较，这是最佳选择。

1.2条件概率

如上图，可以知道在事件B发生的情况下，事件A发生的概率是 $A\cap B$ 部分占B部分的比例，即：

$P(A|B) = \frac{P(A\cap B)}{P(B)}$

因此： $P(A\cap B) = P(A|B)P(B)$

同理可得： $P(A\cap B) = P(B|A)P(A)$

所以：

通过变换上面的等式，可以得到条件概率的公式： $P(A|B) = \frac{P(B|A)P(A)}{P(B)}$

1.3全概率公式

假设事件A和事件A'共同构成样本空间S，在这种情况下，事件B可以划分成两部分，即：

$P(B) = P(B\cap A) + P(B\cap A')$

因为： $P(B\cap A) = P(B|A)P(A)$

结合上面两个式子，可以得到全概率公式：

1.4朴素贝叶斯分类器

先验概率P(X)：先验概率是指根据以往经验和分析得到的概率。

后验概率P(Y|X)：事情已发生，要求这件事情发生的原因是由某个因素引起的可能性的大小，后验分布P(Y|X)表示事件X已经发生的前提下，事件Y发生的概率，称事件X发生下事件Y的条件概率。

基于属性条件独立性假设， $P(c|x) = \frac{P(c)P(x|c)}{p(x)} = \frac{P(c)}{P(x)}\sum_{i=1}^{d}P(x_{i}|c)$ ，其中d为属性数目， $x_{i}$ 为x在第i个属性上的取值。

由于对所有类别来说P(x)相同，因此贝叶斯判断准则有

$h_{nb}(x) = arg maxP(c)\prod_{i=1}^{d}P(x_{i}|c)$

这就是朴素贝叶斯分类器的表达式

朴素贝叶斯分类器的训练器的训练过程就是基于训练集D估计类先验概率，并为每个属性估计条件概率。

令表示训练集D中第c类样本组合的集合，则类先验概率： $P(c)=\frac{|D_c|}{D}$

拉普拉斯修正：若某个属性值在训练集中没有与某个类同时出现过，则训练后的模型会出现 over-fitting 现象。比如训练集中没有该样例，因此连乘式计算的概率值为0，这显然不合理。因为样本中不存在（概率为0），不代该事件一定不可能发生。所以为了避免其他属性携带的信息，被训练集中未出现的属性值“ 抹去” ，在估计概率值时通常要进行“拉普拉斯修正”。

$P(c|x) = \frac{P(x|c)P(c)}{P(x)} = \frac{P(c)}{P(x)}\prod_{i=1}^{d}P(x_{i}|c)$ ，我们要修正 $P(x_{i}|c)$ 的值。

令N表示训练集D中可能的类别数， $N_{i}$ 表示第i个属性可能的取值数，则贝叶斯公式可修正为： $\hat{P}(C) = \frac{\left | D_{c} \right |+1}{\left | D \right |+N}$ $\hat{P}(x_{i}|c) = \frac{\left | D_{c,x_{i}} \right |+1}{\left | D_{c} \right |+N_{i}}$

二、贝叶斯分类器简单应用

在超市挑选苹果，一般颜色红润，形状较圆的为好果。根据之前购买的苹果的大小、颜色、形状这三个特征来区分好坏：

编号	大小	颜色	形状	好果
1	小	青色	非规则	否
2	大	红色	非规则	是
3	大	红色	圆形	是
4	大	青色	圆形	否
5	大	青色	非规则	否
6	小	红色	圆形	是
7	大	青色	非规则	否
8	小	红色	非规则	否
9	小	青色	圆形	否
10	大	红色	圆形	是

现在一个苹果的特征如下：

大小	颜色	形状	好果
大	红色	圆形	？

先验概率P(c)，简化的求解方法：c类样本的个数除以样本总数

P(c=好果)=4/10 P(c=一般)=6/10

每个属性的类条件概率，可以初步这么求解：这个类别下的样本中对应这个属性的样本个数除以这个类别下的样本个数，因此：

P(大小=大 | c=好果) = 3/4

P(颜色=红色 | c=好果) = 4/4

P(形状=圆形 | c=好果) = 3/4

P(大小=大 | c=一般) = 3/6

P(颜色=红色 | c=一般) = 1/6

P(形状=圆形 | c=一般) = 2/6

因此：

P(c=好果） * P(大小=大 | c=好果) * P(颜色=红色 | c=好果) * P(形状=圆形 | c=好果)

= 4/10 * 3/4 * 4/4 * 3/4

= 0.225

P(c=一般） * P(大小=大 | c=一般) * P(颜色=红色 | c=一般) * P(形状=圆形 | c=一般)

= 6/10 * 3/6 * 1/6 * 2/6

= 0.0167

0.225>0.0167，所以这个苹果为好果

三、使用朴素贝叶斯进行文档分类

3.1准备数据：从文本中构建词向量

# 创建实验样本
def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0, 1, 0, 1, 0, 1]  # 标签向量，1表示侮辱性文字，0表示正常言论
    return postingList, classVec

# 创建不重复词的列表 ———— 词汇表
def createVocabList(dataSet):
    vocabSet = set([])                       # 创建一个空集
    for document in dataSet:
        vocabSet = vocabSet | set(document)  # 创建两个集合的并集
    return list(vocabSet)                    # 返回不重复的词条列表


# 输出文档向量
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)             # 创建一个其中所含元素都为0的向量
    for word in inputSet:                        # 遍历文档中的所有单词
        if word in vocabList:                    # 如果出现了词汇表中的单词，则将输出的文档向量中的对应值设为1
            returnVec[vocabList.index(word)] = 1
        else:
            print("单词 %s 不在词汇表中!" % word)
    return returnVec



# 测试函数效果
 
# 创建实验样本
listPosts, listClasses = loadDataSet()
print('数据集\n', listPosts)
 
# 创建词汇表
myVocabList = createVocabList(listPosts)  
print('词汇表:\n', myVocabList)
 
# 输出文档向量
print(setOfWords2Vec(myVocabList, listPosts[5]))

一个单词在词汇表中出现过一次，那么就在相应位置记作1，如果没有出现就在相应位置记作0。

3.2训练算法：从词向量计算概率

# 朴素贝叶斯分类器训练函数
from gettext import npgettext


def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)                      # 获得训练的文档总数
    numWords = len(trainMatrix[0])                       # 获得每篇文档的词总数
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # 计算文档是侮辱类的概率
    p0Num = ones(numWords)                              # 创建numpy.ones数组,词条出现次数初始化为1，拉普拉斯平滑
    p1Num = ones(numWords)                              
    p0Denom = 2.0                                        # 分母初始化为2，拉普拉斯平滑
    p1Denom = 2.0                                       
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]                      # 向量相加，统计侮辱类的条件概率的数据，即P(w0|1),P(w1|1),P(w2|1)···
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]                      # 向量相加，统计非侮辱类的条件概率的数据，即P(w0|0),P(w1|0),P(w2|0)···
            p0Denom += sum(trainMatrix[i])
    p1Vect = np.log(p1Num / p1Denom)                          # 侮辱类，每个元素除以该类别中的总词数
    p0Vect = np.log(p0Num / p0Denom)                           # 非侮辱类，每个元素除以该类别中的总词数
    return p0Vect, p1Vect, pAbusive                      # p0Vect非侮辱类的条件概率数组、p1Vect侮辱类的条件概率数组、pAbusive文档属于侮辱类的概率

# 测试代码
listPosts, listClasses = loadDataSet()    # 创建实验样本
print('数据集\n', listPosts)
myVocabList = createVocabList(listPosts)  # 创建词汇表
print('词汇表:\n', myVocabList)
trainMat = []
for postinDoc in listPosts:               # for循环使用词向量来填充trainMat列表
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
p0V, p1V, pAb = trainNB0(trainMat, listClasses)
print('p0V:\n', p0V)
print('p1V:\n', p1V)
print('classVec:\n',listClasses)
print('pAb:\n', pAb)

运行结果如图：p0V存放的是每个单词属于类别0，也就是非侮辱类词汇的概率。 p1V存放的是每个单词属于类别1，也就是侮辱类词汇的概率。例如词汇表中第五个stupid，非侮辱类的概率就是-3.25809654，侮辱类概率为-1.65822808。pAb是所有侮辱类的样本占所有样本的概率，从classVec中可以看出，一共有三个侮辱类，所以pAb概率为0.5。

3.3测试算法：根据现实情况修改分类器

# 测试朴素贝叶斯分类器
def testingNB():
    listOPosts, listClasses = loadDataSet()                           # 创建实验样本
    myVocabList = createVocabList(listOPosts)                         # 创建词汇表
    trainMat = []                                                     # 文档矩阵
    for postinDoc in listOPosts:                                      # for循环使用词向量来填充trainMat列表
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(array(trainMat), array(listClasses))     # 获得概率数组及先验概率
    testEntry = ['love', 'my', 'dalmation']                           # 输入测试1
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,'属于侮辱类')
    else:
        print(testEntry,'属于非侮辱类')
    testEntry = ['stupid', 'garbage']                                 # 输入测试2
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,'属于侮辱类')
    else:
        print(testEntry,'属于非侮辱类')

if __name__ == '__main__':
    testingNB()

3.4准备数据：文档词袋模型

# 朴素贝叶斯词袋模型
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1  # 加1
        else:
            print("the word: %s is not in my vocabulary!" % word)
    return returnVec

四、使用朴素贝叶斯过滤垃圾邮件

普通邮件

垃圾邮件

数据集：链接: https://pan.baidu.com/s/14evrKNZQ6h0mmJCwsRGRhA?pwd=q4p6 提取码: q4p6

4.1准备数据：切分文本

# 例子
mySent = 'This book is the best book on Python or M.L. I have ever laid  eyes upon.'
print(mySent.split())

4.2测试算法：使用朴素贝叶斯进行交叉验证

# 文件解析
def textParse(bigString):  # 输入字符串, 输出单词列表
    listOfTokens = re.split(r'[\W*]', bigString)                    # 字符串切分，去掉除单词、数字外的任意字符串
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]    # 除了单个字母外，其他字符串全部转换成小写



# 完整的垃圾邮件测试函数
def spamTest():
    docList = []                 # 文档列表
    classList = []               # 文档标签
    fullText = []                # 全部文档内容集合
    for i in range(1, 22):                                           # 遍历垃圾邮件和非垃圾邮件各21个
        wordList = textParse(open('email/spam/%d.txt' % i).read())   # 读取垃圾邮件，将大字符串并将其解析为字符串列表
        docList.append(wordList)                                     # 垃圾邮件加入文档列表
        fullText.extend(wordList)                                    # 把当前垃圾邮件加入文档内容集合
        classList.append(1)                                          # 1表示垃圾邮件，标记垃圾邮件
        wordList = textParse(open('email/ham/%d.txt' % i).read())    # 读非垃圾邮件，将大字符串并将其解析为字符串列表
        docList.append(wordList)                                     # 非垃圾邮件加入文档列表
        fullText.extend(wordList)                                    # 把当前非垃圾邮件加入文档内容集合
        classList.append(0)                                          # 0表示垃圾邮件，标记非垃圾邮件,
 
    vocabList = createVocabList(docList)                             # 创建不重复的词汇表
    trainingSet = list(range(42))                                    # 为训练集添加索引
    testSet = []                                                     # 创建测试集
    for i in range(8):                                              # 目的为了从42个邮件中，随机挑选出34个作为训练集,8个做测试集
        randIndex = int(random.uniform(0, len(trainingSet)))         # 随机产生索引
        testSet.append(trainingSet[randIndex])                       # 添加测试集的索引值
        del (trainingSet[randIndex])                                 # 在训练集中，把加入测试集的索引删除
 
    trainMat = []                                                    # 创建训练集矩阵训练集类别标签系向量
    trainClasses = []    
    #print(vocabList)
    #print(docList[docIndex])                                            # 训练集类别标签
    for docIndex in trainingSet:                                     # for循环使用词向量来填充trainMat列表t
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))  # 把词集模型添加到训练矩阵中
        trainClasses.append(classList[docIndex])                     # 把类别添加到训练集类别标签中
    p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses)) # 朴素贝叶斯分类器训练函数
    
    #print('词表:\n', vocabList)
    #print('p0V:\n', p0V)
    #print('p1V:\n', p1V)
    #print('pSpam:\n', pSpam)
 
    errorCount = 0                                                   # 用于计数错误分类
    for docIndex in testSet:                                         # 循环遍历训练集
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])  # 获得测试集的词集模型
        if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1                                          # 预测值和真值不一致，则错误分类计数加1
            print("分类错误集", docList[docIndex])
    print('错误率: ', float(errorCount) / len(testSet))

函数spamTest()会输出在8封随机选择的电子邮件上的分类错误概率。既然这些电子邮件是随机选择的，所以每次的输出结果可能有些差别。如果发现错误的话，函数会输出错误的文档的此表，这样就可以了解到底是哪篇文档发生了错误。如果想要更好地估计错误率，那么就应该将上述过程重复多次，比如说10次，然后求平均值。相比之下，将垃圾邮件误判为正常邮件要比将正常邮件归为垃圾邮件好。

五、总结

优点：在数据较少的情况下仍然有效，可以处理多类别问题
缺点：对于输入数据的准备方式较为敏感
适用数据类型：标称型数据

完整代码：链接: https://pan.baidu.com/s/1wAN8wFmuAjU8YDZgewtUuQ?pwd=swcr 提取码: swcr

大模型——什么是 Vibe Coding？从零开始学习 AI 辅助编程不二人生大模型学习人工智能大模型辅助编程
大模型——什么是VibeCoding？从零开始学习AI辅助编程VibeCoding：代码消失，直觉驱动的软件开发新浪潮？生成式人工智能的指数级增长正不断重塑各个行业，软件开发领域也不例外。大约在2025年初，一股源自美国硅谷的新思潮开始引起关注：开发者似乎可以借助AI工具，在几乎不直接编写代码的情况下构建产品。这种依赖直觉、跳脱传统编码苦役的开发方式，被赋予了一个颇具时代感的名字——VibeCod
Redis 分布式锁实现与实践佑瞻数据库与知识图谱 redis 分布式数据库
在分布式系统架构中，多个独立进程对共享资源的并发访问控制是常见需求，分布式锁作为解决这一问题的关键技术，在缓存更新、任务调度、库存管理等场景中发挥着重要作用。本文将从基础原理出发，详细阐述基于Redis的分布式锁实现方案，包括单实例模式与Redlock算法，并探讨其在实际应用中的关键考量。分布式锁核心概念分布式锁是一种跨进程、跨机器的同步机制，用于保证多个分布式节点对共享资源的互斥访问。一个可靠的
脑电分析入门指南：信号处理、特征提取与机器学习 Ao000000 信号处理机器学习人工智能
脑电分析入门指南一、为什么要研究脑电1.课题目标（解决什么问题）2.输入与输出二、脑电分析的整体流程三、每一步详解1.数据采集2.预处理3.特征提取4.特征选择/降维5.分类与识别四、研究过程中遇到的挑战与解决方法五、学习感受一、为什么要研究脑电1.课题目标（解决什么问题）本课题旨在通过对脑电（EEG）的采集与分析，提取有用的神经信息，实现对某类脑状或行为的识别/预测/评估。例如：情绪识别、疾病诊
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
【2025B卷专题】华为OD机试2025B卷统一考试题库清单，时间紧张就刷这个
专栏导读本专栏收录于《华为OD机试（JAVA）真题（B卷+A卷+C卷+D卷+E卷）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华
【2025B卷专题】华为OD机试2025B卷统一考试题库清单，时间紧张就刷这个（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od python javascript 华为OD机试 2025B卷
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
【全网首发】华为OD机试 2025B卷机考真题库清单（全真题库）含考点说明哪吒搬砖工逆袭Java架构师华为od java 2025B卷华为OD机试
专栏导读本专栏收录于《华为OD机试（JAVA）真题（E卷+D卷+A卷+B卷+C卷）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华
【2025B卷首发】华为OD机试真题+全流程解析+备考攻略+经验分享+Java最佳实现
专栏导读本专栏收录于《华为OD机试（JAVA）真题（E卷+D卷+A卷+B卷+C卷）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
后端领域的自然语言处理技术应用大厂资深架构师 Spring Boot 开发实战自然语言处理 easyui 人工智能 ai
后端领域的自然语言处理技术应用关键词：后端领域、自然语言处理、技术应用、算法原理、实际案例摘要：本文聚焦于后端领域中自然语言处理技术的应用。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示其原理和架构。详细讲解了核心算法原理并给出Python源代码示例，同时介绍了数学模型和公式。通过项目实战，展示代码实际案例并进行详细解释。分析了自然语
企业内网系统：从传统开发到智能赋能的进化之路飞算JavaAI开发助手科技人工智能大数据 java
在当今数字化浪潮中，企业内网系统作为支撑日常运营的核心基础设施，其开发效率与质量直接关系到企业的竞争力。传统开发模式下，程序员需要手动完成需求分析、架构设计、代码编写、测试调试等全流程工作，不仅耗时费力，还容易因人为疏忽导致质量隐患。而随着人工智能技术的突破性进展，以飞算JavaAI为代表的智能开发工具正在重塑企业内网系统的开发范式，为程序员提供从设计到落地的全链路智能支持。一、传统企业内网系统开
Camera相机人脸识别系列专题分析之十六：人脸特征检测FFD算法之libcvface_api.so数据结构详细注释解析一起搞IT吧数码相机算法数据结构人工智能 android 图像处理计算机视觉
【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了：这一篇我们开始讲：Camera相机人脸识别系列专题分析之十六：人脸特征检测FFD算法之libcvface_api.so数据结构详细注释解析目录一、libcvface_api.so数据结构详细注释解析一、libcvface_api.so数据结构详细注释解析///@brief人脸信息结构体typedefstructcv_face_t{cv_r
颠覆人机交互！多模态 AI Agents 大模型如何用 5 大模式开启智能新时代？
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列七颠覆人机交互！多模态AIAgents大模型如何用5大模式开启智能新时代？一、从“单一感知”到“多模态融合”：A
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
实操 SpringBoot+MCP！清风孤客 spring boot 后端 java 人工智能
引言随着人工智能的飞速发展，大语言模型(LLM)正在革命性地重塑用户与软件的交互范式。想象一下这样的场景：用户无需钻研复杂的API文档或者在繁琐的表单间来回切换，只需通过自然语言直接与系统对话——“帮我查找所有2023年出版的图书”、“创建一个新用户叫张三，邮箱是[email protected]”。这种直观、流畅的交互方式不仅能显著降低新用户的学习曲线，更能大幅削减B端系统的培训成本和实施
如何学习智能体搭建
如何学习智能体搭建前言随着人工智能的发展，智能体（Agent）成为自动化、交互式应用和自主决策系统中的核心角色。本书将从零基础出发，系统讲解智能体的基本原理、常见框架、实战搭建与进阶技巧，帮助你快速上手并应用于实际项目。目录智能体基础认知智能体的核心组成主流智能体开发框架本地智能体与云端智能体选型智能体的任务自动化与插件集成智能体的知识检索与上下文管理智能体的多模态扩展智能体安全与可控性智能体实战
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
Char Studio 使用入门：高效构建企业级对话系统的实战指南 charles666666 人工智能产品经理语言模型自然语言处理架构
数字化浪潮推动下，企业与用户的交互模式正经历深刻变革，对话系统作为核心交互手段，其重要性日益凸显。然而，众多企业在构建对话系统时，却深陷诸多困境，难以自拔。一、开篇痛点场景：企业对话系统开发的典型困境企业在自行开发对话系统时，往往面临预算超支、周期漫长以及维护成本居高不下等问题。开发团队需要投入大量时间和精力进行底层技术架构的搭建，例如自然语言处理算法的研究、对话逻辑的设计等，这不仅消耗了大量的人
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
AI驱动的个人工作革命：基于DeepSeek构建全场景智能工作助理（含源代码+多应用场景） AI_DL_CODE DeepSeek深度应用人工智能 DeepSeek 个人智能助理 LangChain 任务自动化知识管理大模型应用
摘要：本文详细阐述基于DeepSeek大模型构建个人工作助理的完整技术方案，通过LangChain实现任务分解、知识检索与工具调用的智能协同。方案融合向量数据库、多模态交互与个性化学习算法，构建涵盖邮件处理、会议管理、文档生成等15大核心工作场景的自动化系统。文中提供可运行代码、完整部署指南及效能测试数据，实现邮件处理效率提升13倍、会议纪要生成时间缩短100%、任务安排错误率降低83%的显著优化
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
PageRank：互联网的马尔可夫链平衡态大千AI助手人工智能 Python #OTHER 人工智能机器学习条件概率贝叶斯 PageRank 马尔科夫链 MC
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！PageRank算法本质上是一个在网页图上定义的离散时间马尔可夫链（DTMC），其核心思想是将网页间的链接关系转化为状态转移概率。以下是详细分析：一、马尔可夫链的核心要素在PageRank中的体现马尔可夫链要素PageRank对应数学描述状态空间网页集
MCMC：高维概率采样的“随机游走”艺术大千AI助手人工智能 Python #OTHER 人工智能数据挖掘机器学习算法 MCMC 马尔科夫概率论
MCMC（马尔可夫链蒙特卡洛）是一种从复杂概率分布中高效采样的核心算法，它解决了传统采样方法在高维空间中的“维度灾难”问题。以下是其技术本质、关键算法及实践的深度解析：本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、MCMC要解决的核心问题目标：从目标分布(π(x)\pi(\mathbf{x})
LeetCode 刷题：数据结构与算法的实战经验分享
LeetCode刷题：数据结构与算法的实战经验分享关键词：LeetCode、数据结构、算法、刷题经验、实战摘要：本文将围绕LeetCode刷题展开，深入探讨数据结构与算法在实际刷题过程中的应用。通过分享实战经验，帮助读者更好地理解和掌握数据结构与算法知识，提升解题能力。文章将从背景介绍入手，阐述刷题的目的和意义，接着详细解释核心概念，分析它们之间的关系，然后介绍核心算法原理和具体操作步骤，结合数学
高压电缆护层电流监测系统的技术实现李子圆圆人工智能
目录文章目录概要高精度电流监测的技术实现多级预警机制的构建逻辑极端环境下的稳定运行技术远程运维的技术支撑概要高压电缆护层作为电力传输的关键防护结构，其接地电流的异常变化是判断设备状态的重要指标。TLKS-PLGD高压电缆护层电流监测系统通过传感器技术与智能算法的结合，构建了一套完整的电缆安全监测方案。高精度电流监测的技术实现高精度电流监测的技术实现护层电流监测的核心在于数据采集的精准性。该系统采用
【人工智能】Spring AI Alibaba，一个面向 Java 开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。本本本添哥 A -AIGC 人工智能大模型人工智能 java spring
一、SpringAIAlibaba介绍SpringAIAlibaba是一个面向Java开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。该项目基于SpringAI构建，并且是阿里云通义系列模型及服务在JavaAI应用开发领域的最佳实践。SpringAIAlibaba的目标是为开发者提供一套高层次的AIAPI抽象以及与云原生基础设施的深度集成方案，从而帮助他们快速构建智能应用
构建安全密码存储策略：核心原则与最佳实践 weixin_47233946 信息安全安全
密码是用户身份认证的第一道防线，其存储安全性直接关系到用户隐私和企业信誉。近年来频发的数据泄露事件揭示了密码管理的关键性。本文将深入探讨从加密算法到系统性防护的完整密码存储方案，帮助开发者构建企业级安全防御体系。一、密码存储基本准则绝对禁止明文存储：即使采用数据库加密措施，直接存储用户原始密码仍存在不可逆泄露风险。运维人员权限滥用或备份文件泄露都可能成为突破口。加密≠安全：AES等对称加密存在密钥
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

机器学习——朴素贝叶斯算法

一、朴素贝叶斯理论

1.1基于贝叶斯决策理论的分类方法

1.2条件概率

1.3全概率公式

1.4朴素贝叶斯分类器

二、贝叶斯分类器简单应用

三、使用朴素贝叶斯进行文档分类

3.1准备数据：从文本中构建词向量

3.2训练算法：从词向量计算概率

3.3测试算法：根据现实情况修改分类器

3.4准备数据：文档词袋模型

四、使用朴素贝叶斯过滤垃圾邮件

4.1准备数据：切分文本

4.2测试算法：使用朴素贝叶斯进行交叉验证

五、总结

你可能感兴趣的:(机器学习,算法,人工智能)