weixin_51978164

【机器学习】朴素贝叶斯算法

朴素贝叶斯--垃圾邮件分类过滤

一、贝叶斯介绍
- 【补充】
二、朴素贝叶斯介绍
- 2.1、朴素贝叶斯----垃圾邮件过滤实例
- 2.2、朴素贝叶斯----垃圾邮件过滤实例（代码实现）
三、总结

一、贝叶斯介绍

英国数学家.1701年出生于伦敦，做过神甫.1742年成为英国皇家学会会员.1763年4月7日逝世.贝叶斯在数学方面主要研究概率论.他首先将归纳推理法用于概率论基础理论，并创立了贝叶斯统计理论，对于统计决策函数、统计推断、统计的估算等做出了贡献.1763年发表了这方面的论著，对于现代概率论和数理统计都有很重要的作用.贝叶斯的另一著作《机会的学说概论》发表于1758年.贝叶斯所采用的许多术语被沿用至今.

他对统计推理的主要贡献是使用了"逆概率"这个概念，并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一个定理，这一定理可用一个数学公式来表达，这个公式就是著名的贝叶斯公式。
结合上学期概率论的知识我们来举一个例子来看看贝叶斯公式。

我们假设集美大学男女比例6：4，男生都是有明显喉结，女生20%有明显喉结，80%无明显喉结。

如果我们去正向地推这个概率：随机取一个学生，他有喉结和没喉结的概率是多少？

如果我们逆向去推这个概率：有一个有明显喉结的学生，你只清楚他是否有明显喉结，但是无法判断他的性别，那此时你能判断出他是女生的概率吗？（虽然有点不切实际。。。）

那接下来就开始算一下：
假设我们集美大学总人数是X。
那么我们有明显喉结的男生的概率: X * P(boy) * P(obvious-throat | boy)
其中，P(boy) = 60%
P(obvious-throat | boy)是条件概率，他是指在是男生下明显喉结的概率，又上述给的条件男生都是有明显喉结，所以就是100%

有明显喉结的女生是 X * P(girl) * P(obvious-throat | girl)
那我们求明显喉结里有多少女生

明显喉结总数：X * P(boy) * P(obvious-throat | boy) + X * P(girl) * P(obvious-throat | girl)(就是上述所求两者相加)

那此时概率不就变成了如图：

那我们消去X,最后不就跟总数没关系了嘛，所以化简如图：

将分母可以合并成P(obvious-throat ),分子就是P(girl) * P(obvious - throat | girl )

那最后不就变成下图：

这个看得有点眼熟，这不就是把girl 看出 A,obvious - throat 看成B嘛，然后得到下面公式：

这不就是贝叶斯公式吗。

【补充】

先验概率：
一般都是单独事件发生的概率，如 P(A)、P(B)。预判概率，可以是基于历史数据的统计，可以由背景常识得出，也可以是人的主观观点给出。

后验概率：
（若 P(A|B) 为正向，则 P(B|A) 为反向），基于先验概率求得的反向条件概率，形式上与条件概率相同

P(A|B)是后验概率，一般是我们求解的目标。
2.P(A|B)是条件概率，又叫似然概率，一般是通过历史数据统计得到。一般不把它叫做先验概率，但从定义上也符合先验定义。
P(A) 是先验概率，一般都是人主观给出的。贝叶斯中的先验概率一般特指它。
P(B)其实也是先验概率，只是在贝叶斯的很多应用中不重要（因为只要最大后验不求绝对值），需要时往往用全概率公式计算得到。

二、朴素贝叶斯介绍

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

在上学期概率论也提到了贝叶斯定理：这个在250多年前发明的算法，在信息领域内有着无与伦比的地位。贝叶斯分类是一系列分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯算法(Naive Bayesian) 是其中应用最为广泛的分类算法之一。

朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。怎么去理解这个，那就举个例子

2.1、朴素贝叶斯----垃圾邮件过滤实例

给你一封邮件，让你判断这是否属于垃圾邮件，其中D表示这封邮件，D里面有X个单词组成。d+表示垃圾邮件，d-表示正常邮件。

先验概率：P(d+)和P(d-)这两个概率好求，只是算垃圾邮件和正常邮件的比例

P(D)这两个公式里都有其实就是只比较分子大小，所以P(D)不用看，可以消掉。

那么现在就是看P(D|d+)和P(D|d-)。

那就来拿P(D|d+)来看，D里面有X个单词，那么P(D|d+)不就是等于P(d1,d2,d3,…,dx| d+) 也就是说这个垃圾邮件里出现跟我们这封邮件一样的概率是多少。那是不是可以理解为每个单词一样的概率是多少？
那么就可以转换为

就是在垃圾邮件中第一个单词相同概率，垃圾邮件第一个单词相同中第二个单词相同概率，以此类推。
这个式子前几个好算，但是后面就越来越难了。
所以我们就假设di和di-1是独立无关的，所以我们公式可以简化为：
那这样我们就可以分别算每个单词在垃圾邮件里出现的概率的累乘起来不就是P(D|d+)嘛，同理可得P(D|d-)也是一样的，然后再比较，那个大就属于那个不就可以解决了吗。

2.2、朴素贝叶斯----垃圾邮件过滤实例（代码实现）

首先看到这里可以运用自己qq邮箱里的邮件然后用那些开头是广告的为垃圾邮件，其他的就是正常邮件就行。
首先要用这个qq邮箱读取时要有授权码，进入设置点击用户，找到POP3/SMTP服务或者 IMAP/SMTP服务，然后直接根据你使用的服务器来打开（我这里直接用smtp都可以用，随便开启那个都行）

这里我使用了Imbox来读取所有的2022年9月19号的文件，直接打印并保存到txt文件，但是这里运行成功，没保存所有文件内容只保存了最后文件的内容，所以我是直接在输出那里直接输出。


import keyring
from imbox import Imbox

password = keyring.get_password('mpwdsaqbksbtbcfd', '[email protected]')

with Imbox('smtp.qq.com', '[email protected]', "mpwdsaqbksbtbcfd", ssl=True) as imbox:

# 获取全部邮件

    inbox_message_after = imbox.messages(date__gt=datetime.date(2022, 9, 19))
    for uid, message in inbox_message_after:

        print(message.subject)  # 邮件主题
        #print(message)
        #print(message.body['plain']) # 邮件文本格式正文
        
        f = open("E:/new/1.txt", 'w',encoding='gb18030')
        f.write(message.subject)

然后我这里就选择简体中文来方便后面翻译

输出之后就选取后面带有广告的部分作为垃圾邮件，其他的部分作为正常邮件，并且要翻译后保存。

后面的就是简单实现朴素贝叶斯----垃圾邮件分类过滤


```python
def createVocabList(dataSet):#创建词汇表
    vocabSet = set([]) #不重复的词，唯一的，集合
    for document in dataSet:#每个文章取词
        vocabSet = vocabSet | set(document) #创建并集
    return list(vocabSet)


def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList) #创建一个其中所含元素都为0的向量
    for word in inputSet:           #遍历每个词条
        if word in vocabList:         #如果词条存在于词汇表中，则置1
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec      
#词袋模型：
def bagOfWord2VecMN(vocabList,inputSet):#对照词汇表，将输入句子转化为0，1组成的向量
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

然后这里就是训练算法，这里其实要注意两个点，一个是初始化概率那边，要做平滑处理，因为每个项独立时是相乘，那如果后面乘上0的话，那最后不就是0了嘛，所以要平滑处理，一般都是按照分类的个数赋初值，这里是二分类，所以初值赋值为2，然后第二个就是最后只是比较大小判断是垃圾邮件还是正常邮件，那万一到后面两个都是很小的概率，很小的数相乘那不是接近0了，那要是位数再多点，然后就在四舍五入那不还是0嘛，所以我们就加上log，就只是比较大小，那就可以更好的显示效果

#训练算法：使用我们之前建立的trainNB0()函数
def trainNB0(trainMatrix,trainCategory):#输入参数为文档矩阵trainMatrix,和每篇文档类别标签所构成的向量trainCategory
    numTrainDocs = len(trainMatrix)#样本个数
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    #p0Num = zeros(numWords); p1Num = zeros(numWords)     #初始化概率  
    #p0Denom = 0.0; p1Denom = 0.0 
    p0Num = ones(numWords); p1Num = ones(numWords)      #防止后面乘上0了，平滑处理
    p0Denom = 2.0; p1Denom = 2.0    #通常设置成类别个数                   
    for i in range(numTrainDocs):   
        if trainCategory[i] == 1:#垃圾邮件
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])#总次数
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    #p1Vect = p1Num/p1Denom         #change to log()
    #p0Vect = p0Num/p0Denom         #change to log()
    p1Vect = log(p1Num/p1Denom)     #如果很多非常小的值乘上然后四舍五入可能等于0，但我们只需要知道这两个的大小，所以转换成对数     
    p0Vect = log(p0Num/p0Denom)   
    return p0Vect,p1Vect,pAbusive#正常邮件，垃圾邮件，垃圾邮件概率

测试算法，看那个大，就返回对应的类型对应的数值

#测试算法：进行交叉验证
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    #vec2Classify * p1Vec是每个词出现的词频，0*数=0，1*数等于本身
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #同时等式两边加上对数，没影响
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)   #2分类问题可以用1.0-pClass1，多分类需要修改
    if p1 > p0:
        return 1
    else: 
        return 0

#解析英文文本，并返回列表
def textParse(bigString):
    #将单词以空格划分
    listOfTokens = bigString.split()
    #去除单词长度小于2的无用单词
    return [tok.lower() for tok in listOfTokens if len(tok)>2]
#def textParse(bigString):
    import re
    listOfTokens =re.split(r'\W*',bigString)#切分
    return [tok.lower() for tok in listOfTokens if len(tok)>2]#全部变成小写的，最少切分两个词

def spamTest():
    #初始化数据列表
    docList = []; classList = []; fullText = []
    #spam和ham文件夹里的邮件是25封,所以用for循环25次
    for i in range(1, 26):
        #切分文本
        wordList = textParse(open("E:/workplace/environment/email/spam/%d.txt" % i).read())
        #切分后的文本以原始列表形式加入文档列表
        docList.append(wordList)
        #切分后的文本直接合并到词汇列表
        fullText.extend(wordList)
        #标签列表更新
        classList.append(1)#垃圾邮件
       
        wordList = textParse(open("E:/workplace/environment/email/ham/%d.txt" % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)#正常邮件
        
        
    #创建一个包含所有文档中出现的不重复词的列表
    vocabList = createVocabList(docList)
    #初始化训练集和测试集列表
    trainingSet = list(range(50)); #取50个，全部
    testSet = []
    #随机构建测试集，随机选取10个样本作为测试样本，并从训练样本中剔除
    for i in range(10):
        #randIndex=random.uniform(a,b)用于生成指定范围内的随机浮点数
        randIndex = int(random.uniform(0, len(trainingSet)))
        #将该样本加入测试集中
        testSet.append(trainingSet[randIndex])#取train里面的放进test
        #同时将该样本从训练集中剔除
        del(trainingSet[randIndex])
    
    #初始化训练集数据列表和标签列表
    trainMat = []; trainClasses = []
    
    #遍历训练集
    for docIndex in trainingSet:
        #词表转换为向量，并加入到训练数据列表中
        trainMat.append(bagOfWord2VecMN(vocabList, docList[docIndex]))
        #相应的标签也加入训练标签列表中
        trainClasses.append(classList[docIndex])
    #朴素贝叶斯分类器训练函数
    p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))
    #初始化错误计数
    errorCount = 0
   
   
    
     #遍历测试集来测试
    for docIndex in testSet:
        print(docIndex)
        #词表转换为向量
        wordVector = bagOfWord2VecMN(vocabList, docList[docIndex])
        #判断分类结果与原标签是否一致
        if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            #如果不一致则错误计数加1
            errorCount += 1
            #并且输出出错的文档
            print("classification error",docList[docIndex])
    #打印输出信息
    print('the erroe rate is: ', float(errorCount)/len(testSet))
    print(errorCount)
    #返回词汇表和全部单词列表

最后测试：

spamTest()

截图如下：

这里就是因为数据比较少就50个，所以这个错误率就相对少一些。

三、总结

朴素贝叶斯法属于比较强条件下的一个生成模型，通过极大似然估计或贝叶斯估计，在特征条件独立的假设下，运用概率论中贝叶斯定理对新的输入进行预测。算法逻辑简单,易于实现，并且分类过程中时空开销小，但是，上面那个就拿垃圾邮件分类来说，不可能第一个单词相同和第二个单词相同是独立的，没关系的，所以，朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。

如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
日记2021-3-8 思考z
今天开课第一天，对于今天的目标完成的还不错早上起床赖了一下，下午去图书馆呆了2个多小时，晚自习看了概率论与统计学，单词：talent天赋，才能，thick厚的，obstacleto对……障碍，introduce介绍，传入，thin瘦的，稀薄的，thorough彻底的，完全的，occurredto想到，invent发明，throat喉咙，ofcourse当然，thunder雷，雷声，tide潮汐，o
PDF和CDF 薛定谔的猫_大雪概率论
在概率论和统计学中，PDF和CDF是两种描述随机变量分布的重要函数：ProbabilityDensityFunction(PDF)：概率密度函数是用来描述连续随机变量可能取值的概率分布的函数。对于一个连续型随机变量X，其PDFf(x)定义为在某个取值x处的概率密度，即X在该值附近出现的概率密度。PDF的积分可以得到概率，即在某个区间内随机变量出现的概率。CumulativeDensityFunct
Python 数学建模——方差分析 Desire.984 Python 数学建模数学建模 python 概率论
文章目录前言单因素方差分析原理核心代码双因素方差分析数学模型分析依据典型代码前言方差分析也是概率论中非常重要的内容，有时数学建模需要用到。方差分析是干什么的？如果说假设检验用于分析两个总体之间的均值μ1,μ2\mu_1,\mu_2μ1,μ2是否存在显著的差别，那么方差分析就是分析两个以上总体之间的均值是否存在显著的差别。单因素方差分析用途：已知一个量AAA可能会影响XXX，AAA的不同取值可能
数据分析面试【概率论与统计学】总结之-----统计学常见面试题整理天阑的芋头 #数据分析—统计学知识数据分析统计学数据分析面试
阅读之前看这里：博主是正在学习数据分析的一员，博客记录的是在学习过程中一些总结，也希望和大家一起进步，在记录之时，未免存在很多疏漏和不全，如有问题，还请私聊博主指正。博客地址：天阑之蓝的博客，学习过程中不免有困难和迷茫，希望大家都能在这学习的过程中肯定自己，超越自己，最终创造自己。目录1.用简洁的话语阐述随机变量的含义2.划分连续型随机变量和离散型随机变量的依据3.常见的分布函数/概率密度函数，以
感悟文是很容易写的林天歌
生活感悟是很容易写的，只要你生活中稍稍关注一下周围在发生什么，随便什么事情都可以，甚至编一件事都可以，然后为之赋予一个意义。举例子的话，比如说我可以写我的概率论老师，每节课三小时，两小时都是在讲课堂无关的事情，都是在讲一些她以为的人生道理，却不知道因为她讲得太多，加上她使用互联网的能力不足，她讲得已经完全不能触动到学生的神经，反倒还促进了一些学生的逃课。这就是典型的以己度人，她以为她在分享自己认为
深度学习算法，该如何深入，举例说明 liyy614 深度学习
深度学习算法的深入学习可以从理论和实践两个方面进行。理论上，深入理解深度学习需要掌握数学基础（如线性代数、概率论、微积分）、机器学习基础和深度学习框架原理。实践上，可以通过实现和优化深度学习模型来提升技能。理论深入数学基础线性代数：理解向量、矩阵、特征值和特征向量等，对于理解神经网络的权重和偏置矩阵至关重要。概率论：用于理解模型的不确定性，如Dropout等正则化技术。微积分：理解梯度下降等优化算
机械学习—零基础学习日志（概率论总笔记5）学长小陈来帮你学习笔记概率论算法深度学习机器学习
引言——“黑天鹅”要获得95%以上置信度的统计结果，需要被统计的对象出现上千次，但是如果整个样本只有几千字，被统计的对象能出现几次就不错了。这样得到的数据可能和真实的概率相差很远。怎么避免“黑天鹅”？古德-图灵折扣估计法在词语统计中，有点词语虽然是出现0次，但是实际的出现概率并不是永远不可能的零。那需要把一些概率转移给到这些词语。古德的做法实际上就是把出现1次的单词的总量，给了出现0次的，出现2次
Python 数学建模——假设检验 Desire.984 Python 数学建模 python 数学建模概率论
文章目录前言参数假设检验单个总体均值的假设检验σ\sigmaσ已知σ\sigmaσ未知两个总体均值的假设检验参考代码非参数假设检验分布拟合检验——卡方检验KS检验（Kolmogorov-Smirnov检验）Wilcoxon检验Wilcoxon符号秩检验Wilcoxon秩和检验前言假设检验是概率论中相当重要的内容。一般是先提出一个原假设H0H_0H0和一个对立的备择假设H1H_1H1，通过数学方
非理工科院校怎么打好数学建模比赛 | 南川笔记南川笔记
Proposition1非理工科院校最好不要打数学建模比赛。虽说“一次建模，终身受益”，但毕竟数学建模既要数学理论的支撑（不仅仅是大学里的微积分、线性代数和概率论与统计，更多的是基于微积分的常偏微分方程、基于线性代数的运筹学和基于概率论与统计的统计分析内容），还要编程的支撑（不是常规的C语言或者Java程序，也不是这几年很火的Python编程，而是基于数值运算的Matlab和基于统计的R），这在一
Python的图形化界面编程 iteye_20668 Python python
2017.2.14好久没有写代码了，感觉过一个年弄的什么也没有干成，好像看了下c++,突然发现现在来看C++,要简单了好多，并且指针也没有那么难了，然后就是看了下机器学习，感觉有点小难，现在发现好多都涉及到高数，概率论和线性代数的知识，想想当初把这些学的是一塌糊涂。然后上次和胡杨大大聊天的时候，他说好多东西都是在实践中去学习的。好了，继续我的Python吧，Python的图形化界面编程。impor
python机器学习算法--贝叶斯算法在下小天n 机器学习 python 机器学习算法
1.贝叶斯定理在20世纪60年代初就引入到文字信息检索中，仍然是文字分类的一种热门（基准）方法。文字分类是以词频为特征判断文件所属类型或其他（如垃圾邮件、合法性、新闻分类等）的问题。原理牵涉到概率论的问题，不在详细说明。sklearn.naive_bayes.GaussianNB(priors=None,var_smoothing=1e-09)#Bayes函数·priors：矩阵，shape=[n
【概率论】理解贝叶斯（Bayes）公式：为什么疾病检测呈阳性，得这种病的概率却不高？ seh_sjlj 概率论概率论学习数学经验分享
先说结论：因为假阳性的人数相比于真阳性太多了。具体是怎么回事呢？咱们慢慢分析。文章目录一、贝叶斯公式二、典例分析三、贝叶斯公式的本质思考（摘自教材）一、贝叶斯公式定理1（贝叶斯公式）设有事件A,BA,BA,B，P(A)>0P(A)>0P(A)>0，P(B)>0P(B)>0P(B)>0，则P(B∣A)=P(B)P(A∣B)P(A)P(B|A)=\frac{P(B)P(A|B)}{P(A)}P(B∣A
愚者才悲观｜每日复盘D32 _李子昂
我是李子昂，一个热爱生活、积极向上的“人生梦想家”。爱阅读、记录生活，这是我的第三十二天复盘❤2019.12.1232/3651.感恩创造的不可思议的今天早起一件事：打卡✔（每天比昨天早起两分钟）早读任务：第一课，课文两段✔马原第一章大题背诵✘古诗词一首✘三只青蛙:阅读一小时✔概率论前三章✘图片发自App2.今日小确幸感恩YCX送我的奶茶，紫薯和冬天很配❤感恩早上的挣扎顺利的早起了两分钟，明天加油
【晨间日记】 2020年9月23日语瞳SAMA
2020年9月23日天气：小雨【90天践行目标】（108/120）①5：30早起②22：30早睡③写晨间日记【昨日践行】①5：41起床②22：29入睡③晨间日记已达成【今日青蛙】①完成概率论和离散数学作业②午间冥想③洗衣服*昨日三只青蛙已达成【反思日志】①早晨听这门Java课，真的有种“虽然是使用中文教学，但是上起来却和外语课一样”的感觉，好多未知的术语糅杂在一起，整堂课听着就跟猜谜似的，太离谱了
2.1概率统计的世界极客探索者量化交易概率论
欢迎来到概率统计的世界！在量化交易中，概率统计是至关重要的工具。通过理解概率，我们可以用数学的方法来描述市场行为，预测未来走势，并制定交易策略。让我们一起从基础概念开始，逐步深入，揭开概率统计的神秘面纱。1.1概率论的基本概念与应用概率是用来描述某个事件发生可能性的数值。例如，丢一枚硬币，正面朝上的概率是50%。这个概率可以用数学公式表示为：在量化交易中，我们常常需要计算各种事件的概率，例如股票价
Matlab实现多传感器信息融合（D-S证据推论）冬天都会过去
D-S证据理论是对贝叶斯推理方法推广，主要是利用概率论中贝叶斯条件概率来进行的，贝叶斯条件概率需要知道先验概率。而D-S证据理论不需要知道先验概率，能够很好地表示“不确定”，被广泛用来处理不确定数据。（对来自多传感器数据的融合处理）适用于：信息融合、专家系统、情报分析、法律案件分析、多属性决策分析1、D-S证据理论知识介绍（1）四大定义基本概率分配、信任函数、似然函数、信任区间其中，函数m为识别框
概率论中的卷积公式 Ctrl+CV九段手概率论卷积公式卷积神经网络概率论概率论与数理统计笔记经验分享
目录简介卷积公式的推导与应用实际例子卷积公式在多维情况下的推导和应用是什么？多维卷积的推导多维卷积的应用延伸拓展如何使用卷积公式解决实际问题，例如信号处理中的噪声消除？在统计学中，卷积公式是如何应用于样本量估计和假设检验的？卷积公式在量子力学中的应用有哪些例子？如何证明卷积公式对于独立随机变量之和的概率密度函数的重要性？简介在概率论中，卷积公式是用于计算两个独立随机变量之和的概率密度函数的重要工具
亦菲喊你来学机器学习（14） --贝叶斯算法方世恩机器学习算法人工智能 python scikit-learn
文章目录贝叶斯一、贝叶斯定理二、贝叶斯算法的核心概念三、贝叶斯算法的优点与局限优点：局限：四、构建模型训练模型测试模型总结贝叶斯贝叶斯算法（Bayesianalgorithm）是一种基于贝叶斯定理的机器学习方法，主要用于估计模型参数和进行概率推断。以下是对贝叶斯算法的详细解析：一、贝叶斯定理贝叶斯定理是概率论中的一个基本定理，它描述了条件概率之间的关系。该定理的数学表达式为：P(A∣B)=P(B)
AI大模型副业变现之路，有技术就有收入！ AI大模型-王哥人工智能 AI大模型大模型大模型学习大模型教程大模型入门
在当今时代，AI大模型的应用越来越广泛，利用这些技术开展副业赚钱已成为可能。以下是一份详细的指南，帮助你了解需要学习的内容以及如何操作。一、需要学习的内容基础知识储备（1）数学知识：线性代数、概率论与数理统计、微积分等，这些是理解AI算法的基础。（2）编程技能：掌握Python编程语言，因为Python在AI领域有丰富的库和框架支持。（3）机器学习原理：了解常见的机器学习算法，如线性回归、决策树、
小琳 AI 课堂：机器学习小琳ai 小琳AI课堂人工智能机器学习
嘿，朋友们！欢迎来到小琳AI课堂机器学习：如同让计算机拥有超能力的神奇魔法机器学习，这门超酷的多领域交叉学科，居然融合了概率论、统计学、逼近论、凸分析、算法复杂度理论等等好多学科。它的关键就在于让计算机凭借数据和算法去学习，然后像个小超人似的，拥有预测和决策的超强能力！从技术实现的层面来讲，主要分成监督学习、无监督学习和强化学习这三大类别监督学习：在有标记的数据集上展开学习。打个比方哈，根据已知的
计算机保研/考研面试题——数学篇安晴晚风计算机保研/考研专业课面试考研面试
笔者在2023年参加了部分985和华五计算机夏令营和预推免面试，遇到了不少数学问题，以下是笔者的一些总结，从高数、线代、概率论三个方面讨论。（对保研er和考研er均适用，如需要其他学科的问题请关注我~）相关文章：计算机保研/考研面试题——数据结构与算法篇-CSDN博客计算机保研/考研面试题——操作系统篇-CSDN博客计算机保研/考研面试题——计算机网络篇-CSDN博客计算机保研/考研面试题——编程
中心极限定理不倒的不倒翁先森概率论
中心极限定理（CentralLimitTheorem，CLT）是概率论中的一个重要定理，它说明了在某些条件下，独立随机变量的和（或平均值）趋向于正态分布的性质。具体来说，中心极限定理可以描述为：定理表述：设(X1,X2,…,Xn)(X_1,X_2,\dots,X_n)(X1,X2,…,Xn)是一组相互独立、服从相同分布的随机变量，其数学期望为μ\muμ，方差为σ2\sigma^2σ2（有限且不为零
2019-03-20记录及学习计划更正逆风飞翔的鸟
今天早晨早早的就坐上了返回学校的高铁，自己复习的进度稍慢了一些，不过没关系，这几天再追回来，最近发现虽然自己数学的做题能力有所提升，但是熟练程度还差很多，所以接下来高等数学要多做题，线性代数基础已经复习完毕，不能丢下，每天要做一定量的练习来保持住自己的水平。概率论与数理统计自己感觉有些困难，需要从课本开始认真的复习。关于英语我已经用百词斩背了有400左右的单词了，但是不是很扎实，所以自己要提升自己
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
2022-05-14 败者食尘_40a0
本文结构速览：一、SQL题二、机器学习&概率论三、开放性问题01SQL题面试真题：现有一张用户签到表（user_sign_d）,标记用户每日是否签到，表结构如下sign_date:日期user_id:用户IDif_sign:当日是否签到,1表示签到，0表示未签到问题①：请计算截止到当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到的天数）输出表结构如下：user_id:
深度学习如何入门？ nanshaws yolov5 深度学习
深度学习是机器学习的一个子领域，它基于人工神经网络的研究。入门深度学习可以分为以下几个步骤：基础知识准备：（1）掌握基础数学知识，特别是线性代数、概率论和统计学、微积分。（2）学习编程语言，Python是目前最流行的深度学习语言，因其简洁易学且有大量的库支持。（3）了解机器学习基础，包括监督学习和非监督学习的概念、模型评估与选择等。学习深度学习理论：（1）理解神经网络的基本组成，如神经元、激活函数
【个人学习笔记】概率论与数理统计知识梳理【五】已经是全速前进了概率论
文章目录第五章、大数定律及中心极限定理一、大数定律1.1基本概念1.2弱大数定理二、中心极限定理独立同分布的中心极限定理定理总结第五章、大数定律及中心极限定理写博客比想象中费劲得多，公式得敲好久，所以只得随缘更更了，想写一些机器学习相关的东西，但是强迫症又不允许我把这个扔掉不管，我太难了Orz这一节的内容比较深，即使我是一个喜欢数学的工科生，也没有精力再去深究了，各式各样的大数定律及中心极限定理我
机器学习笔记 rl染离机器学习笔记人工智能
什么是机器学习：机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。机器学习有下面几种定义：（1）机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。（2）机器学习是对能通过经验自动改进的计算机算法的研究。（3）
机器学习是什么 MarkHD 机器学习
机器学习是一门跨学科的学科，它使用计算机模拟或实现人类学习行为，通过不断地获取新的知识和技能，重新组织已有的知识结构，从而提高自身的性能。机器学习涉及多个学科，如概率论、统计学、逼近论、凸分析、算法复杂度理论等。机器学习的主要任务是指导计算机从数据中学习，然后利用经验来改善自身的性能，不需要进行明确的编程。机器学习算法会不断进行训练，从大型数据集中发现模式和相关性，然后利用这些模式来预测新数据的结
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本