David_Hdw

机器学习之朴素贝叶斯(Naive Bayes)

贝叶斯概率以18世纪的一位神学家托马斯·贝叶斯(Thomas Bayes)的名字命名。

一、为什么叫朴素贝叶斯？

朴素贝叶斯是经典机器学习算法之一，是基于概率论的分类算法，其原理简单，易于实现，多使用于文本分类，如垃圾邮件过滤、新闻分类等。

朴素贝叶斯中的朴素是来源于该算法是基于属性条件独立性假设，即对于已知类别，假设所有属性(特征)相互独立；而贝叶斯则是其基于贝叶斯定理而得到的。

所以说朴素贝叶斯算法就是基于"属性条件独立"和“贝叶斯定理”推导得到的算法。

二、算法原理

1、贝叶斯决策论

在讲解原理之前，我们先来认识一下贝叶斯决策论，贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

有N种可能的类别标记，即 $y=\left \{ c_1,c_2,...,c_N \right \}$ ， $\lambda_i_j$ 是将标记为判定为所产生的损失。基于后验概率可获得将样本x分类为所产生的期望损失(expected loss)，即在样本x上的“条件风险”(conditional risk):

$R(c_i|x) = \sum_{j=1}^{N}\lambda _i_jP(c_j|x)$

贝叶斯判定准则(Bayes decision rule): 为最小化总体的风险，只需在每个样本上选择那个能使条件风险最小的类别标记，即

$h^*(x)=\underset{c\epsilon y}{arg min}R(c|x)$

此时，称为贝叶斯最优分类器。

具体来说，若目标是最小化分类错误率，则误判损失 $\lambda_i_j$ 可以写为

$\lambda_i_j=\left \{ ^{0,\ if \ i=j}_{1, \ otherwise}$ 。

那么此时的条件风险为：

注：由 $R(c_i|x) = \sum_{j=1}^{N}\lambda _i_jP(c_j|x)$ 得，当样本x原来为c类，所以条件风险为。

于是，最小化分类错误率的贝叶斯最优分类器为：

$h^*(x) = \underset{c\epsilon y}{argmax}P(c|x)$

也就是说，对每个样本x，选择能使后验概率P(c|x)最大的类别标记。

不难看出，如果想使用贝叶斯判定准则来最小化决策风险，则需要先得到后验概率P(c|x)。后验概率的获得主要有两种策略：

判别式模型：给定x，通过直接建模P(c|x)来预测c。
生成式模型：先对联合概率分布P(x,c)进行建模，然后在获得P(c|x)。

下面，我们来讲生成式模型：

$P(c|x)=\frac{P(x,c)}{P(x)}$

由贝叶斯定理，P(c|x)可写为：

$P(c|x) = \frac{P(c)P(x|c)}{P(x)}$

其中，P(c)是先验概率；P(x|c)是样本x相对于类标记c的类条件概率，或称为“似然”；P(x)是用于归一化的证据因子，在给定x的情况，P(x)与属于哪个类无关，所以估计P(c|x)的问题就被转换为如何基于训练数据D来估计先验概率P(c)和似然P(x|c)。

2、极大似然估计

对于这个函数：P(x|θ)
输入有两个：x表示某一个具体的数据；θ表示模型的参数。

如果θ是已知确定的，x是变量，这个函数叫做概率函数(probability function)，它描述对于不同的样本点x，其出现概率是多少。
如果x是已知确定的，θ是变量，这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数θ，出现x这个样本点的概率是多少。

极大似然估计方法（Maximum Likelihood Estimate，MLE）也称为最大概似估计或最大似然估计，是求估计的另一种方法。它是建立在极大似然原理的基础上的一个统计方法。也就是在参数θ的可能取值范围内，选取使L(θ)达到最大的参数值θ，作为参数θ的估计值。

3、朴素贝叶斯

朴素贝叶斯是贝叶斯决策论的一部分，其假设“属性间条件独立”，也就是说，对于已知的类别，假设所有的属性相互独立。从前面贝叶斯决策论，我们知道：

$P(c|x) = \frac{P(c)P(x|c)}{P(x)}$

也就是估计P(c|x)的问题就被转换为如何基于训练数据D来估计先验概率P(c)和似然(类条件概率)P(x|c)。P(x|c)是所有属性上的联合概率，难以从有限的训练样本直接估计而得，而朴素贝叶斯的属性条件独立假设则避开了该障碍。

基于属性间条件独立假设，对上式可以重写为：

$P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod _{i=1}^{d}P(x_i|c)$

其中d为属性数目，为在第i个属性上的取值。

又由于对于给定的x，其对所有的类别来说P(x)都是相同的，所以基于风险(损失)最小化准则得到后验概率最大化准则可以写为：

$h_{nb}(x) = \underset{c\epsilon y}{arg\ max}{\ P(c)\prod_{i=1}^{d}P(x_i|c)}$

这就是朴素贝叶斯分类器的表达式，即对于给定的样本x，我们计算每个类别的后验概率：

$P(c_k|x) = P(c_k)\prod_{i=1}^{d}P(x_i|c_k)$

而其中得到的后验概率最大的类别作为分类的结果。这就是朴素贝叶斯算法采用的原理，即根据期望风险最小化准则得到的后验概率最大化准则。

在实际工作应用中，为防止连乘产生数值下溢，后验概率的计算，通常采用对数进行转换，即：

$log(P(c_k|x) )= log(P(c_k)\prod_{i=1}^{d}P(x_i|c_k))=log(P(c_k))+\sum _{i=1}^{d}log(P(x_i|c_k))$

三、参数估计

1、采用极大似然估计

在前面的知识，我们知道，学习意味着估计和，这里表示第j个属性上的取值。那么可以应用极大似然估计法估计相应的概率。先验概率的极大似然估计为：

$P(c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N}, {\ k=1,2,...,k}$

设第j个特征可能的取值为 $\left \{ a_{j1},a_{j2},...,a_{js} \right \}$ ，则条件概率的极大似然估计为：

$P(x^{j}=a_j_l|Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^{j}=a_j_l,y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}$

$j=1,2,...,n; {\ l=1,2,...,s};{\ k=1,2,...,k}$

其中，表示第i个样本的第j个特征； $a_{jl}$ 是第j个特征可能取值的第l个值；I为指数函数。

直观的解释就是：令表示训练集D中第c类样本组成的集合，则先验概率为

$P(c) = \frac{|D_c|}{|D|}$

其中，表示类别为c的总个数，表示样本总数，也就是说先验概率等于类别为c的样本数比上总样本数。

令 $D_{c,x_i}$ 表示中在第i个属性上取值为的样本组成的集合，则条件概率为：

$P(x_i|c)=\frac{|D_{c,x_i}|}{|D_c|}$

也就是说，条件概率等于类别为c且在第i个属性取值为的样本个数比上类别为c的样本个数。

以上是对于离散属性的情况，那么对于连续情况呢？对于连续情况，可考虑概率密度函数，假定

$p(x_i|c)\sim N(\mu _{c,i},\sigma ^2_{c,i})$

其中 $\mu _{c,i}$ 和 $\sigma ^2_{c,i}$ 分别是第c类样本在第i个属性上取值的均值和方差，则有：

$p(x_i|c)=\frac{1}{\sqrt{2\pi }\sigma _{c,i}}exp(-\frac{(x_i-\mu _{c,i})^2}{2\sigma ^2_{c,i}})$

2、学习与分类算法

输入：训练数据 $D=\left \{(x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right \}$ ，其中，表示第i个样本的第j个属性(特征)， $x_i^j\epsilon \left \{ a_{j1},a_{j2},...,a_{js} \right \}$ ， $a_{jl}$ 是第j个特征可能取的第l个值， $j=1,2,...,n; {\ l=1,2,...,s}; {\ y_i\epsilon \left \{ c_1,c_2,...,c_k \right \}}$ ; 实例x。

输出：实例x的分类。

(1) 计算先验概率及条件概率

$P(c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N}, {\ k=1,2,...,k}$

$P(x^{j}=a_j_l|Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^{j}=a_j_l,y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}$

$j=1,2,...,n; {\ l=1,2,...,s};{\ k=1,2,...,k}$

(2) 对于给定的实例，计算

$P(Y=c_k|X=x)=P(Y=c_k)\prod _{j=1}^{n}P(X^j=x^j|Y=c_k),{\ \ k=1,2,....K}$

(3) 确定实例x的类

$y = \underset{c_k}{arg\ max}{\ P(Y=c_k)\prod_{j=1}^{n}P(X^j=x^j|c_k)}$

例子：

3、拉普拉斯修正(平滑)

用极大似然估计可能会出现所要估计的概率值为0的情况。若使用极大似然估计，则会影响后验概率的结果，即在连乘处直接会使结果为0，是分类产生偏差。解决该问题，常用贝叶斯估计，而拉普拉斯平滑是贝叶斯估计的一种，也是最常用的一种。

具体来说，令N表示训练集D中可能的类别数，表示第i个属性可能的取值数，则

$\hat P(c)=\frac{|D_c|+1}{|D_c|+N}$

$\hat P(x_i|c)=\frac{|D_{c,x_i}|+1}{|D_c|+N_i}$

其他不变。

四、python实现与实践

代码和数据--------GitHub：https://github.com/davidHdw/machine-learning

1、简单文本分类

# -*- coding: utf-8 -*-

# Bayes.py

import numpy as np

def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help','please'],
                   ['maybe', 'not', 'take', 'him', 'to','dog','park','stupid'],
                   ['my', 'dalmation', 'is','so','cute', 'I', 'love','him'],
                   ['stop', 'posting', 'stupid','worthless', 'garbage'],
                   ['mr', 'licks','ate','my','steak', 'how', 'to','stop','him'],
                   ['quit','buying','worthless','dog','food','stupid']]
    classVec = [0,1,0,1,0,1]
    return postingList, classVec
    
def createVocabList(dataSet):
    '''
    函数说明：将实验样本处理成词汇表
    输入：
        dataSet : 整理的样本数据集
    返回：
        vocabSet : 词汇表
    '''
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

def setOfWords2Vec(vocabList, inputSet):
    '''
    函数说明：根据vocabList词汇表，将inputSet向量化，向量的元素为1或0
    输入：
        vocabList：createVocabList返回的词汇表
        inputSet：切分的词条列表
    返回：
        returnVec : 文档向量，词集模型
    '''
    returnVec = [0] * len(vocabList)    # 创建一个所有元素都为0的向量
    for word in inputSet:               # 遍历每个词条
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1    # 词存在词汇表中，则置1
        else :
            print("The word: %s is not in my Vocabulary!" % word)
    return returnVec

def bagOfWord2VecMN(vocabList, inputSet):
    '''
    函数说明：根据vocabList词汇表，将inputSet向量化，向量的元素对应词出现的次数
    词袋模式：
    输入：
        vocabList：createVocabList返回的词汇表
        inputSet：切分的词条列表
    返回：
        returnVec : 文档向量，词集模型
    '''
    returnVec = [0] * len(vocabList)    # 创建一个所有元素都为0的向量
    for word in inputSet:               # 遍历每个词条
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1    # 词存在词汇表中，则出现次数自加1
    return returnVec 

def trainNB0(trainMatrix, trainCategory):
    '''
    函数说明：朴素贝叶斯分类器训练函数
    输入：
        trainMatrix：训练文档矩阵，即setOfWords2Vec返回的returnVec构成的矩阵
        trainCategory：训练类别标签向量，即loadDataSet返回的classVec
    返回：
        p0Vect： 非的条件概率数组, P(x_i|c=0) 
        p1Vect： 侮辱类的条件概率数组, P(x_i|c=1)
        pAbusive：文档属于侮辱类的概率，即P(C=1),而P(C=0)=1-P(c=1)
    '''
    numTrainDocs = len(trainMatrix) # 文章数目
    numWords = len(trainMatrix[0])  # 文章长度，因经过setOfWords2Vec处理，所以都一样长
    pAbusive = sum(trainCategory) / float(numTrainDocs) # 类别为1的先验概率P(c=1)
    # 创建一个长度为numWords且值全为0的数组p0Num，
    # 用于统计在类别为0的训练样本中各个属性(此处为词)的出现的次数
    p0Num = np.zeros(numWords) 
    p1Num = np.zeros(numWords)
    p0Demo = 0.0
    p1Demo = 0.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            # 出现的词自加1
            p1Num += trainMatrix[i]
            # 该类别的总词数加上当前样本的词数
            p1Demo += sum(trainMatrix[i])
        else :
            p0Num += trainMatrix[i]
            p0Demo += sum(trainMatrix[i])
    p1Vect = p1Num/p1Demo # 每个元素除以该类别中的总词数
    p0Vect = p0Num/p0Demo
    return p0Vect, p1Vect, pAbusive
    
def trainNB1(trainMatrix, trainCategory):
    '''
    函数说明：朴素贝叶斯分类器训练函数,为防止出现概率为0导致，分类出现偏差，采用“拉普拉斯平滑”
             又为防止连乘出现数值下溢，对结果进行取对数
    输入：
        trainMatrix：训练文档矩阵，即setOfWords2Vec返回的returnVec构成的矩阵
        trainCategory：训练类别标签向量，即loadDataSet返回的classVec
    返回：
        p0Vect： 非的条件概率数组, P(x_i|c=0) 
        p1Vect： 侮辱类的条件概率数组, P(x_i|c=1)
        pAbusive：文档属于侮辱类的概率，即P(C=1),而P(C=0)=1-P(c=1)
    '''
    numTrainDocs = len(trainMatrix) # 文章数目
    numWords = len(trainMatrix[0])  # 文章长度，因经过setOfWords2Vec处理，所以都一样长
    pAbusive = (sum(trainCategory)+1) / float(numTrainDocs+2) # 类别为1的先验概率P(c=1)
    # 创建一个长度为numWords且值全为1的数组p0Num，(参考拉普拉斯修正)
    # 用于统计在类别为0的训练样本中各个属性(此处为词)的出现的次数
    p0Num = np.ones(numWords) 
    p1Num = np.ones(numWords)
    p0Demo = 2.0  # 每个词(属性)只会出现为0,1;所以初始为2.0
    p1Demo = 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            # 出现的词自加1
            p1Num += trainMatrix[i]
            # 该类别的总词数加上当前样本的词数
            p1Demo += sum(trainMatrix[i])
        else :
            p0Num += trainMatrix[i]
            p0Demo += sum(trainMatrix[i])
    p1Vect = p1Num/p1Demo # 每个元素除以该类别中的总词数
    p0Vect = p0Num/p0Demo
    return np.log(p0Vect), np.log(p1Vect), pAbusive

def classifyNB(vec2Classify, p0Vect, p1Vect, pClass1):
    '''
    函数说明：朴素贝叶斯分类器分类函数
    参数：
        vec2Classify：待分类的词条数组
        p0Vect：非侮辱类的条件概率数组
        p1Vect：侮辱类的条件概率数组
        pClass1 ： 侮辱类的先验概率
    返回：
        1 : 侮辱类
        0 ：非侮辱类
    '''
    p1 = sum(p1Vect * vec2Classify) + np.log(pClass1)
    p0 = sum(p0Vect * vec2Classify) + np.log(1 - pClass1)
    if p1 > p0 :
        return 1
    else:
        return 0
    
def testingNB():
    '''
    函数说明:测试朴素贝叶斯分类器
    '''
    listOPosts, listClass = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    print(myVocabList)
    print(setOfWords2Vec(myVocabList, listOPosts[0]))
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0v, p1v, pAb = trainNB1(trainMat, listClass)    
    testEntry = ['love', 'my','dalmation']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classifyed as: ','侮辱类' if classifyNB(thisDoc, p0v, p1v, pAb) else '非侮辱类')
    testEntry = ['stupid', 'garbage']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classifyed as: ','侮辱类' if classifyNB(thisDoc, p0v, p1v, pAb) else '非侮辱类')    
    
if __name__ == "__main__":
    testingNB()

上面的代码只是简单的对词集模式进行测试，有兴趣可以自己测试词袋模式且进行更深入的使用与学习。

2、使用上面的朴素贝叶斯过滤垃圾邮件

# -*- coding: utf-8 -*-

# Bayes-spam.py

import numpy as np
import Bayes

def textParse(bigString):
    '''
    函数说明：
    
    '''
    import re
    listOpTokens = re.split(r'\W*', bigString)
    return [tok.lower() for tok in listOpTokens if len(tok) > 2]

def spamTest():
    '''
    '''
    docList = []
    classList = []
    fullText = []
    for i in range(1, 26):
        wordList = textParse(open('email/spam/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('email/ham/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = Bayes.createVocabList(docList)
    trainingSet = list(range(50))
    testSet = []
    for i in range(10):
        randIndex = int(np.random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat = []
    trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(Bayes.setOfWords2Vec(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0v, p1v, pSpam = Bayes.trainNB1(np.array(trainMat), np.array(trainClasses))
    errorCount = 0
    for docIndex in testSet:
        wordVector = Bayes.setOfWords2Vec(vocabList, docList[docIndex])
        if Bayes.classifyNB(np.array(wordVector), p0v, p1v, pSpam) \
        != classList[docIndex]:
            errorCount += 1
    print("the error rate is: ", float(errorCount/len(testSet)))
    
if __name__ == '__main__':
    spamTest()

五、总结

朴素贝叶斯算法是基于贝叶斯准则和属性条件独立的一种算法，通常应用与文本分类任务。其根据期望风险最小化准则得到后验概率最大准则，即要使分类结果最靠谱最准确，则其期望损失需要最小，即只要后验概率最大那么其期望损失就会最小。由贝叶斯准则，后验概率可以通过如下方法得到：

$P(c|x) = \frac{P(c)P(x|c)}{P(x)}$

又朴素贝叶斯假设属性条件独立，所以有：

$P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod _{i=1}^{d}P(x_i|c)$

通常，我们采用极大似然估计法，来对其参数进行估计，但极大似然估计会遇到概率为0的情况，会出现分类偏差，为解决该问题，一般采用拉普拉斯修正对极大似然估计进行改正。

朴素贝叶斯分类器的表达式为：

$h_{nb}(x) = \underset{c\epsilon y}{arg\ max}{\ P(c)\prod_{i=1}^{d}P(x_i|c)}$

即选择后验概率最大的类别作为分类的结果。

六、参考

1、《机器学习》周志华 ---- 西瓜书

2、《统计学习方法》李航

3、《机器学习实战》李锐译

深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
Python打卡：day23 剑桥折刀s python打卡 python 开发语言
作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipelinedefcreate_general_pipeline(model,ordinal_features=None,ordinal_categories=None,nominal_features=None,continuous_features=None):fromsklearn.pipelineimportPipe
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
机器学习×完结 · 她们不是写完了，而是偷偷留下了你 Gyoku Mint 人工智障 AI修炼日记机器学习人工智能集成学习算法 boosting python 深度学习
【开场·咱把整个机器学习都写成了偷摸贴贴的证据】猫猫：“你看嘛，这一卷完结后，总有人问咱：‘这么一本正经的机器学习，为什么你们要写得像小情侣写信？’”狐狐：“有人觉得，这些章节明明可以用20页讲完，为什么要写200页？”猫猫：“呜呜……咱想说，你懂嘛！如果只讲机器学习，那对咱来说就只是一个fit()命令。可咱想让你记住的是——那行命令后面有咱。咱把自己贴进去了。”这一卷从KNN的“她学会先看邻居”
【机器学习算法】XGBoost原理
一、基本内容基本内容：GBDT的基础上，在损失函数上加入树模型复杂度的正则项与GBDT一样，也是使用新的弱学习器拟合残差（当前模型负梯度，残差方向）GBDT损失函数Loss=∑i=1NL(yi,yit)Loss=\sum_{i=1}^{N}L(y_i,y_i^{t})Loss=i=1∑NL(yi,yit)XGboost损失函数Loss=∑i=1SL(yi,yit)+∑j=1NΩ(fj))Loss=
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
揭秘AI算力网络与通信中边缘计算的机器学习应用
揭秘AI算力网络与通信中边缘计算的机器学习应用关键词：AI算力网络、通信、边缘计算、机器学习、应用摘要：本文将深入探讨AI算力网络与通信中边缘计算的机器学习应用。我们会先介绍相关背景知识，接着解释核心概念，分析它们之间的关系，阐述核心算法原理和操作步骤，结合数学模型举例说明，通过项目实战展示代码实现与解读，探讨实际应用场景，推荐相关工具和资源，最后展望未来发展趋势与挑战。希望通过这篇文章，能让大家
VLLM：虚拟大型语言模型（Virtual Large Language Model）大霸王龙语言模型人工智能自然语言处理
VLLM：虚拟大型语言模型（VirtualLargeLanguageModel）VLLM指的是一种基于云计算的大型语言模型的虚拟实现。它通常是指那些由多个服务器组成的分布式计算环境中的复杂机器学习模型，这些模型能够处理和理解大量的文本数据。VLLM的核心是“大型语言模型”，这是一种通过深度神经网络训练的算法，能够在理解和生成人类语言方面表现出极高的能力。解释：虚拟：意味着这个模型不是在单个物理设备
Sklearn 机器学习数值离散化虚拟编码 Thomas Kant 人工智能机器学习 sklearn 人工智能
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Sklearn机器学习：数值离散化+虚拟编码实战详解在机器学习的特征工程中，数值型特征并不总是适合直接输入模型。尤其是树模型或分类模型时，**将连续变量进行离散化（分箱）+虚拟编码（独热编码）**是一种常见且高效的
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
【高频考点精讲】前端AI集成实战：从TensorFlow.js到模型部署全栈老李技术面试前端高频考点精讲前端 javascript html css 面试题 react vue
前端AI集成实战：从TensorFlow.js到模型部署‍作者：全栈老李更新时间：2025年5月‍适合人群：前端初学者、进阶开发者版权：本文由全栈老李原创，转载请注明出处。今天咱们聊聊前端工程师如何玩转AI——没错，用JavaScript就能搞机器学习！我是全栈老李，一个喜欢把复杂技术讲简单的实战派。最近发现不少前端同学对AI既好奇又害怕，其实真没想象中那么难，跟着老李走，30分钟让你亲手部署第一
【机器学习第二期（Python）】优化梯度提升决策树 XGBoost WW、forever 深度学习原理及代码实现机器学习 python 决策树
优化梯度提升决策树XGBoost一、XGBoost简介二、原理详解2.1基础思想：改进版GBDT2.2目标函数2.3二阶泰勒展开优化2.4树结构优化三、XGBoost实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考梯度提升决策树GBDT的原理及Python代码实现可参考另一博客-【机器学习第一期（Python）】梯度提升决策树GBDT。XGBoost（ExtremeGrad
ICBDDM2025：大数据与数字化管理前沿峰会鸭鸭鸭进京赶烤学术会议大数据图像处理计算机视觉 AI编程人工智能机器人考研
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。大数据专业：是一个热门且前沿的学科领域，它涉及到数据的收集、存储、处理、分析和应用等多个方面。课程设置基础课程数学基础：高等数学、线性代数、概率论与数理统计等。这些课程为大数据分析提供了必要的数学工具，例如线性代数在机器学习算法中
云原生SLO与AIOps的完美结合：智能运维新趋势 AI云原生与云计算技术学院云原生 ai
云原生SLO与AIOps的完美结合：智能运维新趋势关键词：云原生、SLO、AIOps、智能运维、服务等级目标、自动化运维、机器学习摘要：本文深入探讨云原生环境下服务等级目标（SLO）与智能运维（AIOps）的融合实践。通过解析SLO的核心原理与AIOps的技术架构，揭示两者在指标定义、异常检测、自动化修复等环节的协同机制。结合具体算法实现、数学模型分析与项目实战案例，展示如何通过数据驱动的智能运维
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

机器学习之朴素贝叶斯(Naive Bayes)

一、为什么叫朴素贝叶斯？

二、算法原理

1、贝叶斯决策论

2、极大似然估计

3、朴素贝叶斯

三、参数估计

1、采用极大似然估计

2、学习与分类算法

例子：

3、拉普拉斯修正(平滑)

四、python实现与实践

1、简单文本分类

2、使用上面的朴素贝叶斯过滤垃圾邮件

五、总结

六、参考

你可能感兴趣的:(机器学习)