书生丶丶

《机器学习实战》学习笔记（三）

文章目录

第四章基于概率论的分类方法:朴素贝叶斯
- 引言
- - 朴素贝叶斯优缺点
  - 朴素贝叶斯的一般过程
- 4 . 1 基于贝叶斯决策理论的分类方法
- 4.2条件概率
- - 贝叶斯公式
- 4.3 使用条件概率来分类
- 4.4 使用朴素贝叶斯进行文档分类
- - 朴素贝叶斯分类器的两个假设
- 4.5使用 Python进行文本分类
- - 准备数据：从文本中构建词向量
  - 词表到向暈的转换函数
  - 训练算法：从词向量计算概率
  - 测试算法：根据现实情况修改分类器
  - 朴素贝叶斯分类函数
  - 贝叶斯分类过程大致概括为：
- 4.6示例：使用朴素贝叶斯过滤垃圾邮件
- - 准备数据：文档词袋模型
  - 准备数据：切分文本
  - 测试算法：使用朴素贝叶斯进行交叉验证
- 4.7 示例：使用朴素贝叶斯分类器从个人广告中获取区域倾向
- - 收集数据
  - - 髙频词与常见结束语去除函数
  - 使用Sklearn构建朴素贝叶斯分类器
  - 输出数据分类结果
- 4.8本章小结

第四章基于概率论的分类方法:朴素贝叶斯

引言

朴素贝叶斯优缺点

优点：在数据较少的情况下仍然有效，可以处理多类别问题。

缺点：对于输入数据的准备方式较为敏感。

适用数据类型：标称型数据

朴素贝叶斯的一般过程

收集数据：可以使用任何方法。
准备数据：需要数值型或者布尔型数据。
分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好。
训练算法：计算不同的独立特征的条件概率。
测试算法：计算错误率。
使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本。

之前的决策树也是这个流程。这个流程机器学习是否是通用的？

4 . 1 基于贝叶斯决策理论的分类方法

现在用 $p 1 (x, y)$ 表示数据点(x,y)属于类别1（用图中用圆点表示的类别）的概率，用 $p 2 (x, y)$ 表示数据点(x,y)属于类别2 ( 图中用三角形表示的类别）的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：

如果p1(x,y)> p2 (x,y), 那么类别为1。
如果於 p2(x,y)> p1(x,y), 那么类别为2

也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。

4.2条件概率

直接看概率论吧!
回忆一下贝叶斯公式。

贝叶斯公式

$\frac{p(c|x)p(c)}{p(x)}$

4.3 使用条件概率来分类

应用贝叶斯准则得到贝叶斯分类准则为：

如果 $p(c_1|x,y)> p(c_2|x,y)$ ,那么属于类别 $c_1$ 。
如果 $p(c_1|x,y)< p(c_2|x,y)$ ,那么属于类别 $c_2$ 。
$p(c_i|x,y) = \frac{p(x,y|c_i)p(c_i)}{p(x,y)}$

使用贝叶斯准则，可以通过巳知的三个概率值来计算未知的概率值。

4.4 使用朴素贝叶斯进行文档分类

观察文档中出现的词，并把每个词的出现或者不出现作为一个特征，这样得到的特征数目就会跟词汇表中的词目一样多。

要得到好的概率分布，就需要足够的数据样本，假定样本数为N。由统计学知，如果每个特征需要N个样本，那么对于10个特征将需要 $N^10$ 个样本，对于包含1000个特征的词汇表将需要 $N^1000$ 个样本,所需要的样本数会随着特征数目增大而迅速增长。

朴素贝叶斯分类器的两个假设

假设特征之间相互独立，那么样本数就可以从 $N^1000$ 减少到1000 x N。

所谓独立（independence）指的是统计意义上的独立，即一个特征或者单词出现的可能性与它和其他单词相邻没有关系。(这种假设并不正确)词语之间的组合是有一定的规律的，像形容词一般是修饰名词，不太可能修饰形容词。
这个假设正是朴素贝叶斯分类器中朴素（naive) 一词的含义。

朴素贝叶斯分类器中的另一个假设是，每个特征同等重要。这个假设也有问题。判断留言板的留言是否得当，只需要看10~20个特征就足以做出判断了，不需要全部看完。

4.5使用 Python进行文本分类

要从文本中获取特征，需要先拆分文本。
这里的特征是来自文本的词条(token), 一个词条是字符的任意组合。可以把词条想象为单词，也可以使用非单词词条，如URL、IP址或者任意其他字符串。然后将每一个文本片段表示为一个词条向量，其中值为1表示词条出现在文档中，0表示词条未出现。

准备数据：从文本中构建词向量

把文本看成单词向量或者词条向量，也就是说将句子转换为向量。考虑出现在所有文档中的所有单词，再决定将哪些词纳人词汇表或者说所要的词汇集合，然后必须要将每一篇文档转换为词汇表上的向量。

词表到向暈的转换函数

代码是参考书里的代码

def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not
    return postingList,classVec

def createVocabList(dataSet):
    vocabSet = set([])  #create empty set
    for document in dataSet:
        vocabSet = vocabSet | set(document) #union of the two sets
    return list(vocabSet)
 
def setOfWords2Vec(vocabList, inputSet):
    #创建列表值全为零
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            #index()在列表中查找某个元素并输出对应的索引值(位置)，
            #这里是在现有列表中找到了，则对应位置值置去
            returnVec[vocabList.index(word)] = 1
        else: print( "the word: %s is not in my Vocabulary!" %word)
    return returnVec

listOPosts,listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
print(myVocabList)
#第一句
print(setOfWords2Vec(myVocabList,listOPosts[0] ))

输出结果如下：

['cute', 'stupid', 'is', 'garbage', 'steak', 'dalmation', 'to', 'dog', 'please', 'mr', 'ate', 'has', 'how', 'take', 'so', 'him', 'licks', 'posting', 'maybe', 'worthless', 'buying', 'flea', 'my', 'not', 'problems', 'I', 'quit', 'food', 'park', 'love', 'stop', 'help']
[0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1]

创建一个字典，然后我们的句子中用到的字，将字典对应位置标记为1 ，没用到的位置标记为0.

训练算法：从词向量计算概率

函数的伪代码如下：

计算每个类别中的文档数目
对每篇训练文档：
	对每个类别：
		如果词条出现文档中―增加该词条的计数值
		增加所有词条的计数值
	对每个类别：
		对每个词条：
			将该词条的数目除以总词条数目得到条件概率
	返回回每个类别的条件概率

代码实现如下：

def trainNB0(trainMatrix,trainCategory):
    #计算训练的文档数目
    numTrainDocs = len(trainMatrix)
    #计算每篇文档的词条数
    numWords = len(trainMatrix[0])
    #文档属于侮辱类的概率，算的是侮辱类样本占总样本的个数
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    
    #ones()以创建任意维度和元素个数的数组，其元素值均为1
    #这里是进行了优化，避免原代码设置为零时，计算出现某一个条件概率为零时，计算结果为零。
    #这个改进被称为拉普拉斯平滑
    #另外一个改进是取了对数，防止计算时出现下溢出。
    #p0Num为非侮辱类情况下的条件概率，（所有的）
    p0Num = ones(numWords); p1Num = ones(numWords)      #change to ones() 
    p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0
    
    for i in range(numTrainDocs):
        #如果是侮辱类
        if trainCategory[i] == 1:
            #p1Num是向量，所有成员一起算
            p1Num += trainMatrix[i]
            #sum(iterable[, start])，sum()最后求得的值 = 可迭代对象里面的数加起来的总和(字典:key值相加)+ start的值
            #统计侮辱类样本单词的个数
            p1Denom += sum(trainMatrix[i])
        #非侮辱类
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    #计算每个单词分别在侮辱类中出现的概率以及非侮辱类中出现的概率
    p1Vect = log(p1Num/p1Denom)          #change to log()
    p0Vect = log(p0Num/p0Denom)          #change to log()
    return p0Vect,p1Vect,pAbusive
    #生成数据列表
postingList,classVec = loadDataSet()
#生成词汇表
myVocabList = createVocabList(postingList)
#存储样本产生的词向量
trainMat = []
#将样本转为词向量，并存储到tarinMat中
for postinDoc in postingList:
    #append(object) 是将一个对象作为一个整体添加到列表中，添加后的列表比原列表多一个元素，
    # 该函数的参数可以是任何类型的对象
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
p0V,p1V,pAb = trainNB0(trainMat, classVec) 

print("p0V"+ str(p0V),end='\n')
print("p1V"+ str(p1V),end='\n')
print("pAb"+ str(pAb),end='\n')

输出结果如下：

测试算法：根据现实情况修改分类器

主要为两点改进，已经在之前的代码中标明了。

要计算多个概率的乘积以获得文档属于某个类别的概率。如果其中一个概率值为0,那么最后的乘积也为0。为降低这种影响，可以将所有词的出现数初始化为1，并将分母初始化为2。
另一个遇到的问题是下溢出，太多很小的数相乘，会超出计算机飙到精度，所以将小数乘积取对数。（Python数据计算log时怎么计算的，转换为log后计算?不然相除后不一样溢出了？还是运算时精度与表达时是不一样的？）

朴素贝叶斯分类函数

#要分类的向量vec2Classify以及使用函数trainNB0计算的到的三个概率
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):

    #贝叶斯公式的分母
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else: 
        return 0


#生成数据列表
postingList,classVec = loadDataSet()
#生成词汇表
myVocabList = createVocabList(postingList)
#存储样本产生的词向量
trainMat = []
#将样本转为词向量，并存储到tarinMat中
for postinDoc in postingList:
    #append(object) 是将一个对象作为一个整体添加到列表中，添加后的列表比原列表多一个元素，
    # 该函数的参数可以是任何类型的对象
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
p0V,p1V,pAb = trainNB0(trainMat, classVec) 

# print("p0V\n"+ str(p0V),end='\n')
# print("p1V\n"+ str(p1V),end='\n')
# print("pAb\n"+ str(pAb),end='\n')

#测试样本1
testEntry = ['love', 'my', 'dalmation']	
#测试样本向量化								
thisDoc = array(setOfWords2Vec(myVocabList, testEntry))				
if classifyNB(thisDoc,p0V,p1V,pAb):
    #执行分类并打印分类结果
    print(testEntry,'属于侮辱类')										
else:
    print(testEntry,'属于非侮辱类')										

#测试样本2
testEntry = ['stupid', 'garbage']							
thisDoc = array(setOfWords2Vec(myVocabList, testEntry))	
if classifyNB(thisDoc,p0V,p1V,pAb):
    print(testEntry,'属于侮辱类')							
else:
    print(testEntry,'属于非侮辱类')

输出结果如下：

['love', 'my', 'dalmation'] 属于非侮辱类
['stupid', 'garbage'] 属于侮辱类

贝叶斯分类过程大致概括为：

将待分类的样本通过词典转换为转换为词向量。词向量表示样本是以有这个单词标记为1，没有标记为零，使用词向量与通过训练样本得到的各单词在侮辱类与非侮辱类中出现的概率的向量相乘并求和得到贝叶斯公式分母中的 $p(x,y|c_i）$ 。

因为通过训练样本得到的概率为log值，所以加上侮辱类的概率的对数值即可得到完整的分母。

通过比较侮辱类与非侮辱类的概率即可得到分类结果。

4.6示例：使用朴素贝叶斯过滤垃圾邮件

准备数据：文档词袋模型

前面每个词的出现与否作为一个特征，这可以被描述为词集模型（set - of - words - model）如果一个词在文档中出现不止一次，这可能意味着包含该词是否出现在文档中所不能表达的某种信息，这种方法被称为词袋模型（set - of - words - model）。

在词袋中，每个单词可以出现多次，而在词集中，每个词只能出现一次。

实现程序如下：

#词袋向量生成
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
        else: print( "the word: %s is not in my Vocabulary!" %word)
    return returnVec

对比词集向量生成，差别只在于

returnVec[vocabList.index(word)] += 1

这里将统计词语出现的次数。

准备数据：切分文本

def textParse(bigString):    #input is big string, #output is word list

    #将特殊符号作为切分标志进行字符串切分，即非字母、非数字
    listOfTokens = re.split(r'\W+', bigString)
    #除了单个字母，例如大写的I，其它单词变成小写
    return [tok.lower() for tok in listOfTokens if len(tok) > 2] 


docList = []; classList = []
#遍历26个txt文件
for i in range(1, 26):                
    #读取每个垃圾邮件，并字符串转换成字符串列表                                  
    wordList = textParse(open(r'Ch04/email/spam/%d.txt' % i, 'r').read())     
    docList.append(wordList)
    #标记垃圾邮件，1表示垃圾文件
    classList.append(1)         
    #读取每个非垃圾邮件，并字符串转换成字符串列表                                        
    wordList = textParse(open(r'Ch04/email/ham/%d.txt' % i, 'r').read())     
    docList.append(wordList)
    #标记非垃圾邮件，1表示垃圾文件 
    classList.append(0)         
#创建词汇表，不重复                                          
vocabList = createVocabList(docList)     
print(vocabList)

输出结果如下：

已经将不重复的单词选择出。

在使用书中提供的代码时，要注意修改一下

listOfTokens = re.split(r'\W+', bigString）

将书中给出的 $“ * ”$ 修改为 $“ + ”$ 号

测试算法：使用朴素贝叶斯进行交叉验证

                                   
def spamTest():
    docList = []; classList = []; fullText = []
    for i in range(1, 26):                                        
        #读取每个垃圾邮件，并字符串转换成字符串列表         
        wordList = textParse(open('Ch04/email/spam/%d.txt' % i, 'r').read())   
        #将单词加到文件列表向量中 
        docList.append(wordList)

        fullText.append(wordList)
        #标记垃圾邮件，1表示垃圾文件
        classList.append(1)                                                
        #读取每个非垃圾邮件，并字符串转换成字符串列表
        wordList = textParse(open('Ch04/email/ham/%d.txt' % i, 'r').read())      
        docList.append(wordList)
        fullText.append(wordList)
        #标记非垃圾邮件，1表示垃圾文件  
        classList.append(0)                         
    #创建词汇表，不重复                         
    vocabList = createVocabList(docList)                                    
    #创建存储训练集的索引值的列表和测试集的索引值的列表
    trainingSet = list(range(50)); testSet = []                     
    #从50个邮件中，随机挑选出40个作为训练集,10个做测试集                              
    for i in range(10):  
        #随机选取索索引值                                                   
        randIndex = int(random.uniform(0, len(trainingSet)))    
        #添加测试集的索引值            
        testSet.append(trainingSet[randIndex])                             
         #在训练集列表中删除添加到测试集的索引值
        del(trainingSet[randIndex])                                        
        #创建训练集矩阵和训练集类别标签系向量  
    trainMat = []; trainClasses = []                    
     #遍历训练集                               
    for docIndex in trainingSet:               
        #将生成的词集模型添加到训练矩阵中                            
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))       
        #将类别添加到训练集类别标签系向量中
        trainClasses.append(classList[docIndex])                            
        #训练朴素贝叶斯模型
    p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))  
    #错误分类计数
    errorCount = 0
    #遍历测试集                                                          
    for docIndex in testSet:                
         #测试集的词集模型                                
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])          
        #如果分类错误
        if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
             #错误计数加1    
            errorCount += 1                                                
            print("分类错误的测试集：",docList[docIndex])
    print('错误率：%.2f%%' % (float(errorCount) / len(testSet) * 100))

spamTest()

输出如下：

分类错误的测试集： ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts']
错误率：10.00%

程序主要内容还是借用之前的贝叶斯分类进行判断。新增的是由于要处理从文档载入的数据，而进行的一些数据操作。

4.7 示例：使用朴素贝叶斯分类器从个人广告中获取区域倾向

收集数据

没有使用书里提供的方式，我参考的是这个博客《《机器学习实战》学习笔记（五）》
参考博客先安装个中文语句切分工具。
下载他的数据集时，要转到GitHub里面去，我一直连接不上。
这有几种解决方式：无法访问 GitHub 几种解决方式
我没用到上面的，我用的是这个——>修改hosts-使用SwitchHosts软件

还有一个要说的是下载的时候要点到仓库首页，点那个code,直接点那个博客链接进去是没有那个code选项的。（第一次使用好坑，折腾半天）

实现代码如下：

def TextProcessing(folder_path):
    #查看folder_path下的文件
    folder_list = os.listdir(folder_path)       
    #训练集                
    data_list = []                                                
    class_list = []

    #遍历每个子文件夹
    for folder in folder_list:
        #根据子文件夹，生成新的路径,join将两个路径合并起来
        new_folder_path = os.path.join(folder_path, folder)       
        #存放子文件夹下的txt文件的列表
        files = os.listdir(new_folder_path)                        

        j = 1
        #遍历每个txt文件
        for file in files:
            #每类txt样本数最多100个
            if j > 100:                                            
                break
            #打开txt文件
            with open(os.path.join(new_folder_path, file), 'r', encoding = 'utf-8') as f:    
                raw = f.read()
            
            #精简模式，返回一个可迭代的generator
            word_cut = jieba.cut(raw, cut_all = False)      
            #generator转换为list      
            word_list = list(word_cut)                            
            #将数据存到data_list中
            data_list.append(word_list)
            #将类别存到数据之后
            class_list.append(folder)
            j += 1
        print(data_list)
        print(class_list)
        #训练集存放地址
folder_path = './Ch04/SogouC/Sample'
TextProcessing(folder_path)

输出切割效果如下：

看到输出已经将词语切割出来了。

数据集网上也找了一些，由于我想借用博客的代码，所以找了半天代码使用的数据集。如果不使用博客代码关于数据集的分割部分，则可以根据我们手里的数据设计合适的数据转换的都拿。

髙频词与常见结束语去除函数

根据去掉结束语包含的常见词，去掉出现频率最高的100个词，得到特征词表。
实现代码：

#读取文件里的内容，并去重
def MakeWordsSet(words_file):
    words_set = set()   
    #打开文件                                         
    with open(words_file, 'r', encoding = 'utf-8') as f: 
        #一行一行读取      
        for line in f.readlines():      
            #去回车                         
            word = line.strip()      
            #有文本，则添加到words_set中                              
            if len(word) > 0:                                   
                words_set.add(word)                               
    return words_set                                             #返回处理结果

#
def words_dict(all_words_list, deleteN, stopwords_set = set()):
    feature_words = []                            #特征列表
    n = 1
    for t in range(deleteN, len(all_words_list), 1):
        if n > 1000:                            #feature_words的维度为1000
            break                               
        #如果这个词不是数字，并且不是指定的结束语，并且单词长度大于1小于5，那么这个词就可以作为特征词
        if not all_words_list[t].isdigit() and all_words_list[t] not in stopwords_set and 1 < len(all_words_list[t]) < 
            feature_words.append(all_words_list[t])
        n += 1
    return feature_words
#文本预处理
#训练集存放地址
folder_path = './Ch04/SogouC/Sample'               
all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path, test_size=0.2)
# print(all_words_list)

#生成stopwords_set
stopwords_file = './Ch04/stopwords_cn.txt'
stopwords_set = MakeWordsSet(stopwords_file)

#根据去掉结束语包含的常见词，去掉出现频率最高的100个词，得到特征词表
feature_words = words_dict(all_words_list, 100, stopwords_set)
print(feature_words)

输出结果：

输出的是作为文本的特征词表，即朴素贝叶斯生成向量时需要的词向量。
后面对测试样本和训练分类时也需要使用词向量，所以进行转化代码如下：

#创建存储训练集的索引值的列表和测试集的索引值的列表
trainingSet = range(len(train_data_list))
testSet = range(len(test_data_list))

#创建训练集矩阵和测试集向量  
trainMat = []; testMat = []                    
#遍历训练集                               
for docIndex in trainingSet:               
    #将生成的词集模型添加到训练矩阵中                            
    trainMat.append(setOfWords2Vec(feature_words, train_data_list[docIndex]))       
    #将类别添加到训练集类别标签系向量中
    # trainClasses.append(train_class_list[docIndex])                            

for docIndex in testSet:               
    #将生成的词集模型添加到训练矩阵中                            
    testMat.append(setOfWords2Vec(feature_words, test_data_list[docIndex]))   
    #将类别添加到训练集类别标签系向量中
    # trainClasses.append(train_class_list[docIndex])

输出结果如下：

看到测试样本与训练样本已经被转为了向量。
这里转换时我没有将训练样本中的非特征值删掉，所以出现了如下输出：

这是在将样本转向量时，我们只去取了特征词所以这些非特征词就被输出了。

使用Sklearn构建朴素贝叶斯分类器

之前分辨侮辱类与非侮辱类的函数这里使用不了，侮辱类与非侮辱类只有两类，这里好多类不能直接使用,要进行修改。
所以我就使用已经有的素贝叶斯分类器。

函数需要的参数我们已经处理好了，这里传递后可以直接使用，最后将测试精度输出

#新闻分类器
def TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list):
    classifier = MultinomialNB().fit(train_feature_list, train_class_list)
    test_accuracy = classifier.score(test_feature_list, test_class_list)
    return test_accuracy

from sklearn.naive_bayes import MultinomialNB
test_accuracy = TextClassifier(trainMat, testMat, train_class_list, test_class_list)

print(test_accuracy)

输出结果如下：

0.5263157894736842

输出数据分类结果

利用朴素贝叶斯分类器MultinomialNB自带的predict（）方法，可以将分类结果输出。
实现代码如下：

classifier = MultinomialNB().fit(train_feature_list, train_class_list)
predict_result=classifier.predict(test_feature_list)
   
index = 0
for test_class in test_class_list:
    print('test class is%s\n' %test_class +'predict result is:%s\n' %str(predict_result[index]))
    index +=1

输出结果如下：

test class为测试样本的类别，predict result为输出的预测结果。

4.8本章小结

本章最主要是引进了贝叶斯概率分类的思想，与实现。主要内容也都是围绕着这一主题展开的，以侮辱类文字识别为实例，实现了对侮辱类文字使用贝叶斯分类的要求。

我认为贝叶斯分类的核心思想是：概率最高的即为对应类别。本章的主要内容是围绕如何去获取各个数据概率实现来展开的。首先是理论推导，推导给出的两个假设，一个是特征之间相互独立，一个是特征之间同样重要，使得贝叶斯分类有了实现的可能。之后便是将实际的文本转换为可以计算的数据的方法。之后便是对数据进行计算得到概率大小。

你可能感兴趣的:(机器学习,学习,人工智能)

细说机器学习算法之ROC曲线用于模型评估 Melancholy 啊机器学习算法人工智能数据挖掘 python
系列文章目录第一章：Pyhton机器学习算法之KNN第二章：Pyhton机器学习算法之K—Means第三章：Pyhton机器学习算法之随机森林第四章：Pyhton机器学习算法之线性回归第五章：Pyhton机器学习算法之有监督学习与无监督学习第六章：Pyhton机器学习算法之朴素贝叶斯第七章：Pyhton机器学习算法之XGBoost第八章：Pyhton机器学习算法之GBDT第九章：Pyhton机器学
（3-5）文生图模型架构：扩散模型码农三叔训练 RAG 多模态)人工智能 python 深度学习大模型文生图多模态
3.5扩散模型扩散模型（DiffusionModels）是一类用于生成图像的深度学习模型，近年来在图像生成任务中取得了显著的进展。扩散模型的基本思想是通过逐步添加噪声到数据中，然后学习从噪声中恢复原始数据的过程。3.5.1扩散模型的基本概念扩散模型是一种基于随机过程的生成模型，通过逐步添加和去除噪声，实现从随机噪声到高质量数据的转化，其独特的训练和生成机制使其在图像生成领域表现出色。1.扩散过程扩
【C++】一文带你学完 C++【完整版-附代码示例】 Ustinian_310 c++开发语言
本文篇幅较长，几乎涵盖了权威C语言教程【CppPrimerPlus】的所有可用知识点，建议点赞收藏关注方便后续阅读。附注：建议学完一个知识点后，同步进行编程练习以便于巩固掌握知识点；编程学习是重理论更重实践的一个过程，唯有多写多练才能快速掌握C++全教程正文开始0.hello.cpp【经典入门程序】#includeintmain(){std::cout>num;std::coutvoidhello
深入剖析 Scikit-learn 中的 LogisticRegression：参数调优指南夜色呦 scikit-learn 机器学习人工智能
LogisticRegression是一种广泛应用于二分类问题的机器学习算法。在scikit-learn库中，LogisticRegression类提供了一个高效且易于使用的实现。本文将深入探讨LogisticRegression的各种参数，并展示如何通过调整这些参数来优化模型的性能。1.LogisticRegression简介LogisticRegression通过使用逻辑函数将线性回归的输出映
Python从0到100（八十六）：神经网络-ShuffleNet通道混合轻量级网络的深入介绍是Dream呀 Python python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
侯捷 C++ 课程学习笔记：深入理解 C++ 核心技术与实战应用不能只会打代码其他 java jvm 开发语言侯捷 C++课程学习笔记
目录引言第一章：C++基础回顾1.1C++的历史与发展1.2C++的核心特性1.3C++的编译与执行第二章：面向对象编程2.1类与对象2.2构造函数与析构函数2.3继承与多态第三章：泛型编程与模板3.1函数模板3.2类模板3.3STL容器与算法第四章：高级特性4.1智能指针4.2移动语义与右值引用4.3Lambda表达式第五章：实战应用5.1项目结构设计5.2性能优化5.3调试与测试第六章：学习心
快速学习安装使用etcd 蓝胖子不是胖子学习 etcd 数据库
1.什么是etcd？etcd是一个分布式键值存储系统，主要用于分布式系统的配置管理和服务发现。它提供了可靠的数据存储，etcd可以用来构建高可用的分布式键值数据库，根据官网介绍并且支持分布式锁、Leader选举等功能，通常被用作微服务架构中的注册中心。在目前go的大部分组件还有框架中都被采用为注册中心组件相当于zookper和redis2.安装etcd2.1.在本地安装etcd2.1.1.Linu
cesium学习 qq_45660256 前端
cesium学习一、Cesium初始化CesiumWidget才是核心类\color{red}CesiumWidget才是核心类CesiumWidget才是核心类定义assessTokenCesium.Ion.defaultAccessToken='在Cesium官网中申请的token'实例化cesiumArcGIS影像图层constesri=newCesium.ArcGisMapServerIm
经典SQL面试10题（附答案）智慧化智能化数字化方案 sql
一、提要作为一名数据工作人员，SQL是日常工作中最常用的数据提取&简单预处理语言。因为其使用的广泛性和易学程度也被其他岗位比如产品经理、研发广泛学习使用，本篇文章主要结合经典面试题，给出通过数据开发面试的SQL方法与实战。以下题目均来与笔者经历&网上分享的中高难度SQL题。二、解题思路简单——会考察一些groupby&limit之类的用法，或者平时用的不多的函数比如rand()类；会涉及到一些表之
机器学习笔记 - 将音频转换为图像进行分类的机器学习模型坐望云起深度学习从入门到精通机器学习深度学习语音识别光谱图 Whisper
一、简述语音识别技术是将音频信号转化为文本的过程。其基本原理如下：1.音频录制：首先需要对口语发音进行录制，并将其转化为数字形式的音频文件。2.预处理：对音频信号进行预处理，包括去除杂音干扰、增加音频的信噪比以及消除不必要的语音、噪声等。3.特征提取：特征提取是语音信号处理的一个重要部分，通过对音频数据进行分析，提取其中特有的频率、音调、幅度等数学特征，并转化成数字特征。4.模型训练：在特征提取完
Cesium ArcGisMapServerImageryProvider API 介绍 WebGISer_白茶乌龙桃 Cesium关键API学习 javascript 开发语言 ecmascript
作为一名GIS研究生，WebGIS技术无疑是我们必学的核心之一。说到WebGIS，要提的就是Cesium——这个让3D地球可视化变得简单又强大的工具。为了帮助大家更好地理解和使用Cesium，我决定把我自己在学习Cesium文档过程中的一些心得和收获分享给大家。大家一起交流，一起进步！在Cesium中，ArcGisMapServerImageryProvider是一个非常有用的API，它允许开发者
深入学习华为IPD流程之华为-PDT经理角色认知培训教材智慧化智能化数字化方案项目经理售前工程师技能提升学习华为华为IPD流程 pdt经理华为IPD ipd产品研发 IPD项目管理
本文介绍了PDT经理的角色认知，包括其在IPD体系中的位置、基本角色定位、关键管理活动、能力模型和评估方法以及培养路径。文章指出PDT经理是重量级产品开发团队的管理者，负责产品的商业成功和跨功能部门合作，通过绩效管理加强团队凝聚力，对商业结果负责。重点内容：1.PDT经理角色重要，负责产品商业成功和跨功能部门合作。2.关键管理活动包括制定产品策略、管理交付、提升客户满意度等。3.PDT经理需具备战
前端学习-事件解绑，mouseover和mouseenter的区别(二十九) marshalVS 前端学习
目录前言解绑事件语法鼠标经过事件的区别鼠标经过事件示例代码两种注册事件的区别总结前言人道洛阳花似锦，偏我来时不逢春解绑事件on事件方式，直接使用null覆盖就可以实现事件的解绑语法btn.onclick=function(){alert('点击了')}btn.onclick=null;constben=document.querySelector('button');ben.addEventLis
Python：函数也是对象 Alidme python 开发语言
寒假学习打卡第十七天今天补做了一下MIT6.100L的课后作业，明天就可以开新课了。顺便整理了一下Python里面的一个重要概念：函数也是对象1、函数名可以赋值到其他变量defadd(a,b):returna+bx=10y=5print(add(x,y))#15a_plus_b=addprint(a_plus_b(x,y))#15在以上代码，我们将add函数赋值给a_plus_b这个变量，此时a_
毕业设计项目深度学习人体目标检测 bee_dc 毕业设计毕设大数据
1简介今天学长向大家介绍一个机器视觉的毕设项目，基于深度学习的人体目标检测算法研究与实现项目运行效果：毕业设计深度学习行人目标检测系统项目分享:见文末!2目标检测概念普通的深度学习监督算法主要是用来做分类，如图1所示，分类的目标是要识别出图中所示是一只猫。在ILSVRC（ImageNetLargeScaleVisualRecognitionChallenge)竞赛以及实际的应用中，还包括目标定位和
Hindsight Experience Replay (HER) 算法 C7211BA 算法
HindsightExperienceReplay(HER)算法简介HindsightExperienceReplay(HER)是一种强化学习中的技术，旨在解决稀疏奖励问题，特别适用于目标导向的任务（例如机器人控制、物体抓取等）。它的基本思想是：即使在一个回合中任务失败，我们仍然可以从中获得有效的学习经验，通过“事后推断”（hindsight）来重构目标和奖励。关键概念目标导向任务：这些任务有明确
A3C（Asynchronous Advantage Actor-Critic）算法 C7211BA 算法
A3C（AsynchronousAdvantageActor-Critic）是一种强化学习算法，它结合了Actor-Critic方法和异步更新（AsynchronousUpdates）技术。A3C是由GoogleDeepMind提出的，并在许多强化学习任务中表现出色，特别是那些复杂的、需要并行处理的环境。A3C主要解决了传统深度强化学习中的一些问题，如训练稳定性和数据效率问题。A3C算法的关键点A
【人工智能】基于Python的机器翻译系统，从RNN到Transformer的演进与实现蒙娜丽宁 Python杂谈人工智能人工智能 python 机器翻译
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界机器翻译（MachineTranslation,MT）作为自然语言处理领域的重要应用之一，近年来受到了广泛的关注。在本篇文章中，我们将详细探讨如何使用Python实现从传统的循环神经网络（RNN）到现代Transformer模型的机器翻译系统。文章将从机
备战美赛！2025美赛数学建模C题模拟预测！用于大家练手模拟！灿灿数模数学建模
完整的思路代码模型见文末2025美赛数学建模C题模拟题：城市交通拥堵指数的预测与管理策略背景随着全球城市化进程的加快，交通拥堵问题成为城市发展的重要挑战之一。交通拥堵不仅影响居民出行效率，还增加了能源消耗和碳排放。近年来，各大城市开始尝试通过实时数据监控和人工智能技术对交通拥堵进行预测和管理。然而，由于城市交通系统的复杂性，现有方法在实际应用中仍面临诸多挑战。任务作为一名数据分析专家，你的任务是基
python 求导实现_python – NumPy中的Softmax导数接近0(实现) 非凡运营笔记 python 求导实现
这是如何以更加矢量化的numpy方式计算softmax函数的导数的答案.然而,偏导数逼近零的事实可能不是数学问题,并且只是学习率或复杂深度神经网络的已知死亡权重问题.像ReLU这样的图层有助于防止后一问题.首先,我使用了以下信号(仅复制您的上一个条目),使其成为4个样本x3个特征,因此更容易看到尺寸发生了什么.>>>signal=[[0.3394572666491664,0.30890680539
（尚硅谷 java 学习 b 站大学版）Day11 面向对象基础知识初入门亢从文_Jackson java 学习 python
四、面向对象(上)终于到面向对象了，Java语言的重中之重奥利给！！！Java面向对象学习的三条主线：1、Java类及类的成员：属性、方法、构造器；代码块内部类2、面向对象三大特征：封装、继承、多态性、(抽象性)3、其他关键字：this\super\static\final\abstract\interface\package…4.1面向过程（POP）与面向对象(OOP)面向过程：强调是功能行为，
AI计算的未来：中心化与去中心化的博弈智识微光Intelligence 人工智能去中心化区块链
引言人工智能（AI）技术的迅猛发展正在全球计算格局中。最新发布的DeepSeekr1模型，以远低于传统大模型的成本实现了相当水平的推理能力，甚至能够在工作站上本地运行。一次突破AI计算正在经历从中心化（云计算）到去中心化（本地推理）的重大转变。这种变化不仅影响AI产业的商业模式，还可能构建全球计算基础设施、经济利益格局，并加速人工超级智能（ASI）的到来。因此，本文将探讨人工智能训练成本的降低、推
2025数学建模美赛C题【Models for Olympic Medal Tables】第一问步入烟尘 2025数学建模美赛C题 2025数学建模美赛数学建模奥运会历史奖牌
本文为个人解题笔记，仅供参考学习。本文C题的第一问。其他问题均在本专栏内，订阅一次，全部可见。文章目录问题1解题全流程解题完整过程：建立预测奥运会奖牌数的数学模型1.数据分析与清理1.1数据来源与结构1.2数据清理2.探索性数据分析(EDA)2.1国家奖牌分布趋势2.2奖牌与赛事数量的关系2.3主办国优势分析3.模型建立3.1奖牌数预测模型3.2奖牌首次获得预测模型3.3奖牌分布与赛事类型关联模型
2025年美国大学生数学建模竞赛C题思路(对每题分析) FFMXjy 数学建模学习-传统算法机器学习深度学习系列课程数学建模美赛美国大学生数学建模
2025年美国大学生数学建模竞赛C题思路开发奖牌数预测模型1.目标：建立一个模型来预测每个国家的奖牌数，特别是金牌和总奖牌数。步骤：2.使用提供的summerOly_athletes.csv和summerOly_medal_counts.csv数据。3.清理数据，处理缺失值和异常值。4.提取有用的特征，如国家、年份、项目、奖牌类型等。5.选择适当的机器学习算法，如线性回归、随机森林或梯度提升树。6
DeepSeek 推出全新推理模型 R1-Lite 预览版三花AI 三花AI 人工智能
DeepSeek全新研发的推理模型预览版DeepSeek-R1-Lite现已正式上线网页版。R1系列模型采用强化学习训练，推理过程中包含大量反思和验证，思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上，取得了媲美o1-preview的推理效果。目前，DeepSeek-R1-Lite仍处于迭代开发阶段，仅支持网页使用，暂不支持API调用。官方表示，正式版DeepSeek-R1模
探索未来AI：飞桨大模型套件PaddleFleetX引领技术新高度窦育培
探索未来AI：飞桨大模型套件PaddleFleetX引领技术新高度PaddleFleetX飞桨大模型开发套件，提供大语言模型、跨模态大模型、生物计算大模型等领域的全流程开发工具链。项目地址:https://gitcode.com/gh_mirrors/pa/PaddleFleetX在人工智能的快速发展中，大模型已经成为推动技术创新的重要力量。如今，我们有幸向您推荐一个全新的开源项目——Paddle
跨平台物联网漏洞挖掘算法评估框架设计与实现文献综述之GMN XLYcmy 漏洞挖掘物联网网络安全漏洞挖掘跨架构静态检测图神经网络项目报告
2.4Gemini和GMN我们采用了两种方式：Gemini和GMN。2.4.2GMN图神经网络（GraphNeuralNetworks-GNNs）是一种用于学习结构化数据及相关预测问题的方法。节点的表示被用于节点分类或生成图向量再用于分类。GMN模型针对图的相似性学习问题，提出了一种使用GNNs将图嵌入到向量空间，并通过交叉图注意机制来计算相似度分数以关联图之间的相似性的模型。GMN模型不是独立地
【TVM教程】为 Mobile GPU 自动调优卷积网络 HyperAI超神经 TVM 人工智能机器学习 TVM 编程编译器 GPU CPU
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
Python-基于mediapipe,pyautogui,cv2和numpy的电脑手势截屏工具（进阶版）闪云-微星计算机视觉 python 开发语言 opencv pycharm 计算机视觉 windows numpy
前言：在我们的日常生活中，手机已经成为我们每天工作，学习，生活的一个不可或缺的部分。众所周知：为了我们的使用方便，手机里面的很多功能非常人性化，既便捷又高效，其中就有手机的截屏方式，它们花样繁多，如三指截屏，手势截屏等。那么怎么在电脑里面也实现这个功能呢？（虽然我们知到电脑也有快捷的截屏方式-Ctrl+Shift+S。但是很明显，这依然不够快捷，因为这至少需要用户的两次手动操作）。那么废话不多说，
深度学习篇---数据存储类型 Ronin-Lotus 深度学习篇深度学习人工智能学习笔记 C Python 数据类型
文章目录前言第一部分：C语言中的数据存储类型1.char（通常是8位）优点缺点2.short（通常是16位）优点缺点3.int（通常是32位）优点缺点4.long（通常是32位或64位）优点缺点5.longlong（通常是64位）优点缺点6.float（通常是32位）优点缺点7.double（通常是64位）优点缺点第二部分：Python中的数据存储类型1.int（整数类型）优点缺点2.float（
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

《机器学习实战》学习笔记（三）

文章目录

第四章 基于概率论的分类方法:朴素贝叶斯

引言

朴素贝叶斯优缺点

朴素贝叶斯的一般过程

4 . 1 基于贝叶斯决策理论的分类方法

4.2条件概率

贝叶斯公式

4.3 使用条件概率来分类

4.4 使用朴素贝叶斯进行文档分类

朴素贝叶斯分类器的两个假设

4.5使 用 Python进行文本分类

准备数据：从文本中构建词向量

词表到向暈的转换函数

训练算法：从词向量计算概率

测试算法：根据现实情况修改分类器

朴素贝叶斯分类函数

贝叶斯分类过程大致概括为：

4.6示例：使用朴素贝叶斯过滤垃圾邮件

准备数据：文档词袋模型

准备数据：切分文本

测试算法：使用朴素贝叶斯进行交叉验证

4.7 示例：使用朴素贝叶斯分类器从个人广告中获取区域倾向

收集数据

髙频词与常见结束语去除函数

使用Sklearn构建朴素贝叶斯分类器

输出数据分类结果

4.8本章小结

你可能感兴趣的:(机器学习,学习,人工智能)

第四章基于概率论的分类方法:朴素贝叶斯

4.5使用 Python进行文本分类