AI_Study

机器学习实战_Python3.7_朴素贝叶斯算法

关于算法原理可参照：朴素贝叶斯算法原理_简单示例描述

使用 Python3.7 编译，修正了一些语法和格式问题。

文本分类实验

训练集为手动输入的小型训练集：

训练集
X（特征：词条组成的集合）	Y（Label：是否侮辱性）
`['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']`	0
`['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid']`	1
`['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him']`	0
`['stop', 'posting', 'stupid', 'worthless', 'garbage']`	1
`['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him']`	0
`['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']`	1

整个程序设计的函数比较多，这里分开来讲解。

首先导入 Numpy（本程序只需要 Numpy）：

from numpy import *

STEP1

创建训练集，并将文本数据进行向量化处理：

#加载训练集
def loadDataSet():
    #每个数据进行词条切分，以单词为元素组成列表
    #将 6 个数据汇总构成训练集特征
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    #标识 6 个数据的 label
    # 0 代表正常言论，1 代表侮辱性言论
    classVec = [0,1,0,1,0,1]
    return postingList,classVec

#汇总词条列表的所有元素并去重
#输入变量 dataSet 为词条列表（训练集特征）的集合
def createVocabList(dataSet):
    #创建一个空的 set（Python 的一个数据结构：无序不重复的元素集）
    vocabSet = set([])
    for document in dataSet:
        #遍历 dataSet 的元素，合并到 vocabSet（重复元素自动过滤）
        vocabSet = vocabSet | set(document)
    #转换为列表形式，返回
    return list(vocabSet)

#记录 inputSet 中的元素出现在 vocabList 中的情况
#输入变量 vocabList 为经过去重处理的训练集中所有的单词组成的列表
#输入变量 inputSet 为待统计（其中词汇出现在 vocabList 中情况）的列表
def setOfWords2Vec(vocabList, inputSet):
    #创建一个和 vocabList 等长的向量，所有元素置 0
    returnVec = [0]*len(vocabList)
    #遍历 inputSet，如果出现 vocabList 中包含的单词，则将 returnVec 中对应位置的元素置 1
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

第一个函数生成训练集，第二个函数对训练集处理，生成包含训练集所有单词（不重复）的列表，共 32 个单词：

['problems', 'how', 'dog', 'ate', 'help', 'so', 'him', 'worthless', 'I', 'steak', 'stupid', 'not', 'park', 'my', 'garbage', 'has', 'please', 'take', 'dalmation', 'to', 'posting', 'cute', 'quit', 'flea', 'is', 'mr', 'food', 'licks', 'stop', 'maybe', 'love', 'buying']

Process finished with exit code 0

利用第三个函数处理 6 个训练集数据，可以将训练集向量化（后续对于测试数据也会做同样的处理，生成向量化数据）：

[[0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0], 
[1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0], 
[0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0], 
[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0], 
[0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1], 
[0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0]]

Process finished with exit code 0

STEP2

根据算法公式：

P(c1 | w) = P(w | c1) * P(c1) / P(w)
P(c2 | w) = P(w | c2) * P(c2) / P(w)

两者分母相同，故只需考虑分子，P(c1)、P(c2)可以直接计算得出，P(w | c1)、P(w | c2) 还需要知道测试数据的向量化表示，若测试数据的单词有 n 个（包含在测试集所有的单词中，且不重复计数），则向量 W 可表示为（w1, w2, ……, wn）。

计算 P(c1)、P(c2) ，并为 P(w | c1)、P(w | c2) 计算中间变量（这部分在 STEP3 接着解释）：

#公式：P(ci | w) = P(w | ci) * P(ci) / P(w) ，其中 c1 = 0 、c2 = 1
#根据算法原理，P(c1 | w) 和 P(c2 | w) 的分母 P(w) 相同，不需要计算
#故我们只需要求得 P(w | c1)、P(w | c2)、P(c1)、P(c2) 即可，其中 P(c1) + P(c2) = 1
#输入变量 trainMatrix 为 x1, x2,……, x6 通过 setOfWords2Vec 生成的向量列表
#输入变量 trainCategory 为 label 列表
def trainNB0(trainMatrix,trainCategory):
    #向量列表的样本数（6）
    numTrainDocs = len(trainMatrix)
    #向量列表的每个向量的长度（32）
    numWords = len(trainMatrix[0])
    #计算 P(c2) ，即 label 为 1 的概率（侮辱性言论）
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    #初始化所有单词在 p0Num（正常言论）和 p1Num（侮辱性言论）列表的计数为 1
    #（根据算法原理，使用贝叶斯估计而不是极大似然估计，所以不初始化为 0 ）
    p0Num = ones(numWords); p1Num = ones(numWords)
    #初始化 p0Denom（正常言论） 和 p1Denom（侮辱性言论）的总数为 2.0
    #使用浮点数格式是为了后续直接使用除法
    #（不设置为 0.0 以避免可能的分母为 0 的情况）
    p0Denom = 2.0; p1Denom = 2.0
    #遍历 6 个样本
    for i in range(numTrainDocs):
        #如果这个样本 label 为 1（侮辱性言论）
        if trainCategory[i] == 1:
            #更新 p1Num 的向量表
            p1Num += trainMatrix[i]
            #统计 p1Num 的向量表的总数
            p1Denom += sum(trainMatrix[i])
        # 如果这个样本 label 为 0（正常言论）
        else:
            #更新 p0Num 的向量表
            p0Num += trainMatrix[i]
            #统计 p0Num 的向量表的总数
            p0Denom += sum(trainMatrix[i])
    #以列表形式记录 P(w1 | c2)、P(w2 | c2)、……、P(wn | c2) 计算所需的中间变量
    #（使用对数避免下溢出）
    p1Vect = log(p1Num/p1Denom)
    #以列表形式记录 P(w1 | c1)、P(w2 | c1)、……、P(wn | c1) 计算所需的中间变量
    #（使用对数避免下溢出）
    p0Vect = log(p0Num/p0Denom)
    #返回 P(w | c1)、P(w | c2) 和 P(c2) 的值
    return p0Vect,p1Vect,pAbusive

这里运用到一些数据处理的技巧，对 p0Vect 和 p1Vect 进行了取对数运算，得到的 p0Vect、p1Vect 和 pAbusive 分别为：

[-2.56494936 -3.25809654 -2.56494936 -2.15948425 -2.56494936 -2.56494936
 -2.56494936 -3.25809654 -2.56494936 -1.87180218 -3.25809654 -2.56494936
 -2.56494936 -2.56494936 -3.25809654 -2.56494936 -3.25809654 -3.25809654
 -2.56494936 -2.56494936 -2.56494936 -2.56494936 -3.25809654 -3.25809654
 -3.25809654 -2.56494936 -2.56494936 -3.25809654 -3.25809654 -2.56494936
 -2.56494936 -2.56494936]
[-3.04452244 -2.35137526 -3.04452244 -2.35137526 -3.04452244 -3.04452244
 -3.04452244 -2.35137526 -3.04452244 -3.04452244 -2.35137526 -3.04452244
 -3.04452244 -3.04452244 -1.94591015 -3.04452244 -2.35137526 -2.35137526
 -3.04452244 -2.35137526 -2.35137526 -3.04452244 -2.35137526 -2.35137526
 -1.65822808 -3.04452244 -1.94591015 -2.35137526 -2.35137526 -3.04452244
 -3.04452244 -3.04452244]
0.5

Process finished with exit code 0

STEP3

输入测试数据的向量化表示，计算结果：

#执行分类任务
#输入变量 vec2Classify 为测试数据的向量化表示
#输入变量 p0Vec、p1Vec、pClass1 为 trainNB0 计算的结果
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    #使用对数运算 P(w1 | c2) * P(w2 | c2) * …… * P(wn | c2) * P(c2)
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)
    #使用对数运算 P(w1 | c1) * P(w2 | c1) * …… * P(wn | c1) * P(c1)
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

接着 STEP2 函数的分析：

根据条件独立假设，可得 P(W | ci) = P(w1 | ci) * P(w2 | ci) * …… * P(wn | ci)，随意列举一个测试数据 ['love', 'my', 'dalmation'] 的向量化表示 w ：

[0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0]

数值为 1 的位表示这个单词包含在内，将 w 与前面生成的 p0Vect 或 p1Vect 相乘，即在数值为 1 对应的位置分别得到 log( P(w1 | ci) )、log( P(w2 | ci) ) 和 log( P(w3 | ci) ) ，其他位全部都置 0。

又因为对数运算 log(a * b) = log(a) + log(b)，这里进行 sum 运算，即得到了log( P(w1 | ci) ) + log( P(w2 | ci) ) + log( P(w3 | ci) )，即 log( P(W | ci) )。

再与 log( P(ci) ) 相加，就得到了log( P(w | ci) * P(ci) )。

又因为 log 函数严格单调递增，直接比较即可得到结果。

STEP4

到这里所有的细节都描述完毕了，调用上述的函数进行测试即可：

#测试函数
def testingNB():
    #生成训练集的特征列表和 label 列表
    listOPosts,listClasses = loadDataSet()
    #生成去重的包含测试集所有单词的列表
    myVocabList = createVocabList(listOPosts)
    #将测试集数据向量化，先生成一个空列表
    trainMat=[]
    #为每个测试集数据分别生成向量表达，组合成二维列表
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    #计算 P(w | c1)、P(w | c2) 的中间变量和 P(c2) 的值
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
    #测试"love my dalmation"
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))
    #测试"stupid garbage"
    testEntry = ['stupid', 'garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))

testingNB()

运行结果：

['love', 'my', 'dalmation'] classified as:  0
['stupid', 'garbage'] classified as:  1

Process finished with exit code 0

整个函数的最微妙的点就在于 P(w | ci) 的计算方式，理解了这个细节，也就理解了完整的程序过程。

过滤垃圾邮件

朴素贝叶斯算法的一个经典应用。首先讲一下如何将文本段落切分成单词列表。

STEP0

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'or', 'M.L.', 'I', 'have', 'ever', 'laid', 'eyes', 'upon.']

以一个语句为例：

mySent = 'This book is the best book on Python or M.L. I have ever laid eyes upon.'

可以使用 Python 自带的 split() 进行切割：

print(mySent.split())

得到：

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'or', 'M.L.', 'I', 'have', 'ever', 'laid', 'eyes', 'upon.']

这里会将标点符号也作为单词的一部分，显然不行。方法是引入 Python 的正则化模块 re，利用 re.split() 进行分割：

import re
listOfTokens = re.split('\W+', mySent)
print(listOfTokens)

得到：

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'or', 'M', 'L', 'I', 'have', 'ever', 'laid', 'eyes', 'upon', '']

参数 '\W+' 代表分隔符为除了字母和数字以外的所有字符，这样处理的问题是：

末尾会出现空字符串
包含一些一两个字母的字符串，对语义分析意义不大，甚至是干扰
大小写不同

于是进一步改进：

print([tok.lower() for tok in listOfTokens if len(tok) > 2])

得到：

['this', 'book', 'the', 'best', 'book', 'python', 'have', 'ever', 'laid', 'eyes', 'upon']

处理到这个程度，对于本例就足够了！

STEP1

#数据预处理：文本切分
#文本段落 -> 词列表
def textParse(bigString):
    import re
    listOfTokens = re.split('\W+', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

STEP2

将上一个实验的函数拿过来直接用，这里略去注释，不重复讲解了。唯一的区别是加了一个贝叶斯词袋模型，可以用于替换之前使用的贝叶斯词集模型，原理就是对每个单词的统计方式由记录出现与否改为记录出现的次数：

from numpy import *

#以下三个函数：词列表向量化
def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

#朴素贝叶斯词集模型
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
    return returnVec

#朴素贝叶斯词袋模型
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec


#以下两个函数：朴素贝叶斯分类器
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    p0Num = ones(numWords); p1Num = ones(numWords)
    p0Denom = 2.0; p1Denom = 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num/p1Denom)
    p0Vect = log(p0Num/p0Denom)
    return p0Vect,p1Vect,pAbusive

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

STEP3

这里的数据集有 25 个正样本，25 个负样本，方法是正负样本各随机取 15 个用做训练集，余下的各 10 个用于验证集，这种方法称为交叉验证。

#垃圾邮件测试函数
def spamTest():
    docList=[]; classList=[];
    #遍历 25 个正样本和 25 个负样本，交替存储
    # docList 以二维列表形式储存 50 个样本
    # fullText 以向量形式储存 label
    for i in range(1,26):
        wordList = textParse(open('email/spam/%d.txt' % i, encoding='ISO-8859-1').read())
        docList.append(wordList)
        classList.append(1)
        wordList = textParse(open('email/ham/%d.txt' % i, encoding='ISO-8859-1').read())
        docList.append(wordList)
        classList.append(0)
    #得到所有样本的单词汇总列表（去重）
    vocabList = createVocabList(docList)
    #分离训练集和验证集
    #随机确定分入训练集和测试集的下标，分别保存在 trainingSet 和 testSet 中
    trainingSet = list(range(50)); testSet=[]
    for i in range(10):
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    #处理训练集
    #向量化训练集样本特征，保存在 trainMat 中； label 保存在 trainClasses 中
    trainMat=[]; trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    #计算三个概率
    p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))
    #处理验证集
    errorCount = 0
    for docIndex in testSet:
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam) != classList[docIndex]:
            errorCount += 1
            print("classification error",docList[docIndex])
    print('the error rate is: ',float(errorCount)/len(testSet))

用中间生成的数据格式讲解一下，首先是文本切割分别得到类似于第一个实验中的数据集格式。

特征集合很长，这里只显示了第一个文本数据的特征，docList ：

[['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'], …… ]

得到的 label 向量（正负样本交叉存储）， classList ：

[1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0]

所有单词汇总的列表（去重），vocabList ：

['hold', 'winter', 'oem', 'julius', '366', 'tent', '15mg', 'had', 'questions', 'bike', 'jay', 'phone', …… ]

接着随机得到的训练集、交叉验证集的下标数组（每次执行可能结果都不同），trainingSet 和 testSet 分别为：

[0, 1, 2, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17, 18, 20, 21, 22, 24, 25, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 41, 42, 43, 44, 45, 47, 49]
[4, 3, 48, 40, 46, 26, 19, 10, 23, 8]

根据这个下标，创建向量化的训练集，这个数据很长，这里就不贴了，处理到这一步，就和上一个例子方法相同了。

STEP4

执行程序：

pamTest()

得到结果：

classification error ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today']
the error rate is:  0.1

Process finished with exit code 0

从个人广告中获取区域倾向

过程和前一个实验类似，不过不是读取文档获得数据集，而是通过 RSS 源下载。

STEP1

将前面编写过的，这里要使用到的函数贴出，这里要导入 feedparser 库，用于解析 RSS 数据：

from numpy import *
import operator
import feedparser

#以下三个函数：词列表向量化
def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

#朴素贝叶斯词袋模型
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

#以下两个函数：朴素贝叶斯分类器
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    p0Num = ones(numWords); p1Num = ones(numWords)
    p0Denom = 2.0; p1Denom = 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num/p1Denom)
    p0Vect = log(p0Num/p0Denom)
    return p0Vect,p1Vect,pAbusive

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

#数据预处理：文本切分
#文本段落 -> 词列表
def textParse(bigString):
    import re
    listOfTokens = re.split('\W+', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

STEP2

测试函数和前一个实验基本相同，区别只有两点：

剔除数据集中词频最高的 30 个单词
使用 RSS 源而不是文本文档导入数据

#通过排序，查找数据集中词频最高的 30 个单词
def calcMostFreq(vocabList,fullText):
    freqDict = {}
    for token in vocabList:
        freqDict[token]=fullText.count(token)
    sortedFreq = sorted(freqDict.items(), key=operator.itemgetter(1), reverse=True)
    return sortedFreq[:30]

#测试函数
#输入变量分别为正、负样本
def localWords(feed1,feed0):
    docList=[]; classList = []; fullText =[]
    #取正负样本数相等的数据集
    minLen = min(len(feed1['entries']),len(feed0['entries']))
    #遍历数据集
    # docList 以二维列表形式保存样本
    # classList 以向量形式保存 label
    # fullText 以一维列表形式保存样本（不去重）
    for i in range(minLen):
        wordList = textParse(feed1['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(feed0['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    #创建包含样本所有单词的去重的列表
    vocabList = createVocabList(docList)
    #调用 calcMostFreq 函数，得到出现频率最高的 30 个单词
    top30Words = calcMostFreq(vocabList,fullText)
    #在所有样本中删除这 30 个单词
    for pairW in top30Words:
        if pairW[0] in vocabList: vocabList.remove(pairW[0])
    #留存交叉验证
    trainingSet = list(range(2*minLen)); testSet=[]
    for i in range(20):
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    #处理训练集
    trainMat=[]; trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))
    #处理验证集
    errorCount = 0
    for docIndex in testSet:
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam) != classList[docIndex]:
            errorCount += 1
    print('the error rate is: ',float(errorCount)/len(testSet))
    return vocabList,p0V,p1V

关于为什么要剔除词频最高的 30 个单词，这个涉及到一些语言学的概念，简单说就是语言中大部分内容都是冗余的、辅助性的，保留这些词还淹没具备区分性的中低频词汇。

STEP3

执行：

def getTopWords(ny,sf):
    vocabList,p0V,p1V=localWords(ny,sf)
    topNY=[]; topSF=[]
    for i in range(len(p0V)):
        if p0V[i] > -4.2 : topSF.append((vocabList[i],p0V[i]))
        if p1V[i] > -4.2 : topNY.append((vocabList[i],p1V[i]))
    sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True)
    print("SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**")
    for item in sortedSF:
        print(item[0])
    sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)
    print("NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**")
    for item in sortedNY:
        print(item[0])

ny = feedparser.parse('https://newyork.craigslist.org/search/res?format=rss')
sf = feedparser.parse('https://sfbay.craigslist.org/search/apa?format=rss')
getTopWords(ny,sf)

输出结果：

the error rate is:  0.25
SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**
painted
each
commence
31st
teammates
city
expire
friends
wanting
group
may
amenities
ideal
renew
year
where
ability
begin
thereafter
2021
that
NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**
evenings
currently
english
student
writing
review
tailored
willing
teacher
essay
tutoring
need
want
your
students
have

Process finished with exit code 0

你可能感兴趣的:(机器学习实战)

机器学习专栏博文汇总 python游乐园机器学习机器学习人工智能合集
本篇汇集了Python游乐园中机器学习专栏博文，会持续更新，需要的小伙伴可以收藏一下Python机器学习实战：基于不同机器学习算法的鸢尾花数据集分析机器学习常见问题：过拟合及其处理方式结构化数据和非结构化数据的区别是什么如何选择合适的机器学习算法来处理非结构化数据可用于文本分析的机器学习算法都有哪些Python机器学习实战：遗传算法机器学习基础：什么是启发式算法机器学习中常用的调节参数的方法（附P
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
《机器学习实战：从数据清洗到云端部署的可视化进阶指南（三）》庸俗今天不摸鱼机器学习人工智能 python
▍前言：阶段核心突破当前已完成模型开发与优化升级核心任务，成功将理论模型转化为工业级解决方案。本阶段基于前期标准化数据，实现从基础模型构建到高性能算法迭代的跨越式发展。▍章节回顾：攻坚与优化成果3.模型开发阶段算法实现：逻辑回归：搭建分类基线（LogisticRegression，准确率基准）支持向量机：对比线性核与RBF核性能差异（F1-score提升12%）K近邻：动态优化邻居数（k=5时验证
机器学习实战：从理论到实践静默.\\ 机器学习人工智能
随着人工智能技术的迅猛发展，机器学习作为其核心部分，已经广泛应用于各个领域。它不仅在科技公司中扮演着关键角色，在医疗、金融、零售等行业也展现了巨大的潜力。然而，对于许多初学者来说，如何将理论知识转化为实际操作是一个挑战。本文旨在通过一个具体的案例——预测房价，来介绍机器学习的基本流程和具体操作步骤。我们将使用Python编程语言及其相关的科学计算库，如NumPy、Pandas、Scikit-Lea
《机器学习实战》专栏 No12：项目实战—端到端的机器学习项目Kaggle糖尿病预测带娃的IT创业者机器学习实战机器学习人工智能分类算法 python
《机器学习实战》专栏第12集：项目实战——端到端的机器学习项目Kaggle糖尿病预测本集为专栏最后一集，本专栏的特点是短平快，聚焦重点，不长篇大论纠缠于理论，而是在介绍基础理论框架基础上，快速切入实战项目和代码，所有代码都经过实践检验，是读者入门和熟悉上手的上佳知识材料在本集中，我们将通过Kaggle平台的经典糖尿病预测（PimaIndiansDiabetesDataset）数据集，系统回顾完整的
机器学些|实战? dami_king 随笔机器学习
机器学习实战：从零到%1…今天聊聊机器学习（MachineLearning,ML），这个听起来高大上的技术其实并没有那么神秘。跟着我的节奏，咱们一起来探索一下如何从零开始！准备工作：安装和导入必要的库在开始我们的房价预测项目之前，我们需要准备好开发环境并导入所有必要的库。这些库将帮助我们处理数据、构建模型、评估性能以及可视化结果。安装Python和JupyterNotebook首先，确保你已经安装
Python机器学习实战：独热编码 python游乐园机器学习 python 机器学习人工智能
独热编码（One-HotEncoding）是一种用于将分类数据转换为适合机器学习算法处理的数值型数据的编码技术。基本概念在机器学习中，很多算法要求输入的数据是数值型的，但实际数据中常常包含分类变量，比如颜色（红、绿、蓝）、性别（男、女）等。独热编码就是为了解决这个问题而设计的，它将每个类别变量转换为一个二进制向量。原理对于一个具有n个不同类别的分类变量，独热编码会创建一个长度为n的二进制向量。在这
Python机器学习实战：主成分分析(PCA)的原理和实战操作 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：主成分分析(PCA)的原理和实战操作1.背景介绍1.1什么是主成分分析(PCA)？主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的无监督学习算法，用于数据降维和特征提取。它通过线性变换将原始高维数据映射到低维空间，同时保留数据的主要特征和信息。PCA的目标是找到数据中最主要的方向（主成分），沿着这些方向对数据进行投影，从而实现降维。1
Python机器学习实战：人脸识别技术的实现和挑战 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：人脸识别技术的实现和挑战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：人脸识别技术,模型训练,多人识别,动态人脸检测,应用场景1.背景介绍1.1问题的由来随着科技的进步和互联网的普及，人脸识别技术因其在安全验证、生物特征识别、智能监控等多个领域的广泛应用而迅速崛起。从传统的门禁系统到现代的人脸支付、社交媒体的自动登
《机器学习实战》——在python中使用Matplotlib注解绘制树形图哆啦AA梦 python 机器学习 python 机器学习
#encoding=utf-8#使用文本注解绘制树形图importmatplotlib.pyplotaspltdecisionNode=dict(boxstyle="sawtooth",fc="0.8")leafNode=dict(boxstyle="round4",fc="0.8")arrow_args=dict(arrowstyle="<-")#上面三行代码定义文本框和箭头格式#定义决策树决策
Python从0到100（六十一）：机器学习实战-实现客户细分是Dream呀 python 机器学习开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
【机器学习实战入门】使用OpenCV进行性别和年龄检测精通代码大仙数据挖掘深度学习 python 机器学习 python opencv 数据挖掘人工智能
GenderandAgeDetectionPython项目首先，向您介绍用于此高级Python项目的性别和年龄检测中的术语：什么是计算机视觉？计算机视觉是一门让计算机能够像人类一样观察和识别数字图像和视频的学科。它面临的挑战大多源于对生物视觉有限的了解。计算机视觉涉及获取、处理、分析和理解数字图像，旨在从现实世界中提取高维数据，从而生成可用来做决策的符号或数值信息。该过程通常包括物体识别、视频跟踪
【机器学习实战中阶】音乐流派分类-自动化分类不同音乐风格精通代码大仙数据挖掘深度学习 python 机器学习分类自动化人工智能数据挖掘深度学习
音乐流派分类–自动化分类不同音乐风格在本教程中，我们将开发一个深度学习项目，用于自动化地从音频文件中分类不同的音乐流派。我们将使用音频文件的频率域和时间域低级特征来分类这些音频文件。对于这个项目，我们需要一个具有相似大小和相似频率范围的音频曲目数据集。GTZAN流派分类数据集是音乐流派分类项目中最推荐的数据集，并且它是为了这个任务而收集的。音乐流派分类器模型音乐流派分类关于数据集：GTZAN流派收
【机器学习实战入门项目】基于机器学习的鸢尾花分类项目精通代码大仙数据挖掘 python 深度学习机器学习分类人工智能大数据数据挖掘算法 python
基于机器学习的鸢尾花分类项目介绍：本项目利用机器学习模型对鸢尾花进行分类。鸢尾花数据集是一个著名的机器学习数据集，包含三种类别的花朵：Setosa、Versicolor和Virginica，每种类别由四个特征描述：萼片长度、萼片宽度、花瓣长度和花瓣宽度。什么是机器学习？机器学习是关于从数据中学习预测或提取知识的过程。它是人工智能的一个子领域。机器学习算法基于样本数据（即训练数据）构建模型，并根据训
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
机器学习实战----波士顿房价预测模型永远偷渡不了的非洲人机器学习机器学习 sklearn python
波士顿房价模型预测是一个回归问题，可以采用r2_score方法来作为评价指标。importnumpyasnpimportpandasaspdfromsklearn.metricsimportr2_score#从sklearn的数据库中导入波士顿房产数据fromsklearn.datasetsimportload_bostonfromsklearn.model_selectionimporttrai
python logistic模型_Python实践之逻辑回归（Logistic Regression） weixin_39922394 python logistic模型
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归(LogisticRegression)，也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学习算法一般是这样一个
(二十一)Seaborn知识学习8-python数据分析与机器学习实战(学习笔记) 努力奋斗的durian
文章原创,最近更新：2018-05-17课程来源:python数据分析与机器学习实战-唐宇迪引言:介绍seaborn热度图绘制学习参考链接:1、Seaborn官方0.8.1版本首先介绍以下热度图的作用,拿出离散群数据,离散群数据可能会发生波动变化.看一下哪个点的值比较高,看一下哪个点的值比较低?通过值的变化,用颜色表现出来,这个是我们要做的一件事.热度图是由不同的颜色构成的,这个颜色由可能是由浅入
机器学习实战2--蒙特卡洛方法与Q-Q图(2022/10/12) 点灯的棉羊机器学习Jupyter笔记机器学习人工智能 numpy python
蒙特卡洛方法与Q-Q图文章目录蒙特卡洛方法与Q-Q图蒙特卡洛方法蒙特卡洛的定义和基本步骤一些常用的概率论相关函数使用蒙特卡洛验证大数定理Q-Q图Q-Q图的定义及用途importnumpyasnpfromnumpy.linalgimportinv,eigimportmatplotlib.pyplotaspltimportpandasaspdfromscipy.statsimportnorm蒙特卡洛方
机器学习实战1-基础运用（2022/10/11）点灯的棉羊机器学习Jupyter笔记机器学习 python numpy
机器学习实战1-基础运用文章目录机器学习实战1-基础运用numpy的简单运用生成矩阵和矩阵的简单操作用pandas库读取、保存csv数据文件read_csv()函数及读入的数据处理to_csv()保存数据matplotlib.pyplot库绘图的使用条形图的绘制箱型图的绘制分位数（Quantile）分位点/四分位数分位数与箱型图`boxplot()`函数绘制交叉报表热力图plt绘图基础import
机器学习实战Jupyter笔记专栏汇总点灯的棉羊机器学习Jupyter笔记机器学习 jupyter 人工智能
机器学习实战Jupter笔记开始博客学校开始的一门机器学习的课程，于是使用jupyter写这门课的作业，顺便将其完善为笔记发表为这个专栏的博客，并将专栏博客链接汇总到这里。由于是刚开始学习机器学习方面的内容，如有错误的地方，希望能有大佬能帮忙指正。笔记1机器学习实战1-基础运用种一棵树最好的时间–是十年前，其次是现在
朴素贝叶斯算法 YuanDaima2048 机器学习算法学习算法机器学习人工智能深度学习 python sklearn
朴素贝叶斯算法一、基本概念二、算法及代码应用朴素贝叶斯NB算法分类算法区别其他机器学习算法：机器学习实战工具安装和使用一、基本概念朴素贝叶斯（NB）是一种基于贝叶斯定理与特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤等领域。朴素贝叶斯算法简单易懂，其核心思想是假设在给定目标值时，各个属性之间相互独立。在实际应用中，朴素贝叶斯算法在垃圾邮件过滤中表现出色。它不仅准确率高，而且速度快
【机器学习实战】大数据与MapReduce 吵吵人
当运算需求超出了当前资源的运算能力，一、可以考虑购买更好的机器；二、可以将计算转换成并行作业，MapReduce就提供了这种方案的一个具体实施框架。MapReduce：分布式计算的框架MapReduce是一个软件框架，可以将单个计算工作分配给多台计算机执行。工作流程包括map和reduce阶段。第一阶段，输入数据被切片分发到节点上，各个节点对本地数据进行处理对应的运算代码叫做mapper。第二阶段
[培训-Python机器学习]04-Git的使用和规范乱码奇糟软件开发 git
参考书Python机器学习实战作者裔隽张怿檬张目清出版社科学技术文献出版社难度入门安排计划：本章30分钟；作业：上网查阅Linus开发Git的背景；分析所在的开发团队所用的协作开发流程是什么？总结出Git使用和Git流程中遇到过的3个问题，发给大家讨论。非常有意思：2005年，由Linux的创始人LinusTorvalds开发；临危赴命，用时2周。分布式、本地管理、分支管理、提交机制Github、
[培训-Python机器学习]02-使用conda管理环境和包乱码奇糟软件开发 python conda
参考书Python机器学习实战作者裔隽张怿檬张目清出版社科学技术文献出版社难度入门安排计划：本章30分钟；作业：培训后实践本章的各种操作；结果：以Python3.10创建开发虚拟环境；再创建一个Python3.7版本以下的虚拟环境用来调试兼容性以前培训过venv，本次培训来说一说conda。conda其实可理解为：venv+pip，它的主要功能包括：环境管理：创建多个隔离的Python运行环境，每
机器学习（machine learning）大合集 AI信仰者
1、线性分类器怎么理解呢？我们可以把此分类器理解为线性空间的划分，最简单的，在二维空间上，通过直线的划分。第二个理解可以理解为模板匹配，W的每一行可以看做是其中一个类别的模板。每类得分，实际上是像素点和模板匹配度。模板匹配的方式是内积计算。2、机器学习实战之AdaBoost算法boosting算法系列的基本思想，如下图：adaBoost分类器就是一种元算法分类器，adaBoost分类器利用同一种基
机器学习实战朴素贝叶斯分类器 shenny_
基于概率论的分类方法：朴素贝叶斯我的微信公众号：s406205391;欢迎大家一起学习，一起进步！！！k-近邻算法和决策树会给出“该数据属于哪一类”的明确回答。不过，分类器有时会产生错误结果，这是可以要求分类器给出一个最优的类别的猜测结果，同事给出这个猜测的概率估计值。朴素贝叶斯就是一个概率分类器。我们称之为“朴素”，是因为整个形式化的过程只做最原始、最简单的假设。朴素贝叶斯的优点：在数据较少的情
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include