黄桃罐头_hhh

基于SMO的支持向量机的Python实现并用于新闻文本分类

一、SMO算法

二、支持向量机的实现

# SVM的实现
import numpy as np
import random
import copy
import math
import time

"""
函数说明: 计算核函数的值
Parameters:
    train_x - 训练集数据
    sample_x - 训练集中的样本
    kernelOpt - 选择的核函数（可选linear(线性核函数)或rbf(径向核函数)）以及rbf核函数的参数（linear时该参数为0）
Returns:
    kernelValue - 核函数的值
"""
def calcuKernelValue(train_x, sample_x, kernelOpt = ("linear", 0)):
    kernelType = kernelOpt[0]
    kernelPara = kernelOpt[1]
    numSamples = np.shape(train_x)[0]
    kernelValue = np.mat(np.zeros((numSamples, 1)))
    if kernelType == "linear":
        kernelValue = train_x * sample_x.T
    elif kernelOpt[0] == "rbf":
        sigma = kernelPara
        for i in range(numSamples):
            diff = train_x[i, :] - sample_x
            kernelValue[i] = math.exp(diff * diff.T / (-2 * sigma ** 2))
    else:
        print("The kernel is not supported")
    return kernelValue


"""
函数说明: 核函数求内积
Parameters:
    train_x - 训练集数据
    kernelOpt - 选择的核函数（可选linear(线性核函数)或rbf(径向核函数)）以及rbf核函数的参数（linear时该参数为0）
Returns:
    kernealMat - 核函数的内积
"""
def calcKernelMat(train_x, kernelOpt):
    numSamples = np.shape(train_x)[0]
    kernealMat = np.mat(np.zeros((numSamples, numSamples)))
    for i in range(numSamples):
        kernealMat[:, i] = calcuKernelValue(train_x, train_x[i], kernelOpt)
    return kernealMat


"""
函数说明: 定义存储SVM参数和数据的结构体
Parameters:
    trainX - 训练集数据
    trainY - 训练集标签
    c - 惩罚参数
    tolerance - 容错率
    maxIteration - 最大迭代次数
    kernelOption - 选择的核函数（可选linear(线性核函数)或rbf(径向核函数)）以及rbf核函数的参数（linear时该参数为0）
"""
class svmSruct(object):
    def __init__(self, trainX, trainY, c, tolerance, maxIteration, kernelOption):
        self.train_x = trainX
        self.train_y = trainY
        self.C = c
        self.toler = tolerance
        self.maxIter = maxIteration 
        self.numSamples = np.shape(trainX)[0]  #数据集的行数（样本数）
        self.alphas = np.mat(np.zeros((self.numSamples, 1)))  # alpha系数，numSamples*1矩阵
        self.b = 0  #偏置项
        self.errorCache = np.mat(np.zeros((self.numSamples, 2)))   # 保存原始数据每行的预测误差
        self.kernelOpt = kernelOption
        self.kernelMat = calcKernelMat(self.train_x, self.kernelOpt)

"""
函数说明: 计算原始数据第alpha_i项对应的预测误差
Parameters:
    svm - SVM参数的结构体
    alpha_i - 原始数据行索引
Returns:
    erro_i - 原始数据第alpha_i项对应的预测误差
"""
def calcError(svm, alpha_i):
    func_i = np.multiply(svm.alphas, svm.train_y).T * svm.kernelMat[:, alpha_i] + svm.b
    erro_i = func_i - svm.train_y[alpha_i]
    return erro_i

"""
函数说明: 计算原始数据第alpha_j项对应的预测误差并更新结构体中的缓存
Parameters:
    svm - SVM参数的结构体
    alpha_j - 原始数据行索引
"""
def updateError(svm, alpha_j):
    error = calcError(svm, alpha_j)
    svm.errorCache[alpha_j] = [1, error]

"""
函数说明: 选取一对 alpha_i 和 alpha_j，使用启发式方法
Parameters:
    svm - SVM参数的结构体
    alpha_i - 原始数据行索引
    error_i - 原始数据第alpha_i项对应的预测误差
Returns:
     alpha_i 和 alpha_j 
"""
def selectAlpha_j(svm, alpha_i, error_i):
    svm.errorCache[alpha_i] = [1, error_i]
    alpha_index = np.nonzero(svm.errorCache[:, 0])[0]
    maxstep = float("-inf")
    alpha_j, error_j = 0, 0
    if len(alpha_index) > 1:
        # 遍历选择最大化 |error_i - error_j| 的 alpha_j
        for alpha_k in alpha_index:
            if alpha_k == alpha_i:
                continue
            error_k = calcError(svm, alpha_k)
            if abs(error_i - error_k) > maxstep:
                maxstep = abs(error_i - error_k)
                alpha_j = alpha_k
                error_j = error_k
    else:
        # 最后一个样本，与之配对的 alpha_j采用随机选择
        alpha_j = alpha_i
        random.seed(38)
        while alpha_j == alpha_i:
            alpha_j = random.randint(0, svm.numSamples - 1)
        error_j = calcError(svm, alpha_j)
    return alpha_j, error_j


"""
函数说明: 内循环，优化 alpha_i 和 alpha_j
Parameters:
    svm - SVM参数的结构体
    alpha_i - 原始数据行索引
"""
def innerLoop(svm, alpha_i):
    #计算误差error_i
    error_i = calcError(svm, alpha_i)
    error_i_ago = copy.deepcopy(error_i)
    #优化alpha,设定一定的容错率。
    if (svm.train_y[alpha_i] * error_i < -svm.toler and svm.alphas[alpha_i] < svm.C) or \
        (svm.train_y[alpha_i] * error_i > svm.toler and svm.alphas[alpha_i] > 0):
        # 步骤1：使用内循环启发方式选择aplha_j,并计算alpha_j
        alpha_j, error_j = selectAlpha_j(svm, alpha_i, error_i)
        alpha_i_ago = copy.deepcopy(svm.alphas[alpha_i])
        alpha_j_ago = copy.deepcopy(svm.alphas[alpha_j])
        error_j_ago = copy.deepcopy(error_j)
        #步骤2：计算上下界L和H
        if svm.train_y[alpha_i] != svm.train_y[alpha_j]:
            L = max(0, svm.alphas[alpha_j] - svm.alphas[alpha_i])
            H = min(svm.C, svm.C + svm.alphas[alpha_j] - svm.alphas[alpha_i])
        else:
            L = max(0, svm.alphas[alpha_j] + svm.alphas[alpha_i] - svm.C)
            H = min(svm.C, svm.alphas[alpha_j] + svm.alphas[alpha_i])
        if L == H:
            return 0
        #步骤3：计算eta（i和j的相似性）
        eta = 2.0 * svm.kernelMat[alpha_i, alpha_j] - svm.kernelMat[alpha_i, alpha_i] - \
                svm.kernelMat[alpha_j, alpha_j]

        # 步骤4：更新aplha_j
        svm.alphas[alpha_j] = alpha_j_ago - svm.train_y[alpha_j] * (error_i - error_j) / eta
        
        #步骤5：修剪aplha_j
        if svm.alphas[alpha_j] > H:
            svm.alphas[alpha_j] = H
        elif svm.alphas[alpha_j] < L:
            svm.alphas[alpha_j] = L
            
        #步骤6：优化alpha_j后更新alpha_i
        svm.alphas[alpha_i] = alpha_i_ago + svm.train_y[alpha_i] * svm.train_y[alpha_j] * \
                                            (alpha_j_ago - svm.alphas[alpha_j])
        #步骤7：如果alpha_j不再变化，就返回
        if abs(alpha_j_ago - svm.alphas[alpha_j]) < 10 ** (-5):
            return 0

        # 步骤8：更新 b
        b1 = svm.b - error_i_ago - svm.train_y[alpha_i] * (svm.alphas[alpha_i] - alpha_i_ago) * \
            svm.kernelMat[alpha_i, alpha_i] - svm.train_y[alpha_j] * (svm.alphas[alpha_j] - alpha_j_ago) * \
            svm.kernelMat[alpha_i, alpha_j]
        b2 = svm.b - error_j_ago - svm.train_y[alpha_i] * (svm.alphas[alpha_i] - alpha_i_ago) * \
            svm.kernelMat[alpha_i, alpha_j] - svm.train_y[alpha_j] * (svm.alphas[alpha_j] - alpha_j_ago) * \
            svm.kernelMat[alpha_j, alpha_j]
        if (svm.alphas[alpha_i] > 0) and (svm.alphas[alpha_i] < svm.C):
            svm.b = b1
        elif (svm.alphas[alpha_j] > 0) and (svm.alphas[alpha_j] < svm.C):
            svm.b = b2
        else:
            svm.b = (b1 + b2) / 2

        # 步骤9：优化alpha_i、alpha_j、b 之后再更新误差
        updateError(svm, alpha_j)
        updateError(svm, alpha_i)

        return 1
    else:
        return 0

"""
函数说明: 训练SVM
Parameters:
    train_x - 训练集数据
    train_y - 训练集标签
    c - 惩罚参数
    toler - 容错率
    maxIter - 最大迭代次数
    kernelOpt - 选择的核函数（可选linear(线性核函数)或rbf(径向核函数)）以及rbf核函数的参数（linear时该参数为0）
Returns：
    svm - 训练好的SVM参数的结构体
"""
def trainSVM(train_x, train_y, c, toler, maxIter, kernelOpt):
    train_start = time.time()
    svm = svmSruct(train_x, train_y, c, toler, maxIter, kernelOpt)
    entire = True
    alphaPairsChanged = 0
    iter = 0
    while (iter < svm.maxIter) and ((alphaPairsChanged > 0) or entire):
        alphaPairsChanged = 0
        if entire:
            for i in range(svm.numSamples):
                alphaPairsChanged += innerLoop(svm, i)
            print("\tIter = %d, entire set, alpha2 changed = %d" % (iter, alphaPairsChanged))
            iter += 1
        else:
            nonBound_index = np.nonzero((svm.alphas.A > 0) * (svm.alphas.A < svm.C))[0]
            for i in nonBound_index:
                alphaPairsChanged += innerLoop(svm, i)
            print("\tIter = %d, non boundary, alpha2 changed = %d" % (iter, alphaPairsChanged))
            iter += 1
        if entire:
            entire = False
        elif alphaPairsChanged == 0:
            entire = True
    train_end = time.time()
    print("\tnumVector VS numSamples == %d -- %d" % (len(np.nonzero(svm.alphas.A > 0)[0]), svm.numSamples))
    print("\tTraining complete! ---------------- %.3fs" % (train_end - train_start))
    return svm

"""
函数说明: 测试样本
Parameters:
    svm - 训练好的SVM参数的结构体
    test_x - 测试集数据
    test_y - 测试集标签
Returns：
    accuracy - 预测准确率
    labelpredict - 预测的标签
    numright - 预测为负类正确的个数
"""
def testSVM(svm, test_x, test_y):
    numTest = np.shape(test_x)[0]
    supportVect_index = np.nonzero(svm.alphas.A > 0)[0]
    supportVect = svm.train_x[supportVect_index]
    supportLabels = svm.train_y[supportVect_index]
    supportAlphas = svm.alphas[supportVect_index]
    num = 0
    numright = 0
    labelpredict = []
    for i in range(numTest):
        kernelValue = calcuKernelValue(supportVect, test_x[i, :], svm.kernelOpt)
        predict = kernelValue.T * np.multiply(supportLabels, supportAlphas) + svm.b
        labelpredict.append(int(np.sign(predict)))
        if np.sign(predict) == np.sign(test_y[i]):
            num += 1
            if np.sign(test_y[i]) == -1:
                numright += 1
    print("\tnumRight VS numTest == %d -- %d" % (num, numTest))
    accuracy = num / numTest
    return accuracy, labelpredict, numright

三、新闻文本数据集fetch_20newsgroups介绍

fetch_20newsgroups(20类新闻文本)数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。该数据集中含有18846篇新闻文章，均匀分为20种不同主题类别的新闻组集合，每个类别包含将近1000篇新闻文章。该数据集是典型的单标签、平衡文本数据集。

该数据集分为训练集和测试集两部分。其中训练集含有11314条新闻文本数据，测试集含有7532条新闻文本数据。

该数据集的20类标签如下图所示。

四、基于支持向量机的新闻文本分类

1.数据预处理

本文仅导入数据集中的三类数据。

通过调用Python中的sklearn库的TfidfVectorizer模型来将数据集中的文本数据转化成TF-IDF特征向量并去除停用词。

TF-IDF ( term frequency–inverse document frequency ) 又称词频-逆文本频率,是衡量一个词语重要程度的统计指标。相比于词频方法， TF-IDF 还综合考虑词语的稀有程度。在TF-IDF 算法中，一个词语的重要程度除了正比于在文本中的频次，还反比于有多少文本包含它。

# 导入数据并数据预处理
from sklearn.feature_extraction.text import TfidfVectorizer  # TF-IDF模型提取特征向量
from sklearn.datasets import fetch_20newsgroups  # 导入数据集

categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics']

news_train = fetch_20newsgroups(subset='train', categories=categories, random_state=12)  # 训练集数据
news_test = fetch_20newsgroups(subset='test', categories=categories, random_state=12)  # 测试集数据

# 提取TF-IDF特征并去除停用词
vectorizer = TfidfVectorizer(analyzer='word', stop_words='english')
vectors = vectorizer.fit_transform(news_train.data)
vectors_test = vectorizer.transform(news_test.data)

traindataMat = vectors.todense()  # 处理后的训练集数据
testdataMat = vectors_test.todense()  # 处理后的测试集数据

trainlabelMat = np.mat(news_train.target).T  # 训练集原始标签
testlabelMat = np.mat(news_test.target).T  # 测试集原始标签

2.新闻文本二分类

（1）数据导入与预处理

# 导入数据并数据预处理
from sklearn.feature_extraction.text import TfidfVectorizer  # TF-IDF模型提取特征向量
from sklearn.datasets import fetch_20newsgroups  # 导入数据集

categories = ['alt.atheism', 'soc.religion.christian']

news = fetch_20newsgroups(subset='all')  # 所有文本数据
news_train = fetch_20newsgroups(subset='train', categories=categories, random_state=12)  # 训练集数据
news_test = fetch_20newsgroups(subset='test', categories=categories, random_state=12)  # 测试集数据

# 提取TF-IDF特征并去除停用词
vectorizer = TfidfVectorizer(analyzer='word', stop_words='english')
vectors = vectorizer.fit_transform(news_train.data)
vectors_test = vectorizer.transform(news_test.data)

traindataMat = vectors.todense()   # 处理后的训练集数据
testdataMat = vectors_test.todense()  # 处理后的测试集数据

trainlabel = []
for i in range(len(news_train.target)):
    if news_train.target[i] == 0:    # 标签分为-1和1
        trainlabel.append(-1)
    else:
        trainlabel.append(1)
trainlabelMat = np.mat(trainlabel).T    # 训练集标签

testlabel = []
for i in range(len(news_test.target)):
    if news_test.target[i] == 0:     # 标签分为-1和1
        testlabel.append(-1)
    else:
        testlabel.append(1)
testlabelMat = np.mat(testlabel).T   # 测试集标签

（2）SVM模型的训练与测试

径向核函数的情形：

# SVM参数
C = 200   # 惩罚参数
toler = 0.0001  # 容错率
maxIter = 100  # 最大迭代次数
kernelOption = ("rbf", 10)  #核函数

# 训练SVM
svmClassifier = trainSVM(traindataMat, trainlabelMat, C, toler, maxIter, kernelOption)

# 测试SVM
accuracy, labelpredict, numright = testSVM(svmClassifier, testdataMat, testlabelMat)
print(accuracy)

运行结果：在测试集上的分类准确率约为95.40%

线性核函数的情形：

# SVM参数
C = 200   # 惩罚参数
toler = 0.0001  # 容错率
maxIter = 100  # 最大迭代次数
kernelOption = ("linear", 0) # 核函数

# 训练SVM
svmClassifier = trainSVM(traindataMat, trainlabelMat, C, toler, maxIter, kernelOption)

# 测试SVM
accuracy, labelpredict, numright = testSVM(svmClassifier, testdataMat, testlabelMat)
print(accuracy)

运行结果：在测试集上的分类准确率约为94.98%

3.新闻文本三分类

（1）数据导入与预处理

# 导入数据并数据预处理
from sklearn.feature_extraction.text import TfidfVectorizer  # TF-IDF模型提取特征向量
from sklearn.datasets import fetch_20newsgroups  # 导入数据集

categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics']

news_train = fetch_20newsgroups(subset='train', categories=categories, random_state=12)  # 训练集数据
news_test = fetch_20newsgroups(subset='test', categories=categories, random_state=12)  # 测试集数据

# 提取TF-IDF特征并去除停用词
vectorizer = TfidfVectorizer(analyzer='word', stop_words='english')
vectors = vectorizer.fit_transform(news_train.data)
vectors_test = vectorizer.transform(news_test.data)

traindataMat = vectors.todense()  # 处理后的训练集数据
testdataMat = vectors_test.todense()  # 处理后的测试集数据

trainlabelMat = np.mat(news_train.target).T  # 训练集原始标签
testlabelMat = np.mat(news_test.target).T  # 测试集原始标签

（2）SVM模型的训练与测试

原始数据集的标签为0，1，2，由于一个支持向量机仅支持二分类，因此需要构造两个支持向量机，一个用于分类0和12合并的两类，另一个在分好的12合并类的基础下对1和2两类进行分类。然后需要分别对两个支持向量机构造相应的数据集标签，对于第一个支持向量机，将原标签为0的和原标签为1或2的分别标记为-1和1；对于第二个支持向量机，将原标签为1的和原标签为2的分别标记为-1和1。其思维导图如下图所示。

径向核函数的情形：

# 模型的训练和预测
C = 200
toler = 0.0001
maxIter = 100
kernelOption = ("rbf", 1)

# 第一个分类器：0 / 12
trainlabel_0_12 = []
for i in range(len(news_train.target)):
    if news_train.target[i] == 0:
        trainlabel_0_12.append(-1)
    else:
        trainlabel_0_12.append(1)
trainlabel_0_12Mat = np.mat(trainlabel_0_12).T   # 第一个分类器处理好的训练集标签
traindata_0_12Mat = traindataMat[::]  
svmClassifier_0_12 = trainSVM(traindata_0_12Mat, trainlabel_0_12Mat, C, toler, maxIter, kernelOption)

C = 100
toler = 0.0001
maxIter = 100
kernelOption = ("rbf", 1)

# 第二个分类器：1 / 2
trainlabel_1_2 = []
traindata_1_2index=[]
for i in range(len(news_train.target)):
    if news_train.target[i] == 1:
        trainlabel_1_2.append(-1)
        traindata_1_2index.append(i)
    elif news_train.target[i] == 2:
        trainlabel_1_2.append(1)
        traindata_1_2index.append(i)
trainlabel_1_2Mat = np.mat(trainlabel_1_2).T   # 第二个分类器处理好的训练集标签
traindata_1_2Mat = traindataMat[traindata_1_2index]  # 第二个分类器处理好的训练集数据
svmClassifier_1_2 = trainSVM(traindata_1_2Mat, trainlabel_1_2Mat, C, toler, maxIter, kernelOption)

# 测试样本 0 / 12
testlabel_0_12 = []
for i in range(len(news_test.target)):
    if news_test.target[i] == 0:
        testlabel_0_12.append(-1)
    else:
        testlabel_0_12.append(1)
testlabel_0_12Mat = np.mat(testlabel_0_12).T
testdata_0_12Mat = testdataMat[::]
accuracy_0_12, labelpredict_0_12, numright_0_12 = testSVM(svmClassifier_0_12, testdata_0_12Mat, testlabel_0_12Mat)
print("accuracy_0_12:",accuracy_0_12)

# 测试样本 1 / 2
testlabel_1_2index = []  # 存储第一个分类器对12合并类分类正确的索引
for i in range(len(labelpredict_0_12)):
    if labelpredict_0_12[i] == 1 and testlabel_0_12Mat[i] == 1: 
        testlabel_1_2index.append(i)
num12 = len(testlabel_1_2index)
testlabel_1_2raw = testlabelMat[testlabel_1_2index]  # 提取第一个分类器对12合并类分类正确的标签
testlabel_1_2 = [0 for i in range(num12)]
for i in range(num12):    # 对标签进行重新标记为-1和1
    if testlabel_1_2raw[i] == 1:
        testlabel_1_2[i] = -1
    else:
        testlabel_1_2[i] = 1
testlabel_1_2Mat = np.mat(testlabel_1_2).T   # 第二个分类器处理好的测试集标签
testdata_1_2Mat = testdataMat[testlabel_1_2index]   # 第二个分类器处理好的测试集数据
accuracy_1_2, labelpredict_1_2, numright_1_2 = testSVM(svmClassifier_1_2, testdata_1_2Mat, testlabel_1_2Mat)
print("accuracy_1_2:",accuracy_1_2)

"""
统计被正确分类的样本数量，包括：
1、第一轮分类 -> 本来是-1结果被正确分类为-1的个数。
   第一轮分类结束后，本来是1结果被正确分类为1的样本进入第二轮分类；
   本来是-1结果本分类为1的样本已经分类错误，不参与第二轮分类
2、第二轮分类 -> -1、1被正确分类的个数。
"""
total_accuracy = (numright_0_12 + num12 * accuracy_1_2) / len(testlabelMat)
print("\tFinal accuracy = %.3f%%" % (total_accuracy * 100))

运行结果：在测试集上的分类准确率约为92.495%

线性核函数的情形：

# 模型的训练和预测
C = 200
toler = 0.0001
maxIter = 100
kernelOption = ("linear", 0) 

# 第一个分类器：0 / 12
trainlabel_0_12 = []
for i in range(len(news_train.target)):
    if news_train.target[i] == 0:
        trainlabel_0_12.append(-1)
    else:
        trainlabel_0_12.append(1)
trainlabel_0_12Mat = np.mat(trainlabel_0_12).T   # 第一个分类器处理好的训练集标签
traindata_0_12Mat = traindataMat[::]  
svmClassifier_0_12 = trainSVM(traindata_0_12Mat, trainlabel_0_12Mat, C, toler, maxIter, kernelOption)

C = 100
toler = 0.0001
maxIter = 100
kernelOption = ("linear", 0) 

# 第二个分类器：1 / 2
trainlabel_1_2 = []
traindata_1_2index=[]
for i in range(len(news_train.target)):
    if news_train.target[i] == 1:
        trainlabel_1_2.append(-1)
        traindata_1_2index.append(i)
    elif news_train.target[i] == 2:
        trainlabel_1_2.append(1)
        traindata_1_2index.append(i)
trainlabel_1_2Mat = np.mat(trainlabel_1_2).T   # 第二个分类器处理好的训练集标签
traindata_1_2Mat = traindataMat[traindata_1_2index]  # 第二个分类器处理好的训练集数据
svmClassifier_1_2 = trainSVM(traindata_1_2Mat, trainlabel_1_2Mat, C, toler, maxIter, kernelOption)

# 测试样本 0 / 12
testlabel_0_12 = []
for i in range(len(news_test.target)):
    if news_test.target[i] == 0:
        testlabel_0_12.append(-1)
    else:
        testlabel_0_12.append(1)
testlabel_0_12Mat = np.mat(testlabel_0_12).T
testdata_0_12Mat = testdataMat[::]
accuracy_0_12, labelpredict_0_12, numright_0_12 = testSVM(svmClassifier_0_12, testdata_0_12Mat, testlabel_0_12Mat)
print("accuracy_0_12:",accuracy_0_12)

# 测试样本 1 / 2
testlabel_1_2index = []  # 存储第一个分类器对12合并类分类正确的索引
for i in range(len(labelpredict_0_12)):
    if labelpredict_0_12[i] == 1 and testlabel_0_12Mat[i] == 1: 
        testlabel_1_2index.append(i)
num12 = len(testlabel_1_2index)
testlabel_1_2raw = testlabelMat[testlabel_1_2index]  # 提取第一个分类器对12合并类分类正确的标签
testlabel_1_2 = [0 for i in range(num12)]
for i in range(num12):    # 对标签进行重新标记为-1和1
    if testlabel_1_2raw[i] == 1:
        testlabel_1_2[i] = -1
    else:
        testlabel_1_2[i] = 1
testlabel_1_2Mat = np.mat(testlabel_1_2).T   # 第二个分类器处理好的测试集标签
testdata_1_2Mat = testdataMat[testlabel_1_2index]   # 第二个分类器处理好的测试集数据
accuracy_1_2, labelpredict_1_2, numright_1_2 = testSVM(svmClassifier_1_2, testdata_1_2Mat, testlabel_1_2Mat)
print("accuracy_1_2:",accuracy_1_2)

"""
统计被正确分类的样本数量，包括：
1、第一轮分类 -> 本来是-1结果被正确分类为-1的个数。
   第一轮分类结束后，本来是1结果被正确分类为1的样本进入第二轮分类；
   本来是-1结果本分类为1的样本已经分类错误，不参与第二轮分类
2、第二轮分类 -> -1、1被正确分类的个数。
"""
total_accuracy = (numright_0_12 + num12 * accuracy_1_2) / len(testlabelMat)
print("\tFinal accuracy = %.3f%%" % (total_accuracy * 100))

运行结果：在测试集上的分类准确率约为91.682%

五、实验结果分析

	二分类		三分类
核函数	线性核函数	径向核函数	线性核函数	径向核函数
预测准确率	94.98%	95.40%	91.68%	92.50%
程序运行时间	57s	2m13s	4m24s	11m17s

对于新闻文本二分类和三分类的情形，该支持向量机的分类预测效果较好，准确率都达到了90%以上。

对于不同的分类问题，二分类的分类准确率高于三分类。原因在于在三分类中，第一轮分类结束后，本来是正类结果被正确分类为正类的样本进入第二轮分类，本来是负类结果被分类为正类的样本已经分类错误，不参与第二轮分类。因此三分类的第一轮分类的准确率对第二轮分类以及总体的准确率有很大的影响。

而对于相同的分类情形，在合适的参数下，选取核函数为径向核函数的预测准确率高于线性核函数的情形，但程序运行时间也长于线性核函数的情形。原因在于径向核函数的处理过程比线性核函数繁琐，且文本数据的特征一般具有高维且稀疏的特点，需要的训练时间较长，导致模型效率较低。

六、支持向量机的优缺点

优点：

可以解决高维问题，即大型特征空间；

解决小样本下机器学习问题；

能够处理非线性特征的相互作用；

无局部极小值问题；（相对于神经网络等算法）

无需依赖整个数据；

泛化能力比较强；

缺点：

当观测样本很多时，效率并不是很高；

对非线性问题没有通用解决方案，有时候很难找到一个合适的核函数；

对于核函数的高维映射解释力不强，尤其是径向基函数；

常规SVM只支持二分类；

对缺失数据敏感；

批量将将xlsx转为csv，将csv转为csv utf-8 Znnjcidmslz 数据 python pandas
csv转换为csvutf-8将csv格式文件批量转换为csvutf-8格式文件，以下为使用Python处理的代码：importosimportpandasaspd#存有文件的路径current_path=os.getcwd()#current_path=os.path.dirname('G:/weather_output2')#转换之后存放的路径为“UTF8”，会检查当前路径是否有，没有就创建ut
1.4使用pandas读取和写入Excel文件的基本操作林伽一 python处理excel pandas excel python
读取和写入Excel文件是使用Python处理Excel的基本操作。在Python中，可以使用不同的库来实现这些操作，例如pandas、openpyxl等。以下是读取和写入Excel文件的基本操作示例：读取Excel文件使用pandas库读取Excel文件非常方便。下面的示例演示了如何使用pandas读取Excel文件：importpandasaspd#读取Excel文件df=pd.read_ex
Python与C ++开发匿名捐赠1对1管理APP Geeker-2025 python c++
开发一款用于**匿名捐赠1对1管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的捐赠监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：W
python颜色参数_python matplotlib:plt.scatter() 大小和颜色参数详解 weixin_39926311 python颜色参数
语法plt.scatter(x,y,s=20,c='b')大小s默认为20，s=0时点不显示；颜色c默认为蓝色。为每一个点指定大小和颜色有时我们需要为每一个点指定大小和方向，以区分不同的点。这时，可以向s和c传入列表。如：importmatplotlib.pyplotaspltimportnumpyasnpx=list(range(1,7))plt.scatter(x,x,s=10*np.arra
Python中scatter()函数--转载 1361976860 python
原博地址：http://blog.csdn.net/anneqiqi/article/details/64125186最近开始学习Python编程，遇到scatter函数，感觉里面的参数不知道什么意思于是查资料,最后总结如下：1、scatter函数原型2、其中散点的形状参数marker如下：3、其中颜色参数c如下:4、基本的使用方法如下：[python]viewplaincopy#导入必要的模块i
python中的scatter()函数用法品易HTTP python javascript css js 人工智能
若是现在已经对数据化有了解的话，那就一定要来参与看看本章要学习的函数，在样式以及排版上效果还是很好的，经常被用于测试数据上的大小更改以及设置不同颜色，还有时候，对于线条的宽度的更改也都需要利用到这个函数，以上基本就是本章函数的基本用法了，下面进行详细讲述。制作如图所示图片：需要准备：X、Y轴包括数值以及大小和颜色调用语法：plt.scatter()实现代码：importmatplotlibasmp
C语言：哈希表 %KT% C/C++算法数据结构 c语言散列表开发语言
1、文章声明：本文是基于链地址法建立的哈希表。文章中若存在错误，欢迎各路大佬指正。本文涉及二级指针，链表等内容。该方面的知识点，可以参考文章：数据结构：单链表的相关操作-CSDN博客C语言：利用二级指针动态创建二维矩阵-CSDN博客2、哈希表的介绍：哈希表其实可以理解成一种映射，通过映射关系来存储数据，有点类似于Python中的字典。常见的如数组，链表等存储结构，他们查询数据都有一个特点，往往需要
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
大模型工程师学习日记（五）：基于LangServe的AI服务架构深度解析 MMMMMMMay Love Code 学习架构语言模型深度学习人工智能 git
1.概述LangServe️帮助开发者将LangChain可运行和链部署为RESTAPI。该库集成了FastAPI并使用pydantic进行数据验证。Pydantic是一个在Python中用于数据验证和解析的第三方库，现在是Python中使用广泛的数据验证库。它利用声明式的方式定义数据模型和Python类型提示的强大功能来执行数据验证和序列化，使您的代码更可靠、更可读、更简洁且更易于调试。。它还可
远程调试Python脚本之ptvsd 工头阿乐 PyTorch 深度学习 python 开发语言
深度学习文章目录深度学习前言前言有时候需要远程调试Python脚本，怎么办呢…以下这段代码用于远程调试Python脚本，特别是通过VisualStudioCode（VSCode）的远程调试功能。它会在指定的服务器IP和端口上等待调试器的连接。#检查是否提供了服务器IP和端口ifargs.server_ipandargs.server_port:#远程调试-参见https://code.visual
【Python】爬取高校数据（名字，院校特色，所在地，性质）。可用于判断高校是否为双一流，本科/专科等分析 llzcxdb Python python 开发语言爬虫
源网站：http://college.gaokao.com/schlist/p1利用Python的lxml库进行html解析，源代码：importrequestsfromlxmlimportetreeimportpandasaspdimportcsv#请求URLurl='http://college.gaokao.com/schlist/p'#构建请求头headers={'User-Agent':
electron 源码下载与编译构五一编程学习交流 electron javascript 前端 webrtc c语言 c++
electron源码下载与编译构建预先安装安装nodejs下载eletron构建工具：安装python构建Electron基本要求环境依赖交叉编译构建故障排查高级提示使用clang之外的其它编译器electron的depot_tools工具下载构建源码。这个工具是用nodejs写的，封装了chromium自身的depot_tools工具。非常方便易用。主要是electron在下载完chromium
一份Python面试宝典小夕Coding Python大学作业汇总 python 面试开发语言
Python面试宝典文章目录Python面试宝典题目001:在Python中如何实现单例模式。题目002：不使用中间变量，交换两个变量`a`和`b`的值。题目003：写一个删除列表中重复元素的函数，要求去重后元素相对位置保持不变。题目004：假设你使用的是官方的CPython，说出下面代码的运行结果。题目005：Lambda函数是什么，举例说明的它的应用场景。题目006：说说Python中的浅拷贝
python中的下划线用法总结白色机械键盘 python实践 python 开发语言
在Python中，下划线（underscore）有多种用法。它在不同的上下文中可以扮演不同的角色，下面是其常见用法的总结：1.单下划线"_"1.1作为临时变量或无用变量在循环或解包操作中，表示一个临时的或不关心的变量。for_inrange(5):print("Hello,World!")a,_,b=(1,2,3)print(a,b)#输出:131.2在交互式解释器中在交互式解释器中，"_"用于保
西交建筑学本科秋天毕业想转码，自学了Python+408，华为OD社招还是考研更香？程序员yt python 华为od 考研
今天给大家分享的是一位粉丝的提问，西交建筑学本科秋天毕业想转码，自学了Python+408，华为OD社招还是考研更香？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：本科就读于西安交通大学建筑学，今年21岁，秋天毕业，不想在建筑行业，想转码，现在在学Python以及计算机408课程，在Boss上投了很多的岗位好像都是华为OD社招，我毕业应该去试试
python技巧之下划线老虎也淘气 Python编程掌握指南 python django 开发语言
‍♂️个人主页@老虎也淘气个人主页✍作者简介：Python学习者希望大家多多支持我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注python技巧之下划线1、python的moudles文件中__all__作用2、__slots__用于限定类属性，如：3、下面的小技巧可以获取私有变量：4、下划线种类单个下划线（_）单下划线前缀的名称（例如_shahriar）双下划线前缀的名称（例如__s
【华为OD-E卷 -123 判断一组不等式是否满足约束并输出最大差 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java javascript c++
【华为OD-E卷-判断一组不等式是否满足约束并输出最大差100分（python、java、c++、js、c）】题目给定一组不等式，判断是否成立并输出不等式的最大差(输出浮点数的整数部分)要求:不等式系数为double类型，是一个二维数组不等式的变量为int类型，是一维数组;不等式的目标值为double类型，是一维数组不等式约束为字符串数组，只能是:“>”,“>=”,“<”,“<=”,“=”，例如，
【华为OD-E卷 -122 字符统计及重排 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 python 华为od java c++javascript
【华为OD-E卷-字符统计及重排100分（python、java、c++、js、c）】题目给出一个仅包含字母的字符串，不包含空格，统计字符串中各个字母（区分大小写）出现的次数，并按照字母出现次数从大到小的顺序。输出各个字母及其出现次数。如果次数相同，按照自然顺序进行排序，且小写字母在大写字母之前输入描述输入一行，为一个仅包含字母的字符串输出描述按照字母出现次数从大到小的顺序输出各个字母和字母次数，
【华为OD-E卷-02 最多提取子串数目100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-最多提取子串数目100分（python、java、c++、js、c）】题目给定[a-z]，26个英文字母小写字符串组成的字符串A和B，其中A可能存在重复字母，B不会存在重复字母，现从字符串A中按规则挑选一些字母，可以组成字符串B。挑选规则如下：同一个位置的字母只能挑选一次被挑选字母的相对先后顺序不能被改变求最多可以同时从A中挑选多少组能组成B的字符串。输入描述输入为2行，第1行输
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
【华为OD-E卷 - 高频题目全览（关注、收藏）通过率100%以上题目可达95%（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享纯小白编程入门教程（新手必看）计算机相关操作技巧（新手必看）华为od c++c语言 java python js javascript
注意：如果发现代码有用例覆盖不到的情况，欢迎反馈！会在第一时间修正，更新。解题不易，如对您有帮助，欢迎点赞/收藏E卷题目全览一键跳转详情题目详情跳转01补种未成活胡杨点此跳转详情02最多提取子串数目点此跳转详情03ai面板识别点此跳转详情04流浪地球
python的try和except_Python 异常处理(Try...Except) weixin_40001309
版权所有，未经许可，禁止转载try块让你可以检测代码块中的错误。except块让你可以处理错误。finally块让你可以执行最终代码，不管try与except块的结果如何，finally块的代码都将执行。异常处理当错误(或者异常)发生时，Python通常会停止执行，并报错。这些异常可以使用try/except语句处理：示例下面try块会产生异常，因为x没有定义:try:print(x)except
一文掌握python异常处理（try...except...）程序员neil python python 开发语言
目录1、基础结构2、try块3、except块4、else块5、finally块6、自定义异常7、抛出异常8、常用的内置异常类型1）、Exception：捕捉所有异常。2）、BaseException：所有异常的基类。通常不应该直接捕获这个类的实例，除非你确实打算捕获所有异常。3）、SyntaxError：Python语法错误，比如拼写错误或不正确的语句结构。4）、ImportError：尝试导入
利用Python进行数据可视化（Plotly与Dash的应用）步入烟尘 Python超入门指南全册信息可视化 python plotly
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
python中 except与 except Exception as e的区别东木月 python python性能提升 python 开发语言
python中except与exceptExceptionase的区别1、捕获所有异常使用except#-*-coding:utf-8-*-"""@contact:微信1257309054@file:except与exceptExceptionase的区别.py@time:2024/4/1313:26@author:LDC"""importsysdeffun1():try:sys<
编程提示异常就不用挨个度娘了——Python初识必备爱码小士 Python 网络爬虫机器学习 web开发人工智能
相信对于很多小白，新手对一些异常提示，都不一定明白其含义，所以给大家整理了这样一份中英对照表，对大家一定有所帮助，当然最好都能熟记于心，这样就不用再去一个个度娘了，觉得这个表不错就点个赞加转发吧，文末更多福利异常名称描述BaseException所有异常的基类SystemExit解释器请求退出KeyboardInterrupt用户中断执行(通常是输入^C)Exception常规错误的基类StopI
Python实现自动提取目标文档的大纲（13）写python的鑫哥 Python办公自动化 python 自动提取 Word 文档大纲编号
前言本文是该专栏的第13篇，后面会持续分享Python办公自动化干货知识，记得关注。大纲是一种用于组织和呈现内容结构的工具，它通过层次化的形式展示信息的框架和重点。其通常用于规划、整理和总结文档、报告、演讲、论文或其他任何形式的写作和表达。它可以帮助作者或演讲者清晰地梳理思路，确保内容的逻辑性和连贯性，同时也便于读者或听众快速了解整体结构和重点内容。而本文，笔者也重点来讲述通过Python，如何来
《Python实战进阶》No26: CI/CD 流水线：GitHub Actions 与 Jenkins 集成带娃的IT创业者 Python实战进阶 python ci/cd github
No26:CI/CD流水线：GitHubActions与Jenkins集成摘要持续集成（CI）和持续部署（CD）是现代软件开发中不可或缺的实践，能够显著提升开发效率、减少错误并加速交付流程。本文将探讨如何利用GitHubActions和Jenkins构建高效的CI/CD流水线，并通过实战案例展示如何自动化构建、测试和部署Python应用程序。无论你是个人开发者还是团队成员，本文都将帮助你掌握CI/
python tcl,Python tcl没有正确安装邓永泉 python tcl
Ijustinstalledgraphics.pyforpython.Then,whenItriedtorunthefollowingcode:fromgraphicsimport*defmain():win=GraphWin("MyCircle",100,100)c=Circle(Point(50,50),10)c.draw(win)win.getMouse()#Pausetoviewresul
【Python】解析 XML 茉菇 Python python xml
1、Python对XML的解析1.1SAX(simpleAPIforXML)SAX解析器使用事件驱动模型，通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。xml.sax模块牺牲了便捷性来换取速度和内存占用。事件驱动指一种基于回调（callback）机制的程序运行方法。利用SAX解析XML文档牵涉到两个部分:解析器：负责读取XML文档，并向事件处理器发送事件，如元素
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

基于SMO的支持向量机的Python实现并用于新闻文本分类

一、SMO算法

二、支持向量机的实现

三、新闻文本数据集fetch_20newsgroups介绍

四、基于支持向量机的新闻文本分类

1.数据预处理

2.新闻文本二分类

（1）数据导入与预处理

（2）SVM模型的训练与测试

3.新闻文本三分类

（1）数据导入与预处理

（2）SVM模型的训练与测试

五、实验结果分析

六、支持向量机的优缺点

优点：

缺点：

你可能感兴趣的:(python,自然语言处理)