背包客研究

大肠杆菌数据集的不平衡多类分类 Python

大肠杆菌数据集的不平衡多类分类

关注博主学习更多内容
关注v x GZH:多目标优化与学习Lab

教程概述

本教程分为五个部分；他们是：

大肠杆菌数据集
探索数据集
模型测试和基线结果
评估模型
1. 评估机器学习算法
2. 评估数据过采样
对新数据进行预测

大肠杆菌数据集

在这个项目中，我们将使用一个标准的不平衡机器学习数据集，称为“大肠杆菌”数据集，也称为“蛋白质定位位点”数据集。

该数据集描述了利用细胞定位位点的氨基酸序列对大肠杆菌蛋白质进行分类的问题。也就是说，根据蛋白质折叠前的化学成分来预测蛋白质如何与细胞结合。

该数据集归功于 Kenta Nakai，并由Paul Horton和Kenta Nakai在 1996 年发表的题为“预测蛋白质细胞定位位点的概率分类系统”的论文中发展成为当前的形式。他们的分类准确率达到了 81%。

该数据集由 336 个大肠杆菌蛋白质示例组成，每个示例均使用根据蛋白质氨基酸序列计算出的七个输入变量进行描述。

忽略序列名称，输入特征描述如下：

mcg

：McGeoch 的信号序列识别方法。
gvh

：von Heijne 的信号序列识别方法。
lip

：von Heijne 的信号肽酶 II 共有序列评分。
chg

：预测脂蛋白 N 末端存在电荷。
aac

：外膜和周质蛋白氨基酸含量判别分析得分。
alm1

：ALOM 跨膜区域预测程序的分数。
alm2

：从序列中排除假定的可切割信号区域后 ALOM 程序的分数。

共有八个类，描述如下：

cp

: 细胞质
im

: 内膜无信号序列
pp

: 周质
imU

: 内膜，不可切割信号序列
om

: 外膜
omL

: 外膜脂蛋白
IML

: 内膜脂蛋白
imS

：内膜，可切割信号序列

各个类别的实例分布并不均匀，在某些情况下甚至严重不平衡。

例如，“ cp ”类有 143 个示例，而“ imL ”和“ imS ”类各只有两个示例。

接下来，让我们仔细看看数据。

探索数据集

首先，下载并解压缩数据集，并将其保存在当前工作目录中，名称为“ ecoli.csv ”。

请注意，此版本的数据集已删除第一列（序列名称），因为它不包含用于建模的通用信息。

下载大肠杆菌数据集 (ecoli.csv)

查看文件的内容。

文件的前几行应如下所示：

0.49,0.29,0.48,0.50,0.56,0.24,0.35,cp

0.07,0.40,0.48,0.50,0.54,0.35,0.44,cp

0.56,0.40,0.48,0.50,0.49,0.37,0.46,cp

0.59,0.49,0.48,0.50,0.52,0.45,0.36,cp

0.23,0.32,0.48,0.50,0.55,0.25,0.35,cp

我们可以看到输入变量全部显示为数字，类标签是字符串值，需要在建模之前进行标签编码。

可以使用read_csv() Pandas 函数将数据集作为 DataFrame 加载，指定文件的位置以及没有标题行的事实。

…

# define the dataset location

filename = ‘ecoli.csv’

# load the csv file as a data frame

dataframe = read_csv(filename, header=None)

加载后，我们可以通过打印DataFrame的形状来汇总行数和列数。

…

# summarize the shape of the dataset

print(dataframe.shape)

接下来，我们可以计算每个输入变量的五数摘要。

…

# describe the dataset

set_option(‘precision’, 3)

print(dataframe.describe())

最后，我们还可以使用Counter对象汇总每个类中示例的数量。

…

# summarize the class distribution

target = dataframe.values[:,-1]

counter = Counter(target)

for k,v in counter.items():

per = v / len(target) * 100

print(‘Class=%s, Count=%d, Percentage=%.3f%%’ % (k, v, per))

将它们结合在一起，下面列出了加载和汇总数据集的完整示例。

# load and summarize the dataset

from pandas import read_csv

from pandas import set_option

from collections import Counter

# define the dataset location

filename = ‘ecoli.csv’

# load the csv file as a data frame

dataframe = read_csv(filename, header=None)

# summarize the shape of the dataset

print(dataframe.shape)

# describe the dataset

set_option(‘precision’, 3)

print(dataframe.describe())

# summarize the class distribution

target = dataframe.values[:,-1]

counter = Counter(target)

for k,v in counter.items():

per = v / len(target) * 100

print(‘Class=%s, Count=%d, Percentage=%.3f%%’ % (k, v, per))

运行示例首先加载数据集并确认行数和列数，即 336 行、7 个输入变量和 1 个目标变量。

查看每个变量的摘要，发现变量已居中，即转移到均值 0.5。变量似乎也已标准化，这意味着所有值都在 0 到 1 之间的范围内；至少没有变量的值超出这个范围。

然后总结班级分布，确认每个班级的观察结果存在严重偏差。我们可以看到，“ cp ”类占主导地位，约占 42% 的示例，少数类（例如“ imS ”、“ imL ”和“ omL ”）约占数据集的 1% 或更少。

可能没有足够的数据来从这些少数群体中进行概括。一种方法可能是简单地删除这些类的示例。

(336, 8)
        0        1        2        3        4        5        6
count 336.000 336.000 336.000 336.000 336.000 336.000 336.000

mean 0.500 0.500 0.495 0.501 0.500 0.500 0.500

std 0.195 0.148 0.088 0.027 0.122 0.216 0.209

min 0.000 0.160 0.480 0.500 0.000 0.030 0.000

25% 0.340 0.400 0.480 0.500 0.420 0.330 0.350

50% 0.500 0.470 0.480 0.500 0.495 0.455 0.430

75% 0.662 0.570 0.480 0.500 0.570 0.710 0.710

max 0.890 1.000 1.000 1.000 0.880 1.000 0.990

Class=cp, Count=143, Percentage=42.560%

Class=im, Count=77, Percentage=22.917%

Class=imS, Count=2, Percentage=0.595%

Class=imL, Count=2, Percentage=0.595%

Class=imU, Count=35, Percentage=10.417%

Class=om, Count=20, Percentage=5.952%

Class=omL, Count=5, Percentage=1.488%

Class=pp, Count=52, Percentage=15.476%

我们还可以通过为每个输入变量创建直方图来查看输入变量的分布。

下面列出了创建所有输入变量的直方图的完整示例。

# create histograms of all variables

from pandas import read_csv

from matplotlib import pyplot

# define the dataset location

filename = ‘ecoli.csv’

# load the csv file as a data frame

df = read_csv(filename, header=None)

# create a histogram plot of each variable

df.hist(bins=25)

# show the plot

pyplot.show()

我们可以看到0、5、6等变量可能具有多峰分布。变量2和3可以具有二元分布，并且变量1和4可以具有类高斯分布。

根据模型的选择，数据集可能会受益于标准化、规范化，或许还有幂变换。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bIWNGtNx-1692799401746)(attachments/SJK9V4TB.png)]

大肠杆菌数据集中变量的直方图

现在我们已经审查了数据集，让我们看看开发一个用于评估候选模型的测试工具。

模型测试和基线结果

k 折交叉验证过程提供了对模型性能的良好总体估计，至少与单个训练测试分割相比，并没有过于乐观的偏差。我们将使用k=5，这意味着每次折叠将包含大约 336/5 或大约 67 个示例。

分层意味着每次折叠的目标是包含与整个训练数据集相同的类示例混合。重复意味着评估过程将执行多次，以帮助避免侥幸结果并更好地捕获所选模型的方差。我们将使用三个重复。

这意味着单个模型将被拟合和评估 5 * 3 或 15 次，并且将报告这些运行的平均值和标准偏差。

这可以使用RepeatedStratifiedKFold scikit-learn 类来实现。

所有课程都同等重要。因此，在这种情况下，我们将使用分类精度来评估模型。

首先，我们可以定义一个函数来加载数据集，并将输入变量拆分为输入和输出变量，并使用标签编码器来确保类标签按顺序编号。

# load the dataset

def load_dataset(full_path):

# load the dataset as a numpy array

data = read_csv(full_path, header=None)

# retrieve numpy array

data = data.values

# split into input and output elements

X, y = data[:, :-1], data[:, -1]

# label encode the target variable to have the classes 0 and 1

y = LabelEncoder().fit_transform(y)

return X, y

我们可以定义一个函数来使用分层重复 5 倍交叉验证来评估候选模型，然后返回针对每次折叠和重复计算的模型分数列表。

下面的evaluate_model ()函数实现了这一点。

# evaluate a model

def evaluate_model(X, y, model):

# define evaluation procedure

cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=3, random_state=1)

# evaluate model

scores = cross_val_score(model, X, y, scoring=‘accuracy’, cv=cv, n_jobs=-1)

return scores

然后我们可以调用load_dataset()函数来加载并确认大肠杆菌数据集。

…

# define the location of the dataset

full_path = ‘ecoli.csv’

# load the dataset

X, y = load_dataset(full_path)

# summarize the loaded dataset

print(X.shape, y.shape, Counter(y))

在这种情况下，我们将评估在所有情况下预测多数类别的基线策略。

这可以使用DummyClassifier类自动实现，并将“策略”设置为“ most_frequent ”，这将预测训练数据集中最常见的类（例如类“ *cp ”）。*因此，考虑到这是训练数据集中最常见类别的分布，我们预计该模型的分类准确率约为 42%。

…

# define the reference model

model = DummyClassifier(strategy=‘most_frequent’)

将所有这些结合在一起，下面列出了使用分类准确性在大肠杆菌数据集上评估基线模型的完整示例。

# baseline model and test harness for the ecoli dataset

from collections import Counter

from numpy import mean

from numpy import std

from pandas import read_csv

from sklearn.preprocessing import LabelEncoder

from sklearn.model_selection import cross_val_score

from sklearn.model_selection import RepeatedStratifiedKFold

from sklearn.dummy import DummyClassifier

# load the dataset

def load_dataset(full_path):

# load the dataset as a numpy array

data = read_csv(full_path, header=None)

# retrieve numpy array

data = data.values

# split into input and output elements

X, y = data[:, :-1], data[:, -1]

# label encode the target variable to have the classes 0 and 1

y = LabelEncoder().fit_transform(y)

return X, y

# evaluate a model

def evaluate_model(X, y, model):

# define evaluation procedure

cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=3, random_state=1)

# evaluate model

scores = cross_val_score(model, X, y, scoring=‘accuracy’, cv=cv, n_jobs=-1)

return scores

# define the location of the dataset

full_path = ‘ecoli.csv’

# load the dataset

X, y = load_dataset(full_path)

# summarize the loaded dataset

print(X.shape, y.shape, Counter(y))

# define the reference model

model = DummyClassifier(strategy=‘most_frequent’)

# evaluate the model

scores = evaluate_model(X, y, model)

# summarize performance

print(‘Mean Accuracy: %.3f (%.3f)’ % (mean(scores), std(scores)))

运行该示例首先加载数据集，并正确报告案例数量为 336，以及类标签的分布符合我们的预期。

然后使用重复分层k 倍交叉验证来评估采用我们默认策略的DummyClassifier ，分类准确度的平均值和标准差据报告约为 42.6%。

(336, 7) (336,) Counter({0: 143, 1: 77, 7: 52, 4: 35, 5: 20, 6: 5, 3: 2, 2: 2})

Mean Accuracy: 0.426 (0.006)

模型评估期间报告警告；例如：

Warning: The least populated class in y has only 2 members, which is too few. The minimum number of members in any class cannot be less than n_splits=5.

这是因为某些类别没有足够数量的示例用于 5 倍交叉验证，例如类别“ imS ”和“ imL ”。

在这种情况下，我们将从数据集中删除这些示例。这可以通过更新load_dataset()以删除具有这些类的行（例如四行）来实现。

# load the dataset

def load_dataset(full_path):

# load the dataset as a numpy array

df = read_csv(full_path, header=None)

# remove rows for the minority classes

df = df[df[7] != ‘imS’]

df = df[df[7] != ‘imL’]

# retrieve numpy array

data = df.values

# split into input and output elements

X, y = data[:, :-1], data[:, -1]

# label encode the target variable to have the classes 0 and 1

y = LabelEncoder().fit_transform(y)

return X, y

然后我们可以重新运行该示例来建立分类准确性的基线。

下面列出了完整的示例。

# baseline model and test harness for the ecoli dataset

from collections import Counter

from numpy import mean

from numpy import std

from pandas import read_csv

from sklearn.preprocessing import LabelEncoder

from sklearn.model_selection import cross_val_score

from sklearn.model_selection import RepeatedStratifiedKFold

from sklearn.dummy import DummyClassifier

# load the dataset

def load_dataset(full_path):

# load the dataset as a numpy array

df = read_csv(full_path, header=None)

# remove rows for the minority classes

df = df[df[7] != ‘imS’]

df = df[df[7] != ‘imL’]

# retrieve numpy array

data = df.values

# split into input and output elements

X, y = data[:, :-1], data[:, -1]

# label encode the target variable to have the classes 0 and 1

y = LabelEncoder().fit_transform(y)

return X, y

# evaluate a model

def evaluate_model(X, y, model):

# define evaluation procedure

cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=3, random_state=1)

# evaluate model

scores = cross_val_score(model, X, y, scoring=‘accuracy’, cv=cv, n_jobs=-1)

return scores

# define the location of the dataset

full_path = ‘ecoli.csv’

# load the dataset

X, y = load_dataset(full_path)

# summarize the loaded dataset

print(X.shape, y.shape, Counter(y))

# define the reference model

model = DummyClassifier(strategy=‘most_frequent’)

# evaluate the model

scores = evaluate_model(X, y, model)

# summarize performance

print(‘Mean Accuracy: %.3f (%.3f)’ % (mean(scores), std(scores)))

运行该示例确认示例数量减少了 4 个，从 336 个减少到 332 个。

我们还可以看到班级数量从 8 级减少到 6 级（0 级到 5 级）。

绩效基线定为 43.1%。该分数提供了该数据集的基线，可以通过该基线来比较所有其他分类算法。获得高于约 43.1% 的分数表明模型在此数据集上具有技能，而等于或低于该值的分数表明模型在此数据集上不具有技能。

(332, 7) (332,) Counter({0: 143, 1: 77, 5: 52, 2: 35, 3: 20, 4: 5})

Mean Accuracy: 0.431 (0.005)

现在我们有了测试工具和性能基线，我们可以开始评估该数据集上的一些模型。

评估模型

在本节中，我们将使用上一节中开发的测试工具在数据集上评估一套不同的技术。

报告的性能良好，但没有高度优化（例如，未调整超参数）。

你能做得更好吗？如果您可以使用相同的测试工具获得更好的分类准确性，我很想听听。请在下面的评论中告诉我。

评估机器学习算法

让我们首先评估数据集上的混合机器学习模型。

在数据集上抽查一套不同的非线性算法可能是一个好主意，可以快速找出哪些算法效果好、值得进一步关注，哪些算法不行。

我们将在大肠杆菌数据集上评估以下机器学习模型：

线性判别分析 (LDA)
支持向量机（SVM）
袋装决策树 (BAG)
随机森林 (RF)
额外的树（ET）

我们将主要使用默认模型超参数，但集成算法中的树数量除外，我们将其设置为合理的默认值 1,000。

我们将依次定义每个模型并将它们添加到列表中，以便我们可以按顺序评估它们。下面的get_models ()函数定义了用于评估的模型列表，以及用于稍后绘制结果的模型短名称列表。

# define models to test

def get_models():

models, names = list(), list()

# LDA

models.append(LinearDiscriminantAnalysis())

names.append(‘LDA’)

# SVM

models.append(LinearSVC())

names.append(‘SVM’)

# Bagging

models.append(BaggingClassifier(n_estimators=1000))

names.append(‘BAG’)

# RF

models.append(RandomForestClassifier(n_estimators=1000))

names.append(‘RF’)

# ET

models.append(ExtraTreesClassifier(n_estimators=1000))

names.append(‘ET’)

return models, names

然后，我们可以依次枚举模型列表并评估每个模型，存储分数以供以后评估。

…

# define models

models, names = get_models()

results = list()

# evaluate each model

for i in range(len(models)):

# evaluate the model and store results

scores = evaluate_model(X, y, models[i])

results.append(scores)

# summarize performance

print(‘>%s %.3f (%.3f)’ % (names[i], mean(scores), std(scores)))

在运行结束时，我们可以将每个分数样本绘制为具有相同比例的箱须图，以便我们可以直接比较分布。

…

# plot the results

pyplot.boxplot(results, labels=names, showmeans=True)

pyplot.show()

将所有这些结合在一起，下面列出了在大肠杆菌数据集上评估一套机器学习算法的完整示例。

# spot check machine learning algorithms on the ecoli dataset

from numpy import mean

from numpy import std

from pandas import read_csv

from matplotlib import pyplot

from sklearn.preprocessing import LabelEncoder

from sklearn.model_selection import cross_val_score

from sklearn.model_selection import RepeatedStratifiedKFold

from sklearn.svm import LinearSVC

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

from sklearn.ensemble import RandomForestClassifier

from sklearn.ensemble import ExtraTreesClassifier

from sklearn.ensemble import BaggingClassifier

# load the dataset

def load_dataset(full_path):

# load the dataset as a numpy array

df = read_csv(full_path, header=None)

# remove rows for the minority classes

df = df[df[7] != ‘imS’]

df = df[df[7] != ‘imL’]

# retrieve numpy array

data = df.values

# split into input and output elements

X, y = data[:, :-1], data[:, -1]

# label encode the target variable

y = LabelEncoder().fit_transform(y)

return X, y

# evaluate a model

def evaluate_model(X, y, model):

# define evaluation procedure

cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=3, random_state=1)

# evaluate model

scores = cross_val_score(model, X, y, scoring=‘accuracy’, cv=cv, n_jobs=-1)

return scores

# define models to test

def get_models():

models, names = list(), list()

# LDA

models.append(LinearDiscriminantAnalysis())

names.append(‘LDA’)

# SVM

models.append(LinearSVC())

names.append(‘SVM’)

# Bagging

models.append(BaggingClassifier(n_estimators=1000))

names.append(‘BAG’)

# RF

models.append(RandomForestClassifier(n_estimators=1000))

names.append(‘RF’)

# ET

models.append(ExtraTreesClassifier(n_estimators=1000))

names.append(‘ET’)

return models, names

# define the location of the dataset

full_path = ‘ecoli.csv’

# load the dataset

X, y = load_dataset(full_path)

# define models

models, names = get_models()

results = list()

# evaluate each model

for i in range(len(models)):

# evaluate the model and store results

scores = evaluate_model(X, y, models[i])

results.append(scores)

# summarize performance

print(‘>%s %.3f (%.3f)’ % (names[i], mean(scores), std(scores)))

# plot the results

pyplot.boxplot(results, labels=names, showmeans=True)

pyplot.show()

运行该示例会依次评估每个算法并报告平均和标准差分类精度。

注意：由于算法或评估过程的随机性或数值精度的差异，您的结果可能会有所不同。考虑运行该示例几次并比较平均结果。

在这种情况下，我们可以看到所有测试的算法都有技巧，达到了高于默认值 43.1% 的准确率。

结果表明，大多数算法在此数据集上表现良好，并且决策树集合可能表现最好，额外树实现了 88% 的准确率，随机森林实现了 89.5% 的准确率。

>LDA 0.886 (0.027)

>SVM 0.883 (0.027)

>BAG 0.851 (0.037)

>RF 0.895 (0.032)

>ET 0.880 (0.030)

创建一个图形，显示每个算法的结果样本的箱线图。该框显示中间 50% 的数据，每个框中间的橙色线显示样本的中位数，每个框内的绿色三角形显示样本的平均值。

我们可以看到，聚类在一起的决策树集合的分数分布与测试的其他算法分开。在大多数情况下，图上的平均值和中位数很接近，表明分数分布有些对称，这可能表明模型是稳定的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jgWn8IqL-1692799401749)(attachments/CSRGM2X9.png)]

不平衡大肠杆菌数据集上机器学习模型的箱线图

评估数据过采样

由于类如此之多，而许多类中的示例如此之少，数据集可能会从过采样中受益。

我们可以测试 SMOTE 算法应用于除多数类 ( cp ) 之外的所有类，从而提高性能。

一般来说，SMOTE 似乎对决策树集成没有帮助，因此我们将测试的算法集更改为以下内容：

多项式 Logistic 回归 (LR)
线性判别分析 (LDA)
支持向量机（SVM）
k-最近邻 (KNN)
高斯过程 (GP)

下面列出了用于定义这些模型的get_models()函数的更新版本。

# define models to test

def get_models():

models, names = list(), list()

# LR

models.append(LogisticRegression(solver=‘lbfgs’, multi_class=‘multinomial’))

names.append(‘LR’)

# LDA

models.append(LinearDiscriminantAnalysis())

names.append(‘LDA’)

# SVM

models.append(LinearSVC())

names.append(‘SVM’)

# KNN

models.append(KNeighborsClassifier(n_neighbors=3))

names.append(‘KNN’)

# GP

models.append(GaussianProcessClassifier())

names.append(‘GP’)

return models, names

我们可以使用不平衡学习库中的SMOTE实现以及同一库中的Pipeline首先将 SMOTE 应用于训练数据集，然后拟合给定模型作为交叉验证过程的一部分。

SMOTE 将使用训练数据集中的 k 最近邻合成新示例，默认情况下，k设置为 5。

这对于我们数据集中的某些类来说太大了。因此，我们将尝试k值为 2。

…

# create pipeline

steps = [(‘o’, SMOTE(k_neighbors=2)), (‘m’, models[i])]

pipeline = Pipeline(steps=steps)

# evaluate the model and store results

scores = evaluate_model(X, y, pipeline)

将它们结合在一起，下面列出了在大肠杆菌数据集上使用 SMOTE 过采样的完整示例。

# spot check smote with machine learning algorithms on the ecoli dataset

from numpy import mean

from numpy import std

from pandas import read_csv

from matplotlib import pyplot

from sklearn.preprocessing import LabelEncoder

from sklearn.model_selection import cross_val_score

from sklearn.model_selection import RepeatedStratifiedKFold

from sklearn.svm import LinearSVC

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

from sklearn.neighbors import KNeighborsClassifier

from sklearn.gaussian_process import GaussianProcessClassifier

from sklearn.linear_model import LogisticRegression

from imblearn.pipeline import Pipeline

from imblearn.over_sampling import SMOTE

# load the dataset

def load_dataset(full_path):

# load the dataset as a numpy array

df = read_csv(full_path, header=None)

# remove rows for the minority classes

df = df[df[7] != ‘imS’]

df = df[df[7] != ‘imL’]

# retrieve numpy array

data = df.values

# split into input and output elements

X, y = data[:, :-1], data[:, -1]

# label encode the target variable

y = LabelEncoder().fit_transform(y)

return X, y

# evaluate a model

def evaluate_model(X, y, model):

# define evaluation procedure

cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=3, random_state=1)

# evaluate model

scores = cross_val_score(model, X, y, scoring=‘accuracy’, cv=cv, n_jobs=-1)

return scores

# define models to test

def get_models():

models, names = list(), list()

# LR

models.append(LogisticRegression(solver=‘lbfgs’, multi_class=‘multinomial’))

names.append(‘LR’)

# LDA

models.append(LinearDiscriminantAnalysis())

names.append(‘LDA’)

# SVM

models.append(LinearSVC())

names.append(‘SVM’)

# KNN

models.append(KNeighborsClassifier(n_neighbors=3))

names.append(‘KNN’)

# GP

models.append(GaussianProcessClassifier())

names.append(‘GP’)

return models, names

# define the location of the dataset

full_path = ‘ecoli.csv’

# load the dataset

X, y = load_dataset(full_path)

# define models

models, names = get_models()

results = list()

# evaluate each model

for i in range(len(models)):

# create pipeline

steps = [(‘o’, SMOTE(k_neighbors=2)), (‘m’, models[i])]

pipeline = Pipeline(steps=steps)

# evaluate the model and store results

scores = evaluate_model(X, y, pipeline)

results.append(scores)

# summarize performance

print(‘>%s %.3f (%.3f)’ % (names[i], mean(scores), std(scores)))

# plot the results

pyplot.boxplot(results, labels=names, showmeans=True)

pyplot.show()

运行该示例会依次评估每个算法并报告平均和标准差分类精度。

注意：由于算法或评估过程的随机性或数值精度的差异，您的结果可能会有所不同。考虑运行该示例几次并比较平均结果。

在这种情况下，我们可以看到带有 SMOTE 的 LDA 导致从 88.6% 小幅下降到约 87.9%，而带有 SMOTE 的 SVM 则从约 88.3% 小幅增加到约 88.8%。

在这种情况下使用 SMOTE 时，SVM 似乎也是性能最佳的方法，尽管与上一节中的随机森林相比，它没有实现改进。

>LR 0.875 (0.024)

>LDA 0.879 (0.029)

>SVM 0.888 (0.025)

>KNN 0.835 (0.040)

>GP 0.876 (0.023)

为每个算法创建分类准确度分数的箱线图和须线图。

我们可以看到 LDA 有许多性能异常值，其值高达 90%，这非常有趣。这可能表明，如果专注于丰富的类，LDA 可以表现得更好。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ptHlDwfg-1692799401750)(attachments/63CV2Q4B.png)]

在不平衡大肠杆菌数据集上使用机器学习模型进行 SMOTE 的盒须图

现在我们已经了解了如何在此数据集上评估模型，让我们看看如何使用最终模型进行预测。

对新数据进行预测

在本节中，我们可以拟合最终模型并使用它对单行数据进行预测。

我们将使用随机森林模型作为最终模型，其分类准确率约为 89.5%。

首先，我们可以定义模型。

…

# define model to evaluate

model = RandomForestClassifier(n_estimators=1000)

一旦定义，我们就可以将其拟合到整个训练数据集上。

…

# fit the model

model.fit(X, y)

一旦拟合，我们可以通过调用predict()函数使用它来对新数据进行预测。这将返回每个示例的编码类标签。

然后我们可以使用标签编码器进行逆变换以获得字符串类标签。

例如：

…

# define a row of data

row = […]

# predict the class label

yhat = model.predict([row])

label = le.inverse_transform(yhat)[0]

为了证明这一点，我们可以使用拟合模型对一些我们知道结果的情况进行一些标签预测。

下面列出了完整的示例。

# fit a model and make predictions for the on the ecoli dataset

from pandas import read_csv

from sklearn.preprocessing import LabelEncoder

from sklearn.ensemble import RandomForestClassifier

# load the dataset

def load_dataset(full_path):

# load the dataset as a numpy array

df = read_csv(full_path, header=None)

# remove rows for the minority classes

df = df[df[7] != ‘imS’]

df = df[df[7] != ‘imL’]

# retrieve numpy array

data = df.values

# split into input and output elements

X, y = data[:, :-1], data[:, -1]

# label encode the target variable

le = LabelEncoder()

y = le.fit_transform(y)

return X, y, le

# define the location of the dataset

full_path = ‘ecoli.csv’

# load the dataset

X, y, le = load_dataset(full_path)

# define model to evaluate

model = RandomForestClassifier(n_estimators=1000)

# fit the model

model.fit(X, y)

# known class “cp”

row = [0.49,0.29,0.48,0.50,0.56,0.24,0.35]

yhat = model.predict([row])

label = le.inverse_transform(yhat)[0]

print(‘>Predicted=%s (expected cp)’ % (label))

# known class “im”

row = [0.06,0.61,0.48,0.50,0.49,0.92,0.37]

yhat = model.predict([row])

label = le.inverse_transform(yhat)[0]

print(‘>Predicted=%s (expected im)’ % (label))

# known class “imU”

row = [0.72,0.42,0.48,0.50,0.65,0.77,0.79]

yhat = model.predict([row])

label = le.inverse_transform(yhat)[0]

print(‘>Predicted=%s (expected imU)’ % (label))

# known class “om”

row = [0.78,0.68,0.48,0.50,0.83,0.40,0.29]

yhat = model.predict([row])

label = le.inverse_transform(yhat)[0]

print(‘>Predicted=%s (expected om)’ % (label))

# known class “omL”

row = [0.77,0.57,1.00,0.50,0.37,0.54,0.0]

yhat = model.predict([row])

label = le.inverse_transform(yhat)[0]

print(‘>Predicted=%s (expected omL)’ % (label))

# known class “pp”

row = [0.74,0.49,0.48,0.50,0.42,0.54,0.36]

yhat = model.predict([row])

label = le.inverse_transform(yhat)[0]

print(‘>Predicted=%s (expected pp)’ % (label))

运行示例首先在整个训练数据集上拟合模型。

然后，使用拟合模型来预测从六个类别中的每一类别中选取的一个示例的标签。

我们可以看到，为每个选定的示例预测了正确的类标签。然而，平均而言，我们预计十分之一的预测会是错误的，并且这些错误可能不会在各个类别中均匀分布。

>Predicted=cp (expected cp)

>Predicted=im (expected im)

>Predicted=imU (expected imU)

>Predicted=om (expected om)

>Predicted=omL (expected omL)

>Predicted=pp (expected pp)

你可能感兴趣的:(不平衡学习,分类,python,人工智能)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，