落痕的寒假

[机器学习] Yellowbrick使用笔记6-分类可视化

分类模型试图在一个离散的空间中预测一个目标，即为一个因变量实例分配一个或多个类别。
代码下载

分类分数可视化工具显示类之间的差异以及一些特定于分类器的可视化评估。我们目前已经实施了以下分类器评估：

分类报告Classification Report：视觉分类报告，将每个类别的精度，召回率和F1显示为热图。
混淆矩阵Confusion Matrix：多类分类中混淆矩阵的热图视图。
ROCAUC: 绘制训练器的工作特性和曲线下面积
Precision-Recall曲线：绘制不同概率阈值的精度和召回率。
类平衡：目视检查目标，以向最终评估者显示每个类的支持。
类预测错误：混淆矩阵的另一种选择，它显示实际类和预测类之间的支持和差异。
辨别阈值：显示使用辨别概率或分数的二进制分类器在所有阈值上的精确度、召回率、F1和队列率。

本文如果数据集下载不下来，查看下面地址，然后放入yellowbrick安装目录\datasets\fixtures文件夹:

{
  "bikeshare": {
    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/bikeshare.zip",
    "signature": "4ed07a929ccbe0171309129e6adda1c4390190385dd6001ba9eecc795a21eef2"
  },
  "hobbies": {
    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/hobbies.zip",
    "signature": "6114e32f46baddf049a18fb05bad3efa98f4e6a0fe87066c94071541cb1e906f"
  },
  "concrete": {
    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/concrete.zip",
    "signature": "5807af2f04e14e407f61e66a4f3daf910361a99bb5052809096b47d3cccdfc0a"
  },
  "credit": {
    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/credit.zip",
    "signature": "2c6f5821c4039d70e901cc079d1404f6f49c3d6815871231c40348a69ae26573"
  },
  "energy": {
    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/energy.zip",
    "signature": "174eca3cd81e888fc416c006de77dbe5f89d643b20319902a0362e2f1972a34e"
  },
  "game": {
    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/game.zip",
    "signature": "ce799d1c55fcf1985a02def4d85672ac86c022f8f7afefbe42b20364fba47d7a"
  },
  "mushroom": {
    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/mushroom.zip",
    "signature": "f79fdbc33b012dabd06a8f3cb3007d244b6aab22d41358b9aeda74417c91f300"
  },
  "occupancy": {
    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/occupancy.zip",
    "signature": "0b390387584586a05f45c7da610fdaaf8922c5954834f323ae349137394e6253"
  },
  "spam": {
    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/spam.zip",
    "signature": "000309ac2b61090a3001de3e262a5f5319708bb42791c62d15a08a2f9f7cb30a"
  },
  "walking": {
    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/walking.zip",
    "signature": "7a36615978bc3bb74a2e9d5de216815621bd37f6a42c65d3fc28b242b4d6e040"
  },
  "nfl": {
    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/nfl.zip",
    "signature": "4989c66818ea18217ee0fe3a59932b963bd65869928c14075a5c50366cb81e1f"
  }
}

# 多行输出
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

文章目录

1 分类报告Classification Report
- 1.1 基本使用
- 1.2 快速使用
2 混淆矩阵Confusion Matrix
- 2.1 基础使用
- 2.2 用类名绘图
- 2.3 快速方法
3 ROCAUC
- 3.1 基本使用
- 3.2 多类别ROCAUC曲线
- 3.3 快速方法
4 Precision-Recall曲线
- 4.1 二分类
- 4.2 多标签分类
- 4.3 快速方法
5 类平衡
- 5.1 基本使用
- 5.2 快速方法
6 类预测错误
- 6.1 基础使用
- 6.2 快速方法
7 辨别阈值
- 7.1 判别阈值
- 7.2 快速方法
8 参考

1 分类报告Classification Report

分类报告可视化工具显示模型的精度、召回率、F1和支持度得分。为了便于解释和发现问题，该报告将数字分数与彩色编码热图相结合。所有热图都在（0.0，1.0）范围内，以便于不同分类报告之间的分类模型比较。

可视化器	ClassificationReport
快速使用方法	classification_report()
模型	分类
工作流程	模型评估

1.1 基本使用

from sklearn.model_selection import TimeSeriesSplit
from sklearn.naive_bayes import GaussianNB

from yellowbrick.classifier import ClassificationReport
from yellowbrick.datasets import load_occupancy

# Load the classification dataset
X, y = load_occupancy()

# Specify the target classes
classes = ["unoccupied", "occupied"]

# Create the training and test data
# 建立时序数据
tscv = TimeSeriesSplit()
for train_index, test_index in tscv.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

# Instantiate the classification model and visualizer
# 建立分类器
model = GaussianNB()
# support 表示是否添加support方块格中显示数据。{True，False，None，'percent'，'count'}，默认值：无
# support-'percent'表示百分比显示数据，'count'表示按个数显示数据
visualizer = ClassificationReport(model, classes=classes, support=True)

visualizer.fit(X_train, y_train)        # Fit the visualizer and the model
visualizer.score(X_test, y_test)        # Evaluate the model on the test data
visualizer.show();                       # Finalize and show the figure

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/sklearn/model_selection/_split.py:752: FutureWarning: You should specify a value for 'n_splits' instead of relying on the default value. The default value will change from 3 to 5 in version 0.22.
  warnings.warn(NSPLIT_WARNING, FutureWarning)

分类报告以每个类为基础显示主要分类指标的表示形式。
这给了分类器行为比全局精度更深的直观，这可以掩盖多类问题的一类中的功能弱点。
视觉分类报告用于比较分类模型，以选择更“红色”的模型，例如，具有更强的分类度量或更平衡的模型。

度量标准根据真阳性和假阳性，真阴性和假阴性来定义。在这种情况下，正和负是二元分类问题的类的通用名称。在上面的例子中，我们会考虑真和假被占据和真和假未被占据。因此，真正的正数是当实际类和估计类都是正数时。假阳性是指实际的类是负数，但估计的类是正数。使用这个术语，计量的定义如下:

精度precision：精确度是分类器不将一个实例标记为正的能力，而实际上是负的。对于每个类，它被定义为真阳性与真阳性和假阳性之和的比率。换句话说，“对于所有被归类为正面的例子，正确的百分比是多少?”
召回率recall：回忆是分类器找到所有正实例的能力。对于每个类，它被定义为真阳性与真阳性和假阴性之和的比率。换一种说法，“在所有实际是积极的情况下，正确分类的百分比是多少?”
F1分数：F1的分数是精度和召回率的加权调和平均值，最好的分数是1.0，最差的是0.0。一般来说，F1的分数低于准确性指标，因为它们在计算中嵌入了精度和召回率。作为一个经验法则，应该使用F1的加权平均值来比较分类器模型，而不是全局精度。
support：支持是类在指定数据集中实际出现的次数。训练数据中的不平衡支持可能表明分类器报告分数中的结构弱点，并可能表明需要分层抽样或再平衡。模型之间的支持不会改变，而是对评估过程进行诊断。

1.2 快速使用

上面的相同功能可以通过关联的快速方法来实现classification_report。此方法将ClassificationReport使用关联的参数构建对象，将其拟合，然后（可选）立即显示它。

from sklearn.model_selection import TimeSeriesSplit
from sklearn.naive_bayes import GaussianNB

from yellowbrick.datasets import load_occupancy
from yellowbrick.classifier import classification_report

# Load the classification data set
X, y = load_occupancy()

# Specify the target classes
classes = ["unoccupied", "occupied"]

# Create the training and test data
tscv = TimeSeriesSplit()
for train_index, test_index in tscv.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

# Instantiate the visualizer
visualizer = classification_report(
    GaussianNB(), X_train, y_train, X_test, y_test, classes=classes, support=True
);

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/sklearn/model_selection/_split.py:752: FutureWarning: You should specify a value for 'n_splits' instead of relying on the default value. The default value will change from 3 to 5 in version 0.22.
  warnings.warn(NSPLIT_WARNING, FutureWarning)

2 混淆矩阵Confusion Matrix

ConfusionMatrix visualizer是一个ScoreVisualizer，它使用一个合适的scikit学习分类器和一组测试X和y值，并返回一个报告，显示每个测试值预测类与实际类的比较情况。数据科学家使用混淆矩阵来理解哪些类最容易混淆。它们提供的信息与分类报告中提供的信息相似，但它们提供了对单个数据点分类的更深入的了解，而不是顶级分数。

下面是一些使用ConfusionMatrix可视化工具的示例；更多信息可以通过查看scikit learn文档来找到。

可视化器	ConfusionMatrix
快速使用方法	confusion_matrix()
模型	分类
工作流程	模型评估

2.1 基础使用

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split as tts
from sklearn.linear_model import LogisticRegression
from yellowbrick.classifier import ConfusionMatrix

# We'll use the handwritten digits data set from scikit-learn.
# Each feature of this dataset is an 8x8 pixel image of a handwritten number.
# Digits.data converts these 64 pixels into a single array of features
#我们将使用scikit learn中的手写数字数据集。
#该数据集的每个特征都是手写数字的8x8像素图像。
# Digits.data 将这64个像素转换为一个维度数组
digits = load_digits()
X = digits.data
y = digits.target

X_train, X_test, y_train, y_test = tts(X, y, test_size =0.2, random_state=11)
X_test.shape,y_test.shape
model = LogisticRegression(multi_class="auto", solver="liblinear")

# The ConfusionMatrix visualizer taxes a model
# 混淆矩阵分类号
cm = ConfusionMatrix(model, classes=[0,1,2,3,4,5,6,7,8,9])

# Fit fits the passed model. This is unnecessary if you pass the visualizer a pre-fitted model
cm.fit(X_train, y_train)

# To create the ConfusionMatrix, we need some test data. Score runs predict() on the data
# and then creates the confusion_matrix from scikit-learn.
#为了创建ConfusionMatrix，我们需要一些测试数据。对数据执行Score runs predict（）然后从scikit learn创建混淆矩阵。
cm.score(X_test, y_test)

# 图中显示的每一类的个数
cm.show();

2.2 用类名绘图

可以使用label_encoder参数将类名添加到ConfusionMatrix图中。label_编码器可以是sklearn.preprocessing.LabelEncoder（或具有执行映射的反_变换方法的任何对象）或具有编码到字符串映射的dict，如下面的示例所示：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split as tts
from sklearn.linear_model import LogisticRegression
from yellowbrick.classifier import ConfusionMatrix

iris = load_iris()
X = iris.data
y = iris.target
classes = iris.target_names

X_train, X_test, y_train, y_test = tts(X, y, test_size=0.2)

model = LogisticRegression(multi_class="auto", solver="liblinear")

# percent表示显示百分比
iris_cm = ConfusionMatrix(
    model, classes=classes,
    label_encoder={
     0: 'setosa', 1: 'versicolor', 2: 'virginica'},percent =True
)

iris_cm.fit(X_train, y_train)
iris_cm.score(X_test, y_test)

iris_cm.show();

2.3 快速方法

上面的相同功能可以通过关联的快速方法来实现confusion_matrix。此方法将ConfusionMatrix使用关联的参数构建对象，将其拟合，然后（可选）立即显示它。在下面的示例中，我们可以看到如何LogisticRegression有效地对信用数据集建模（提示：请Rank2D检查多重共线性！）。

from yellowbrick.datasets import load_credit
from yellowbrick.classifier import confusion_matrix
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split as tts

#Load the classification dataset
X, y = load_credit()

#Create the train and test data
X_train, X_test, y_train, y_test = tts(X, y, test_size=0.2)

# Instantiate the visualizer with the classification model
confusion_matrix(
    LogisticRegression(),
    X_train, y_train, X_test, y_test,
    classes=['not_defaulted', 'defaulted']
);

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/sklearn/linear_model/logistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)

3 ROCAUC

ROCAUC(接受者操作特征/曲线下的面积)图允许用户可视化分类器的敏感性和特异性之间的权衡。接收器工作特性(ROC)是分类器预测质量的度量，它比较和可视化模型的灵敏度和特异度之间的权衡。
绘制ROC曲线时，ROC曲线在Y轴上显示真标签的阳性率，在X轴上显示假标签的阳性率，同时显示全局平均和每个类别的假阳性率。
因此，理想点是图的左上角：假阳性为0，真阳性为1。

这就引出了另一个度量，曲线下面积(AUC)，它是假阳性和真阳性之间关系的计算。AUC越高，模型通常越好。然而，检查曲线的“陡度”也很重要，因为这描述了真实阳性率的最大化，同时使假阳性率最小化。

关于ROC和AUC可以查看https://segmentfault.com/a/1190000016686335

可视化器	ROCAUC
快速使用方法	roc_auc()
模型	分类
工作流程	模型评估

3.1 基本使用

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

from yellowbrick.classifier import ROCAUC
from yellowbrick.datasets import load_spam

# Load the classification dataset
X, y = load_spam()

# Create the training and test data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Instantiate the visualizer with the classification model
# 初始分类器
model = LogisticRegression(multi_class="auto", solver="liblinear")
# 绘制ROCAUC
visualizer = ROCAUC(model, classes=["not_spam", "is_spam"])

visualizer.fit(X_train, y_train)        # Fit the training data to the visualizer
visualizer.score(X_test, y_test)        # Evaluate the model on the test data
visualizer.show();                       # Finalize and show the figure

3.2 多类别ROCAUC曲线

Yellowbrick的ROCAUC可视化工具允许绘制多类分类曲线。ROC曲线通常用于二值分类，而事实上Scikit-Learn roc_curve度量仅能对二值分类器进行度量。Yellowbrick通过对输出进行二进制化(每个类)或使用one vs-rest(micro score)或one vs-all(macro score)分类策略来解决这个问题。关于one vs-rest(micro score)或one vs-all(macro score)解释见https://blog.csdn.net/u010551621/article/details/46907575

from sklearn.linear_model import RidgeClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OrdinalEncoder, LabelEncoder

from yellowbrick.classifier import ROCAUC
from yellowbrick.datasets import load_game

# Load multi-class classification dataset
X, y = load_game()

# Encode the non-numeric columns
X = OrdinalEncoder().fit_transform(X)
y = LabelEncoder().fit_transform(y)

# Create the train and test data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Instaniate the classification model and visualizer
model = RidgeClassifier()
# 多类
visualizer = ROCAUC(model, classes=["win", "loss", "draw"])

visualizer.fit(X_train, y_train)        # Fit the training data to the visualizer
visualizer.score(X_test, y_test)        # Evaluate the model on the test data
visualizer.show();            # Finalize and render the figure

默认情况下，在使用多类ROCAUC可视化工具时，除了每个类的微观和宏观平均曲线外，还绘制了每个类的曲线。这使用户可以按类别检查敏感性和特异性之间的权衡。请注意，对于multi-class ROCAUC，必须至少将micro，macro或per_class参数之一设置为True（默认情况下，所有参数都设置为True）。

3.3 快速方法

上面的相同功能可以通过关联的快速方法来实现roc_auc。此方法将ROCAUC使用关联的参数构建对象，将其拟合，然后（可选）立即显示它

from yellowbrick.classifier.rocauc import roc_auc
from yellowbrick.datasets import load_credit
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

#Load the classification dataset
X, y = load_credit()

#Create the train and test data
X_train, X_test, y_train, y_test = train_test_split(X,y)

# Instantiate the visualizer with the classification model
model = LogisticRegression()
roc_auc(model, X_train, y_train, X_test=X_test, y_test=y_test, classes=['not_defaulted', 'defaulted']);

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/sklearn/linear_model/logistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)

4 Precision-Recall曲线

精确召回曲线是用来评估分类器质量的指标，特别是在分类非常不平衡的情况下。
精度-召回曲线显示了精度(衡量结果相关性)和召回率(衡量返回多少相关结果)之间的权衡。
曲线下面的大区域代表高-召回率和精确度，这是分类器的最佳情况，显示了为其选择的大多数类别返回准确结果的模型。
关于 Precision-Recall具体可以参考https://scikit-learn.org/stable/auto_examples/model_selection/plot_precision_recall.html

可视化器	PrecisionRecallCurve
快速使用方法	precision_recall_curve()
模型	分类
工作流程	模型评估

4.1 二分类

from sklearn.linear_model import RidgeClassifier
from sklearn.model_selection import train_test_split as tts
from yellowbrick.classifier import PrecisionRecallCurve
from yellowbrick.datasets import load_spam

# Load the dataset and split into train/test splits
X, y = load_spam()

X_train, X_test, y_train, y_test = tts(X, y, test_size=0.2, shuffle=True)

# Create the visualizer, fit, score, and show it
viz = PrecisionRecallCurve(RidgeClassifier())
viz.fit(X_train, y_train)
viz.score(X_test, y_test)
viz.show();

精确召回曲线的基本情况是二进制分类情况，这种情况也是最直观的解释。在上图中，我们可以看到y轴上的精度相对于x轴上的召回率。填充区域越大，分类器越强。红线表示平均精度，它是整个图的汇总，计算为在每个阈值处获得的精度的加权平均值，因此权重是与前一个阈值的召回率之差。

4.2 多标签分类

为了支持多标签分类，将估计器包装在OneVsRestClassifier中，以针对每个类生成二进制比较（例如，正例是该类，而负例是任何其他类）。然后，将Precision-Recall曲线计算为所有类别的精度和召回率的平均值：

from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder
from sklearn.model_selection import train_test_split as tts
from yellowbrick.classifier import PrecisionRecallCurve
from yellowbrick.datasets import load_game

# Load dataset and encode categorical variables
X, y = load_game()
X = OrdinalEncoder().fit_transform(X)
y = LabelEncoder().fit_transform(y)

X_train, X_test, y_train, y_test = tts(X, y, test_size=0.2, shuffle=True)

# Create the visualizer, fit, score, and show it
viz = PrecisionRecallCurve(RandomForestClassifier(n_estimators=10))
viz.fit(X_train, y_train)
viz.score(X_test, y_test)
viz.show();

然而，可以计算出更复杂的精确召回曲线，单独显示每条曲线以及F1分数等参曲线（例如，显示不同F1分数的精确度和召回率之间的关系）。

from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder
from sklearn.model_selection import train_test_split as tts
from yellowbrick.classifier import PrecisionRecallCurve
from yellowbrick.datasets import load_game

# Load dataset and encode categorical variables
X, y = load_game()
X = OrdinalEncoder().fit_transform(X)
encoder = LabelEncoder()
y = encoder.fit_transform(y)

X_train, X_test, y_train, y_test = tts(X, y, test_size=0.2, shuffle=True)

# Create the visualizer, fit, score, and show it
viz = PrecisionRecallCurve(
    MultinomialNB(), per_class=True, iso_f1_curves=True,
    fill_area=False, micro=False, classes=encoder.classes_
)
viz.fit(X_train, y_train)
viz.score(X_test, y_test)
viz.show();

4.3 快速方法

使用关联的快速方法，可以在一行中实现与上述类似的功能precision_recall_curve。此方法将实例化PrecisionRecallCurve可视化程序并将其适合于训练数据，然后将其在可选提供的测试数据（或未提供的训练数据）上评分。

from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder
from sklearn.model_selection import train_test_split as tts
from yellowbrick.classifier import PrecisionRecallCurve
from yellowbrick.datasets import load_game

# Load dataset and encode categorical variables
X, y = load_game()
X = OrdinalEncoder().fit_transform(X)
encoder = LabelEncoder()
y = encoder.fit_transform(y)

X_train, X_test, y_train, y_test = tts(X, y, test_size=0.2, shuffle=True)

# Create the visualizer, fit, score, and show it
viz = PrecisionRecallCurve(
    MultinomialNB(), per_class=True, iso_f1_curves=True,
    fill_area=False, micro=False, classes=encoder.classes_
)
viz.fit(X_train, y_train)
viz.score(X_test, y_test)
viz.show();

5 类平衡

分类模型面临的最大挑战之一是训练数据中类的不平衡。
严重的类别失衡可能会被相对较好的F1和准确性分数所掩盖-分类器只是猜测多数类别，而不对代表不足的类别进行任何评估。有几种处理类不平衡的技术，如分层抽样、对多数类进行下采样、加权等。但是在采取这些操作之前，了解训练数据中的类平衡是很重要的。
ClassBalance可视化工具通过创建每个类的支持条形图(即类在数据集中的表示频率)来支持这一点。

可视化器	ClassBalance
快速使用方法	class_balance()
模型	分类
工作流程	特征分析，目标分析，模型选择

5.1 基本使用

from yellowbrick.datasets import load_game
from yellowbrick.target import ClassBalance

# Load the classification dataset
X, y = load_game()

# Instantiate the visualizer
visualizer = ClassBalance(labels=["draw", "loss", "win"])

visualizer.fit(y)        # Fit the data to the visualizer
visualizer.show();       # Finalize and render the figure

由此得到的数字使我们能够诊断平衡问题的严重性。在这个图中，我们可以看到“赢”类在其他两个类中占主导地位。一个潜在的解决方案可能是创建一个二进制分类器：“win”vs“not win”，并将“loss”和“draw”类组合成一个类。

如果在评估过程中必须保持班级不平衡（例如，被分类的事件实际上与频率所暗示的一样罕见），则应使用分层抽样来创建训练和测试拆分。这样可以确保测试数据的类别与培训数据的比例大致相同。虽然scikit-learn默认在train_test_split和其他cv方法中执行此操作，但比较两个拆分中每个类的支持可能很有用。

ClassBalance可视化器具有“比较”模式，可以将训练和测试数据传递到fit（），从而创建并排的条形图，而不是单个条形图，如下所示：

from sklearn.model_selection import TimeSeriesSplit

from yellowbrick.datasets import load_occupancy
from yellowbrick.target import ClassBalance

# Load the classification dataset
X, y = load_occupancy()

# Create the training and test data
tscv = TimeSeriesSplit()
for train_index, test_index in tscv.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

# Instantiate the visualizer
visualizer = ClassBalance(labels=["unoccupied", "occupied"])

visualizer.fit(y_train, y_test)        # Fit the data to the visualizer
visualizer.show();

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/sklearn/model_selection/_split.py:752: FutureWarning: You should specify a value for 'n_splits' instead of relying on the default value. The default value will change from 3 to 5 in version 0.22.
  warnings.warn(NSPLIT_WARNING, FutureWarning)

该可视化使我们能够进行快速检查，以确保两个拆分中每个类的比例大致相似。这种可视化应该是第一站，尤其是当评估指标在不同拆分之间变化很大时。

5.2 快速方法

上面的相同功能可以通过关联的快速方法class_balance来实现。此方法将ClassBalance使用关联的参数构建对象，将其拟合，然后（可选）立即显示它。

from yellowbrick.datasets import load_game
from yellowbrick.target import class_balance

# Load the dataset
X, y = load_game()

# Use the quick method and immediately show the figure
class_balance(y);

6 类预测错误

Yellowbrick的ClassPredictionError图是对其他分类模型诊断工具(比如混淆矩阵和分类报告)的扭曲。与分类报告一样，这个图以堆叠条形图的形式显示了拟合分类模型中每个类的支持度(训练样本的数量)。每个条被分割以显示每个类的预测比例(包括假阴性和假阳性，如混淆矩阵)。您可以使用ClassPredictionError来可视化您的分类器遇到了哪些特别困难的类，更重要的是，在每个类的基础上它给出了哪些不正确的答案。这通常可以使您更好地理解不同模型的优缺点以及数据集特有的特殊挑战。
类预测误差图提供了一种快速了解分类器预测正确类的能力的方法。

可视化器	ClassPredictionError
快速使用方法	class_prediction_error()
模型	分类
工作流程	模型评估

6.1 基础使用

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from yellowbrick.classifier import ClassPredictionError


# Create classification dataset
X, y = make_classification(
    n_samples=1000, n_classes=5, n_informative=3, n_clusters_per_class=1,
    random_state=36,
)

classes = ["apple", "kiwi", "pear", "banana", "orange"]

# Perform 80/20 training/test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20,
                                                    random_state=42)
# Instantiate the classification model and visualizer
visualizer = ClassPredictionError(
    RandomForestClassifier(random_state=42, n_estimators=10), classes=classes
)

# Fit the training data to the visualizer
visualizer.fit(X_train, y_train)

# Evaluate the model on the test data
visualizer.score(X_test, y_test)

# Draw visualization
visualizer.show();

在上面的例子中，虽然RandomForestClassifier似乎很擅长根据水果的特征正确地预测苹果，但它经常错误地将梨标记为猕猴桃，而将猕猴桃错误地标记为香蕉。

相比之下，在下面的例子中，RandomForestClassifier在正确预测默认情况下的账户方面做得很好，但在预测账户持有人是否保持了账单的流动方面，就有点像抛硬币一样困难。

from sklearn.ensemble import RandomForestClassifier
from yellowbrick.classifier import ClassPredictionError
from yellowbrick.datasets import load_credit

X, y = load_credit()

classes = ['account in default', 'current with bills']

# Perform 80/20 training/test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20,
                                                    random_state=42)

# Instantiate the classification model and visualizer
visualizer = ClassPredictionError(
    RandomForestClassifier(n_estimators=10), classes=classes
)

# Fit the training data to the visualizer
visualizer.fit(X_train, y_train)

# Evaluate the model on the test data
visualizer.score(X_test, y_test)

# Draw visualization
visualizer.show();

6.2 快速方法

使用关联的快速方法，可以在一行中实现与上述类似的功能class_prediction_error。此方法将实例化ClassPredictionError可视化程序并将其适合于训练数据，然后将其在可选提供的测试数据（或未提供的训练数据）上评分。

from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split as tts
from yellowbrick.classifier import class_prediction_error
from yellowbrick.datasets import load_occupancy

# Load the dataset and split into train/test splits
X, y = load_occupancy()
X_train, X_test, y_train, y_test = tts(
    X, y, test_size=0.2, shuffle=True
)

class_prediction_error(
    LinearSVC(random_state=42),
    X_train, y_train, X_test, y_test,
    classes=["vacant", "occupied"]
);

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/sklearn/svm/base.py:922: ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.
  "the number of iterations.", ConvergenceWarning)

7 辨别阈值

相对于二分类器的识别阈值，对精度、召回率、f1得分和队列率进行可视化。辨别阈值是选择正类而不是负类的概率或得分。通常，这个值设置为50%，但是可以调整阈值，以增加或减少对误报或其他应用因素的敏感性。(该可视化工具仅适用于二进制分类。)

可视化器	discriminationThreshold
快速使用方法	discrimination_threshold()
模型	分类
工作流程	模型评估

7.1 判别阈值

from sklearn.linear_model import LogisticRegression

from yellowbrick.classifier import DiscriminationThreshold
from yellowbrick.datasets import load_spam

# Load a binary classification dataset
X, y = load_spam()

# Instantiate the classification model and visualizer
model = LogisticRegression(multi_class="auto", solver="liblinear")
visualizer = DiscriminationThreshold(model)

visualizer.fit(X, y)        # Fit the data to the visualizer
visualizer.show();           # Finalize and render the figure

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/sklearn/svm/base.py:922: ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.
  "the number of iterations.", ConvergenceWarning)
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/sklearn/svm/base.py:922: ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.
  "the number of iterations.", ConvergenceWarning)
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/sklearn/svm/base.py:922: ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.
  "the number of iterations.", ConvergenceWarning)

二进制分类算法的一种常见用法是使用它们产生的分数或概率来确定需要特殊处理的案例。例如，防欺诈应用程序可能使用分类算法来确定交易是否可能是欺诈性的，是否需要详细调查。在上图中，我们提供了一个示例，其中二进制分类器确定电子邮件是“垃圾邮件”（肯定的情况）还是“非垃圾邮件”（否定的情况）。被检测为垃圾邮件的电子邮件将移至隐藏文件夹，并最终被删除。

许多分类器使用Decision_function对阳性分类评分，或使用predict_proba函数计算阳性分类的概率。如果分数或概率大于某个判别阈值，则选择肯定类别，否则选择否定类别。

一般来说，阈值在案例之间是平衡的，并设置为0.5或50%的概率。但是，这个阈值可能不是最优阈值:对于一个辨别阈值，精度和召回率之间通常存在反向关系。通过调整分类器的阈值，可以将F1得分(精度和召回率的调和平均值)调整为可能的最佳匹配，或者调整分类器以使其行为最适合特定应用程序。分类器是通过考虑以下指标来调整的:

精度：精度的提高降低了误报的数量;当特殊处理的成本很高(例如，在防止欺诈或丢失重要电子邮件上浪费时间)时，应该优化这个度量。
召回率：召回率的增加降低漏掉阳性类别的可能性；在至关重要的情况下，即使以更多的误报为代价，也应该优化此指标。
F1得分：F1得分为precision和recall之间的调和平均值。fbeta参数确定计算此度量时精度和召回率的相对权重，默认设置为1或F1。优化此度量可以在精确度和召回率之间取得最佳平衡。
排队率：“队列”是垃圾邮件文件夹或欺诈调查台的收件箱。该指标描述了必须检查的实例的百分比。如果审核的成本很高（例如预防欺诈），则必须在业务需求方面将其降至最低；如果没有（例如垃圾邮件过滤器），则可以对其进行优化以确保收件箱保持整洁。

在上图中，我们看到可视化器已调整为寻找最佳F1分数，该分数标注为阈值0.43。为了考虑模型相对于度量的变化（显示为中值曲线周围的填充区域），模型在多个训练/测试拆分中多次运行。

7.2 快速方法

上面的相同功能可以通过关联的快速方法来实现discrimination_threshold。此方法将DiscriminationThreshold使用关联的参数构建对象，将其拟合，然后（可选）立即显示它.

from yellowbrick.classifier.threshold import discrimination_threshold
from yellowbrick.datasets import load_occupancy
from sklearn.neighbors import KNeighborsClassifier
import numpy as np

#Load the classification dataset
X, y = load_occupancy()

# Instantiate the visualizer with the classification model
model = KNeighborsClassifier(3)

# exclude设定不显示的指标
# argmax阈值评价的指标，可选'precision','recall','fscore',None,默认'f1score'
discrimination_threshold(model, X, y,exclude='queue_rate', argmax='precision');

8 参考

https://www.scikit-yb.org/en/latest/api/classifier/confusion_matrix.html

https://www.scikit-yb.org/en/latest/api/classifier/classification_report.html

https://www.scikit-yb.org/en/latest/api/classifier/rocauc.html

https://www.scikit-yb.org/en/latest/api/classifier/prcurve.html

https://www.scikit-yb.org/en/latest/api/target/class_balance.html

https://www.scikit-yb.org/en/latest/api/classifier/class_prediction_error.html

https://www.scikit-yb.org/en/latest/api/classifier/threshold.html

你可能感兴趣的:(Python,数据分析与可视化,机器学习)

2021-10-08 用Python写的Linux下的转换word的docx文件为pdf文件，并使用Docker容器自动化部署 Amoor123 值得收藏的Python小技巧 docker python linux
文档层级完整项目资源代码先上源代码程序的基本思路是在数据库中存储文件名和他的MD5信息，校验这两个数据，如果数据库里面没有就转换，如果有就不转换，如果文件名有但MD5不同，就要删除原有的数据条目，避免word文档回到旧版本时转换不了importsubprocess#fromwin32com.clientimportgencache#fromwin32com.clientimportconstant
python模块websockets，浏览器与服务器之间的双向通信局外人LZ python python 开发语言
一、简介WebSocket是一种在Web浏览器和服务器之间进行实时双向通信的协议。它通过建立一条持久的连接，允许服务器主动向客户端推送数据，实现实时性和双向通信的能力。与传统的HTTP请求-响应模式不同，WebSocket提供了一个长时间运行的连接，可以在客户端和服务器之间进行双向通信。这意味着服务器可以主动向客户端发送数据，而不需要客户端发起请求。这种实时性和双向通信的特性使得WebSocket
Python_time库、直接动手 #Python python time
time库1.预知：单行动态刷新刷新的关键是\r刷新的本质是：用后打印的字符覆盖之前的字符不能换行：print()需要被控制要能回退：打印后光标回退之前的位置\r例：importtimeforiinrange(101):print(“\r{:3}%”.format(i),end=“”)time.sleep(0.1)#end=””表示将字符串最后的默认”/n”变成””(空),即不会换行2.定义:ti
python之time库 qq_44659804 python python 开发语言
python之time库time库time.strftime()的格式化示例time.time()示例time.localtime()示例time.gmtime()示例time.ctime()示例time.asctime()示例time.strftime()示例time.strptime()示例time.sleep()time库Python中内置了一些与时间处理相关的库，如time、datatim
Pandas读写JSON文件的终极指南与实战技巧read_json、to_json 步入烟尘 Python超入门指南全册 pandas json python 文件处理实战技巧
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
【python学习】一篇带你玩转 Python JSON 操作的终极指南：dump、dumps、load、loads 全解析 NLP仙人 python python 学习 json
在现代编程中，JSON(JavaScriptObjectNotation)是一种广泛使用的数据交换格式。在Python中，处理JSON数据是一项常见的任务，Python提供了强大的json模块来轻松地进行JSON编码和解码。本文将详细介绍json.dump、json.dumps、json.load和json.loads四个函数的用法，并通过代码示例帮助你掌握这些工具。json.dump和json.
使用Python轻松控制Arduino的宝藏库：Python Arduino Command API 尚舰舸Elsie
使用Python轻松控制Arduino的宝藏库：PythonArduinoCommandAPI去发现同类优质开源项目:https://gitcode.com/1、项目介绍你是否曾因反复上传Arduino代码到板子上而感到困扰？PythonArduinoCommandAPI是一个轻量级的Python库，它通过标准串行接口，无论是有线还是无线连接，让你能直接与Arduino微控制器进行通信。这个库采用
【2024最新】Arduino通过Python进行串口通信控制电机 YLCHUP Arduino python 单片机开发语言 c++arduino 人工智能硬件工程
1.背景最近想研究一下用Python控制Arduino的技术，通过上网查询，发现可以用Python中的serial库来实现和Arduino主板的串口通信，从而控制Arduino。特此记录一下这个小项目的过程及出现的问题。2.基础准备主板：ArduinoAVR开发板配件：LED灯、按钮、电机Python版本：Python3.8.1所需类库：Python-serial（安装：命令行输入pipinsta
Python读取JSON文件 UIEdit python json 前端 Python
在Python中，我们可以使用内置的json模块来读取和解析JSON文件。JSON（JavaScriptObjectNotation）是一种常用的数据交换格式，它以易于阅读和编写的文本形式存储数据。下面是使用Python读取JSON文件的详细步骤。步骤1:导入所需模块首先，我们需要导入Python的json模块，该模块提供了处理JSON数据的函数和方法。importjson步骤2:打开JSON文件
[Python从零到壹] 七十七.图像识别及经典案例篇之目标检测入门普及和ImageAI对象检测详解 Eastmount Python从零到壹 python 目标检测 ImageAI 图像是被基础系列
欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智
Python 读取Json的方法 AresGod python python json
一种直接用open的方法importjsonld=json.load(open(r’D:\temp\in.json’))另外一种方法importjsonf=file(r’D:\temp\in.json’))ld=json.load(f)这两种方法都可以直接对文件进行解析而对于字符串的解析，就要用到loadsfoo=‘{“age”:38}’my_json=json.loads(foo)
Python之time时间库 CodeDevMaster Python python 后端
time时间库概述获取当前时间time库datetime库区别时间元组处理获取时间元组的各个部分时间戳和时间元组的转换格式化时间格式化时间解析时间格式符号说明暂停程序计时操作简单计时高精度计时计时器类的实现UTC时间操作time库datetime库概述time是Python标准库中的一个模块，用于处理时间相关的操作。它提供了各种函数来获取当前时间、格式化时间、进行时间的转换和计算等。首先，需要导入
websockets库使用（基于Python）弱冠少年 Pyhton python 开发语言 numpy
主要参考资料：【Python】websockets库的介绍及用法:https://blog.csdn.net/qq_53871375/article/details/135920231python模块websockets，浏览器与服务器之间的双向通信:https://blog.csdn.net/randy521520/article/details/134752051目录websockets库创建
abaqus python提取楼层剪力_用Python提取ABAQUS中节点集合的反力 weixin_39963523 abaqus python提取楼层剪力
用Python提取ABAQUS中节点集合的反力注：节点反力可以通过PATH路径来提取！！！(还是较为方便)1>>>fromodbAccessimport*2>>>myodb=openOdb('Job-1.odb')#该ODB文件用myodb表示此处的job-1：表示第一个作业名称。上图则job-1的位置就应该用beam-1来代替3>>>printmyodb.rootAssembly.nodeSet
python爬取百度学术文献搜索引擎_通用爬虫探索（一）：适用一般网站的爬虫吃货组长
这是笔者参加今年的泰迪杯C题的论文简化版。虽然最后只评上了一个安慰奖，但个人感觉里边有些思路对爬虫工作还是有些参加价值的。所以还是放出来供大家参考一下。简介#一个爬虫可以分为两个步骤：1.把网页下载下来；2.从网页中把所需要的信息抽取出来。这两个步骤都存在相应的技术难点。对于第一个步骤，难度在于如何应对各大网站的反爬虫措施，如访问频率过高则封IP或者给出验证码等，这需要根据不同网站的不同反爬虫措施
华为OD机试E卷 --货币单位换算--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述记账本上记录了若干条多国货币金额，需要转换成人民币分（fen），汇总后输出。每行记录一条金额，金额带有货币单位，格式为数字+单位，可能是单独元，或者单独分，或者元与分的组合。要求将这些货币全部换算成人民币分（fen）后进行汇总，汇总结果仅保留整数，小数部分舍弃。元和分的换算关
华为OD机试E卷 - 增强的strstr（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 java 华为od python javascript c语言 c++华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述C语言有一个库函数：char*strstr(constchar*haystack,constchar*needle)，实现在字符串haystack中查找第一次出现字符串needle的位置，如果未找到则返回null。现要求实现一个strstr的增强函数，可以使用带可选段的字符串来模糊查询，与strstr一样返回首次查找到
Python代码用于在Abaqus中提取指定节点集的反作用力数据 Renz_314 python 材料工程
这段代码用于在Abaqus中提取指定节点集的反作用力数据，并显示仿真结果。它通过打开仿真结果数据库（ODB文件），在特定视口中显示仿真结果，并从指定的节点集中提取反作用力数据，供后续分析使用。fromabaqusimport*fromabaqusConstantsimport*importvisualizationimportxyPlot#打开指定路径下的ODB文件odb=visualizatio
Abaqus中批量对节点施加集中力荷载有限元术仿真 Abaqus二次开发 python
笔者为科研界最后的摆烂王，目前利用python代码对Abaqus进行二次开发尚在学习中。欢迎各位摆烂的仁人志士们和我一起摆烂！ps：搞什么科研，如果不是被逼无奈，谁要搞科研！先前撰写了一篇关于Abaqus批量施加荷载（位移）的文章，但是很多哥哥们私信小弟的问题，大都是需要施加集中力或者其他节点力。所以昨天也是抽空写了一下，关于Abaqus批量施加集中力荷载在任一节点上的python脚本。在这段过程
Python爬取搜索引擎结果数目 Gaia_Pygmalion python
#coding:utf-8importurllibimporturllib2importreimportsysimportsocketimporttimeprint"Startofwork"filename="keywords.txt"#关键词文件fid=open(filename,'r')all_text=fid.readlines()NumOutput=open(r'searchnumber.
常用Python自动化测试框架有哪些？字节程序员软件测试 python 开发语言压力测试单元测试集成测试
随着技术的进步和自动化技术的出现，市面上出现了一些自动化测试框架。只需要进行一些适用性和效率参数的调整，这些自动化测试框架就能够开箱即用，大大节省了测试时间。而且由于这些框架被广泛使用，他们具有很好的健壮性，并且具有广泛多样的用例集和技术来轻易发现微小的缺陷。以前，测试团队接手一个项目，他们不得不为这个项目构建一个自动化测试框架。一个测试框架应该具有最佳的测试用例、假设（assumptions）、
华为OD机试E卷 --增强的strstr--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码题目描述C语言有一个库函数:char*strstr(constchar*haystack,constchar*needle),实现在字符串haystack中查找第一次出现字符串needle的位置，如果未找到则返回null。现要求实现一个strstr的增强函数，可以使用带可选段的字符串来模糊查询，strstr
使用 Python 指定内容爬取百度引擎搜索结果 m0_74825614 python 百度开发语言
在本篇博客中，我将展示如何使用Python编写一个简单的百度搜索爬虫。这个爬虫可以自动化地从百度获取搜索结果，并提取每个结果的标题和链接。我们将使用requests库来发送HTTP请求，使用BeautifulSoup库来解析HTML内容。需求分析在实现爬虫之前，我们需要明确以下需求：通过构建百度搜索的URL来发送搜索请求。解析百度搜索结果页面，提取每个结果的标题和链接。将搜索结果以列表形式返回，方
python连接MYSQL数据库（连接MYSQL数据库报错解决方法） Oblinto 数据库学习数据库 mysql
一、连接前的准备（如果报错可以从以下几个方面检查一下）1.检查mysql服务查看mysql服务是否开启sudosystemctlstatusmysql若没开启，开启mysql服务sudosystemctlstartmysql2.检查mysql的3306端口查看3306端口是否打开netstat-an|grep3306若没打开，打开3306端口sudoufwallow3306/tcp3.修改配置文件
PyCharm报 mysql连接异常退出，报错 Process finished with exit code -1073741819 (0xC0000005) maelstorm mysql 数据库
mysql-connector-python9.1.0，PyCharm报Processfinishedwithexitcode-1073741819(0xC0000005)_mysql1073741819-CSDN博客降级mysql-connector-python9.1.0到9.0.0搞得一晚上md
github上的python代码怎么运行_使用 Python 在 GitHub 上运行你的博客 -Fun言 weixin_39946300
使用Pelican创建博客，这是一个基于Python的平台，与GitHub配合的不错。GitHub是一个非常流行的用于源代码控制的Web服务，它使用Git同步本地文件和GitHub服务器上保留的副本，这样你就可以轻松地共享和备份你的工作。除了为代码仓库提供用户界面之外，GitHub还运允许用户直接从仓库发布网页。GitHub推荐的网站生成软件包是Jekll，是使用Ruby编写的。因为我是Pytho
python execjs库_python3调用js的库之execjs 一盏Online python execjs库
针对现在大部分的网站都是使用js加密，js加载的，并不能直接抓取出来，这时候就不得不适用一些三方类库来执行js语句执行JS的类库：execjs，PyV8，selenium，node这里主要讲一下execjs，一个比较好用且容易上手的类库(支持py2，与py3)，支持JSruntime。(一)安装：pipinstallPyExecJSoreasy_installPyExecJS(二)运行时环境exe
Python 执行 javascript PyExecJS 模块 weixin_30376083 python javascript json ViewUI
PyExecJS安装pipinstallPyExecJSPyExecJS的基本使用:>>>importexecjs>>>execjs.eval("'redyellowblue'.split('')")['red','yellow','blue']>>>ctx=execjs.compile("""...functionadd(x,y){...returnx+y;...}...""")>>>ctx.c
「QT」经验篇之界面代码与逻辑代码的分离思想何曾参静谧「QT」QT5程序设计 qt 系统架构数据库
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「定制」定制开发集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」BlockUI集合「Py」Python程序设计「Math」探秘数学世界「PK」Paras
在Python中运行JavaScript代码（使用execjs模块）飞起来fly呀 Python python 开发语言
使用execjs模块可以在Python中运行JavaScript代码。以下是使用execjs模块的基本步骤：1.安装execjs模块:可以使用pip命令进行安装:pipinstall execjs2.导入execjs模块:import execjs3.使用compile方法可以将JavaScript代码编译为可执行的函数compiled_func = execjs.compile(code)#执行
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源