朴素贝叶斯
一种直接衡量标签和特征之间概率关系的有监督学习算法,专注分类的算法,基于概率论和数理统计的贝叶斯理论。在计算的过程中,假设特征之间条件独立,不进行建模,采用后验估计。
sklearn中的朴素贝叶斯
类 | 含义 |
---|---|
naive_bayes.BernoulliNB | 伯努利分布下的朴素贝叶斯 |
naive_bayes.GaussianNB | 高斯分布下的朴素贝叶斯 |
naive_bayes.MultinomialNB | 多项式分布下的朴素贝叶斯 |
naive_bayes.ComplementNB | 补集朴素贝叶斯 |
linear_model.BayesianRidge | 贝叶斯岭回归,在参数估计过程中使用贝叶斯回归技术来包括正则化参数 |
高斯朴素贝叶斯
参数 | 含义 |
---|---|
prior | 可输入任何类数组结构,形状为(n_classes,)表示类的先验概率。 如果指定,则不根据数据调整先验,如果不指定,则自行根据数据计算先验概率 P(Y) |
var_smoothing | 浮点数,可不填(默认值= 1e-9) 在估计方差时,为了追求估计的稳定性,将所有特征的方差中最大的方差以某个比例添加到估计的方差中 |
假设服从正态分布来估计每个特征下每个类别上的条件概率。公式如下:
对于任意一个Y的取值,贝叶斯都以求解最大化的 P ( x i ∣ Y ) P(x_i|Y) P(xi∣Y)为目标,比较不同标签下样本靠近哪一个值。
简单测试
import numpy as np
import matplotlib.pyplot as plt
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
digits = load_digits()
X,y = digits.data,digits.target
Xtrain,Xtest,Ytrain,Ytest= train_test_split(X,y,test_size=0.3,random_state=420)
gnb = GaussianNB().fit(Xtrain,Ytrain)
acc_score = gnb.score(Xtest,Ytest)
acc_score
from sklearn.metrics import confusion_matrix as CM
CM(Ytest,Y_pred)
import numpy as np
import matplotlib.pyplot as plt
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.tree import DecisionTreeClassifier as DTC
from sklearn.linear_model import LogisticRegression as LR
from sklearn.datasets import load_digits
from sklearn.model_selection import learning_curve
from sklearn.model_selection import ShuffleSplit
from time import time
import datetime
import pytz
第二步:定义学习曲线函数以及导入数据
def plot_learning_curve(estimator,title,X,y,
ax,
ylim=None,
cv=None,
n_jobs=None
):
train_sizes, train_scores, test_scores = learning_curve(estimator,X,y,
cv=cv,n_jobs=n_jobs)
ax.set_title(title)
if ylim is not None:
ax.set_ylim(*ylim)
ax.set_xlabel("Training examples")
ax.set_ylabel("Score")
ax.grid()
ax.plot(train_sizes,np.mean(train_scores,axis=1),'o-'
,color="r",label="Training score")
ax.plot(train_sizes,np.mean(test_scores,axis=1),'o-'
,color="g",label="Test score")
ax.legend(loc="best")
return ax
digits = load_digits()
X,y =digits.data, digits.target
title = ["Naive Bayes","DecisionTree","SVM, RBF kernel","RandomForest","Logistic"]
model = [GaussianNB(),DTC(),SVC(gamma=0.001),RFC(n_estimators=50),LR(C=.1,solver="lbfgs")]
cv = ShuffleSplit(n_splits=50, test_size=0.2, random_state=0)
第三步:循环绘制学习曲线
fig, axes = plt.subplots(1,5,figsize=(30,6))
for ind,title_,estimator in zip(range(len(title)),title,model):
times = time()
print(ind)
plot_learning_curve(estimator,title_,X,y,
ax=axes[ind],ylim=[0.7,1.05],n_jobs=4,cv=cv)
print("{}:{}".format(title_,datetime.datetime.fromtimestamp(time()-times,pytz.timezone('UTC')).strftime("%M:%S:%f")))
plt.show()
[*zip(range(len(title)),title,model)]
概率类模型的评估指标
评测给出预测的可信度
布里尔分数Brier Score
概率预测相对与测试样本的均方误差:
B r i e r S c o r e = 1 N ( p i − o i ) 2 Brier Score =\frac{1}{N}(p_i-o_i)^2 BrierScore=N1(pi−oi)2
其中p为预测出的概率,o为样本真实结果,只能取0或。结果分数范围0到1,越接近0效果越好。可以用于任何使用predict_proba接口调用概率的模型
探索手写数据集上逻辑回归,SVC和高斯朴素贝叶斯的效果:
第一步:库导入以及初步准备
import pandas as pd
from sklearn.metrics import brier_score_loss
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression as LR
prob.shape
Ytest_1=Ytest.copy()
Ytest_1=pd.get_dummies(Ytest_1)
brier_score_loss(Ytest_1[1], prob[:,1], pos_label=1)
第二步:调用逻辑回归和svc模型,同时将svc置信度距离归一化
logi = LR(C=1., solver='lbfgs',max_iter=3000,multi_class="auto").fit(Xtrain,Ytrain)
svc = SVC(kernel = "linear",gamma=1).fit(Xtrain,Ytrain)
svc_prob = (svc.decision_function(Xtest) -
svc.decision_function(Xtest).min())/(svc.decision_function(Xtest).max() -
svc.decision_function(Xtest).min())
name = ["Bayes","Logistic","SVC"]
color = ["red","black","orange"]
df = pd.DataFrame(index=range(10),columns=name)
df
for i in range(10):
df.loc[i,name[0]] = brier_score_loss(Ytest_1[i],prob[:,i],pos_label=1)
df.loc[i,name[1]] = brier_score_loss(Ytest_1[i],logi.predict_proba(Xtest)[:,i],pos_label=1)
df.loc[i,name[2]] = brier_score_loss(Ytest_1[i],svc_prob[:,i],pos_label=1)
for i in range(df.shape[1]):
plt.plot(range(10),df.iloc[:,i],c=color[i])
plt.legend()
plt.show()
df
可以看到SVC效果明显弱于贝叶斯和逻辑回归(因为它通过sigmoid函数来强行压缩概率)
对数似然函数Log Loss
对于一个真实标签在{0,1}中取值,并且这个类别在1的概率估计为 y p r e d y_{pred} ypred,则对应损失函数类似于逻辑回归中损失函数为:
− l o g P ( y t r u e ∣ y p r e d ) = − ( y t r u e ∗ l o g ( y p r e d ) + ( 1 − y t r u e ∗ l o g ( 1 − y p r e d ) ) -logP(y_{true}|y_{pred})=-(y_{true}*log(y_{pred})+(1-y_{true}*log(1-y_{pred})) −logP(ytrue∣ypred)=−(ytrue∗log(ypred)+(1−ytrue∗log(1−ypred))
sklearn中通过对数似然函数查看
from sklearn.metrics import log_loss
log_loss(Ytest,prob)
log_loss(Ytest,logi.predict_proba(Xtest))
log_loss(Ytest,svc_prob)
可以看到,此时贝叶斯中效果不如SVC,这与之前使用布里尔分数得到的结论不同。这是因为,SVC和逻辑回归都是以最优化目的求解模型的,而在朴素贝叶斯中没有这个最优化的过程,所以没有优势。
不同情况下对数似然与布里尔的选择
需求 | 优先使用对数似然 | 优先使用布里尔分数 |
---|---|---|
衡量模型 | 要对比多个模型,或者衡量模型的不同变化 | 衡量单一模型的表现 |
可解释性 | 机器学习和深度学习之间的行家交流,学术论文 | 商业报告,老板开会,业务模型的衡量 |
最优化指向 | 逻辑回归,SVC | 朴素贝叶斯 |
数学问题 | 概率只能无限接近于0或1,无法取到0或1 | 概率可以取到0或1,比如树,随机森林 |
在使用贝叶斯模型的情况下追求概率预测上贴近真实概率,可以使用可靠性曲线来调节概率的校准程度
可靠性曲线 Reliability Curve
又称为概率校准曲线,可靠性图,是一条以预测概率为横坐标,真实标签为纵坐标的曲线。通常用于二分类,接下来进行绘制:
第一步:导入库和创建数据集
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification as mc
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression as LR
from sklearn.metrics import brier_score_loss
from sklearn.model_selection import train_test_split
X, y = mc(n_samples=100000,n_features=20
,n_classes=2,n_informative=2,
n_redundant=10,random_state=42)
Xtrain, Xtest, Ytrain, Ytest = train_test_split(X,y,test_size=0.99,random_state=42)
np.unique(Ytrain)
gnb = GaussianNB()
gnb.fit(Xtrain,Ytrain)
y_pred = gnb.predict(Xtest)
prob_pos = gnb.predict_proba(Xtest)[:,1]
clf_score = gnb.score(Xtest,Ytest)
df = pd.DataFrame({"ytrue":Ytest[:500],"probability":prob_pos[:500]})
df = df.sort_values(by="probability")
df.index=range(df.shape[0])
df
fig = plt.figure()
ax1 = plt.subplot()
ax1.plot([0,1],[0,1],"k:",label="Perfectly calibrated")
ax1.plot(df["probability"],df["ytrue"],"s-",label="%s (%1.3f)"%("Bayes",clf_score))
ax1.set_ylabel("True label")
ax1.set_xlabel("predcited probaility")
ax1.set_ylim([-0.05,1.05])
ax1.legend()
plt.show()
很明显是有问题的,因为预测概率的值不断在0和1之前来回跳跃,所以导致如此混乱。希望的是一个范围在0到1的概率,由于真实概率无法获得,可以采用分箱的方式来获取类概率进行校准。具体做法如下:
可以看到,分享可以让曲线变的平滑。sklearn中可以使用calibration_curve来帮助绘制相关图像,其相关参数如下:
参数 | 含义 |
---|---|
y_true | 真实标签 |
y_prob | 预测返回的,正类别下的概率值或置信度 |
normalize | 布尔值,默认False 是否将y_prob中输入的内容归一化到[0,1]之间,比如说,当y_prob并不是真正的概率的时候可以使用。如果这是为True,则会将y_prob中最小的值归一化为0,最大值归一化为1 |
n_bins | 整数值,表示分箱的个数。如果箱数很大,则需要更多的数据 |
返回 | 含义 |
trueproba | 可靠性曲线的纵坐标,结构为(n_bins, ),是每个箱子中少数类(Y=1)的占比 |
predproba | 可靠性曲线的横坐标,结构为(n_bins, ),是每个箱子中概率的均值 |
第三步:使用可靠性曲线的类绘制校准后的线
from sklearn.calibration import calibration_curve
trueproba, predproba = calibration_curve(Ytest,prob_pos,n_bins=10)
fig = plt.figure()
ax1 = plt.subplot()
ax1.plot([0,1],[0,1],"k:",label="Perfectly calibrated")
ax1.plot(trueproba,predproba,"s-",label="%s (%1.3f)"%("Bayes",clf_score))
ax1.set_ylabel("True label")
ax1.set_xlabel("predcited probaility")
ax1.set_ylim([-0.05,1.05])
ax1.legend()
plt.show()
fig, axes = plt.subplots(1,3,figsize=(18,4))
for ind,i in enumerate([3,10,100]):
ax = axes[ind]
ax.plot([0, 1], [0, 1], "k:", label="Perfectly calibrated")
trueproba, predproba = calibration_curve(Ytest, prob_pos,n_bins=i)
ax.plot(predproba, trueproba,"s-",label="n_bins = {}".format(i))
ax1.set_ylabel("True probability for class 1")
ax1.set_xlabel("Mean predcited probability")
ax1.set_ylim([-0.05, 1.05])
ax.legend()
plt.show()
箱子数太多导致不够平滑,箱子数太少导致概率校准曲线过于粗糙,一般从10开始调整
第五步:多个模型校准曲线对比
fig, ax1 = plt.subplots(figsize=(8,6))
ax1.plot([0,1],[0,1],"k:",label="Perfectly calibrated")
for clf ,name_ in zip([gnb,logi,svc],name):
clf.fit(Xtrain,Ytrain)
y_pred = clf.predict(Xtest)
if hasattr(clf,"predict_proba"):
prob_pos = clf.predict_proba(Xtest)[:,1]
else:
prob_pos = clf.decision_function(Xtest)
prob_pos = (prob_pos-prob_pos.min())/(prob_pos.max()-prob_pos.min())
clf_score = brier_score_loss(Ytest,prob_pos,pos_label=y.max())
trueproba,predproba = calibration_curve(Ytest,prob_pos,n_bins=10)
ax1.plot(predproba,trueproba,"s-",label="%s (%1.3f)"%(name_,clf_score))
ax1.set_ylabel("True probability for class 1")
ax1.set_xlabel("Mean predcited probability")
ax1.set_ylim([-0.05, 1.05])
ax1.legend()
ax1.set_title('Calibration plots (reliability curve)')
plt.show()
逻辑回归依旧很完美。贝叶斯概率校准曲线呈现sigmoid镜像说明数据集中的数据不是相互条件独立(与此次设定相同),所以表现不好。SVC由于置信度本身就不足,大量样本集中在决策边界附近,所以准确度也有限
第六步:多个模型的概率分布直方图
直方图是以样本的预测概率分箱后的结果为横坐标,每个箱中的样本数量为纵坐标的一个图像,与之前可靠性曲线为了平滑的分箱是两码事
fig, ax2 = plt.subplots(figsize=(8,6))
for clf, name_ in zip([gnb,logi,svc],name):
clf.fit(Xtrain,Ytrain)
y_pred = clf.predict(Xtest)
if hasattr(clf, "predict_proba"):
prob_pos = clf.predict_proba(Xtest)[:,1]
else:
prob_pos = clf.decision_function(Xtest)
prob_pos = (prob_pos - prob_pos.min()) / (prob_pos.max() - prob_pos.min())
ax2.hist(prob_pos
,bins=10
,label=name_
,histtype="step"
,lw=2
)
ax2.set_ylabel("Distribution of probability")
ax2.set_xlabel("Mean predicted probability")
ax2.set_xlim([-0.05, 1.05])
ax2.set_xticks([0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1])
ax2.legend(loc=9)
plt.show()
校准可靠性曲线
使用sklearn中的CalibratedClassifierCV来对二分类情况下的数据集进行概率矫正
其中method选择概率校准的方法,可选“sigmoid”和“isotonic”
当样本较少时,防止过拟合一般不建议使用isotionic
使用之前的数据进行校准:
第一步:包装函数
def plot_calib(models,name,Xtrain,Xtest,Ytrain,Ytest,n_bins=10):
fig,(ax1,ax2) = plt.subplots(1,2,figsize=(20,6))
ax1.plot([0,1],[0,1],"k:",label="Perfectly calibrated")
for clf,name_ in zip(models,name):
clf.fit(Xtrain,Ytrain)
y_pred = clf.predict(Xtest)
if hasattr(clf,"predict_proba"):
prob_pos = clf.predict_proba(Xtest)[:,1]
else:
prob_pos=clf.decision_function(Xtest)
prob_pos=(prob_pos - prob_pos.min())/(prob_pos.max()-prob_pos.min())
clf_score = brier_score_loss(Ytest,prob_pos,pos_label=y.max())
trueproba,predproba = calibration_curve(Ytest,prob_pos,n_bins=n_bins)
ax1.plot(predproba,trueproba,"s-",label="%s (%1.3f)"%(name_,clf_score))
ax2.hist(prob_pos,range=(0,1),bins=n_bins,label=name_,histtype="step",lw=2)
ax2.set_ylabel("Distribution of probability")
ax2.set_xlabel("Mean predicted probability")
ax2.set_xlim([-0.05, 1.05])
ax2.legend(loc=9)
ax2.set_title("Distribution of probablity")
ax1.set_ylabel("True probability for class 1")
ax1.set_xlabel("Mean predcited probability")
ax1.set_ylim([-0.05, 1.05])
ax1.legend()
ax1.set_title('Calibration plots(reliability curve)')
plt.show()
第二步:实例化绘图
from sklearn.calibration import CalibratedClassifierCV
name = ["GaussianBayes","Logistic","Bayes+isotonic","Bayes+sigmoid"]
gnb = GaussianNB()
models = [gnb
,LR(C=1., solver='lbfgs',max_iter=3000,multi_class="auto")
,CalibratedClassifierCV(gnb, cv=2, method='isotonic')
,CalibratedClassifierCV(gnb, cv=2, method='sigmoid')]
plot_calib(models,name,Xtrain,Xtest,Ytrain,Ytest)
Isotonic等渗校正大大改善了曲线的形状,几乎让贝叶斯的效果与逻辑回归持平,并且布里尔分数也下降到了0.098,比逻辑回归还低一个点。Sigmoid校准的方式也对曲线进行了稍稍的改善,不过效果不明显。从直方图来看,Isotonic校正让高斯朴素贝叶斯的效果接近逻辑回归,而Sigmoid校正后的结果依然和原本的高斯朴素贝叶斯更相近。可见,当数据的特征之间不是相互条件独立的时候,使用Isotonic方式来校准概率曲线,可以得到不错的结果,让模型在预测上更加谦虚
第三步:查看精确性的变化
gnb = GaussianNB().fit(Xtrain,Ytrain)
gnb.score(Xtest,Ytest)
brier_score_loss(Ytest,gnb.predict_proba(Xtest)[:,1],pos_label=1)
gnbisotonic = CalibratedClassifierCV(gnb, cv=2, method='isotonic').fit(Xtrain,Ytrain)
gnbisotonic.score(Xtest,Ytest)
brier_score_loss(Ytest,gnbisotonic.predict_proba(Xtest)[:,1],pos_label = 1)
可以看到,校准后布里尔分数变小,但整体准确率缺下降了。对与不同模型出现这个现象的原因不同,对SVC和决策树这种模型来说,概率偏向于是一个“置信度”,校准可能使向更加错误的方向调整,因此出现布里尔分数与精确性相反的趋势。而对于朴素贝叶斯这样的模型,校准后准确性的变化取决测试集有多贴近估计的真实样本的面貌,这一系列有偏估计可能导致布里尔分数与准确度的趋势相反。当然,还有更多深层的原因,总之,如果两者相悖时,优先考虑准确率。