chenburong2021

sklearn_SVM：处理样本不平衡问题__菜菜视频学习笔记

SVM：处理样本不平衡问题

- 1.通过参数class_weight来处理样本不均衡问题
- 2.混淆矩阵（Confusion Matrix）
- - 2.1精确度
  - 2.2 召回率
  - 3.3 特异度
  - 3.4 假正率
- 3.ROC曲线及其相关问题
- - 3.1概率&&阈值（threshold）
  - 3.2 置信度参数 decision_function,predict_proba
  - 3.3 绘制SVM的ROC曲线
  - 3.4 sklearn中ROC与AUC
  - 3.5 利用ROC曲线寻找最佳阈值

对于软间隔数据来说，需要松弛系数和松弛系数的参数c来平衡“最大边际”与”被分错样本数量“的平衡

硬间隔：决策边界由两个标签不一致的支持向量来决定和最小化损失函数（最大化决策边际）

软间隔：软间隔的支持向量可以分布在任意位置

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn import svm
from sklearn.datasets import make_circles, make_moons, make_blobs,make_classification

n_samples = 100

datasets = [
    make_moons(n_samples=n_samples, noise=0.2, random_state=0),
    make_circles(n_samples=n_samples, noise=0.2, factor=0.5, random_state=1),
    make_blobs(n_samples=n_samples, centers=2, random_state=5),
    make_classification(n_samples=n_samples,n_features = 2,n_informative=2,n_redundant=0, random_state=5)
]

Kernel = ["linear"]

#四个数据集分别是什么样子呢？
for X,Y in datasets:
    plt.figure(figsize=(5,4))
    plt.scatter(X[:,0],X[:,1],c=Y,s=50,cmap="rainbow")

nrows=len(datasets)
ncols=len(Kernel) + 1

fig, axes = plt.subplots(nrows, ncols,figsize=(10,16))

#第一层循环：在不同的数据集中循环
for ds_cnt, (X,Y) in enumerate(datasets):
    
    #在图像中的第一列，放置原数据的分布
    ax = axes[ds_cnt, 0]
    if ds_cnt == 0:
        ax.set_title("Input data")
    ax.scatter(X[:, 0], X[:, 1], c=Y, zorder=10, cmap=plt.cm.Paired,edgecolors='k')
    ax.set_xticks(())
    ax.set_yticks(())
    
    #第二层循环：在不同的核函数中循环 
    #从图像的第二列开始，一个个填充分类结果
    for est_idx, kernel in enumerate(Kernel):
        
        #定义子图位置
        ax = axes[ds_cnt, est_idx + 1]
        
        #建模
        clf = svm.SVC(kernel=kernel, gamma=2).fit(X, Y)
        score = clf.score(X, Y)
        
        #绘制图像本身分布的散点图
        ax.scatter(X[:, 0], X[:, 1], c=Y
                   ,zorder=10
                   ,cmap=plt.cm.Paired,edgecolors='k')
        #绘制支持向量
        ax.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=100,
                    facecolors='none', zorder=10, edgecolors='white')
        
        #绘制决策边界
        x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
        y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
        
        #np.mgrid，合并了我们之前使用的np.linspace和np.meshgrid的用法
        #一次性使用最大值和最小值来生成网格
        #表示为[起始值：结束值：步长]
        #如果步长是复数，则其整数部分就是起始值和结束值之间创建的点的数量，并且结束值被包含在内
        XX, YY = np.mgrid[x_min:x_max:200j, y_min:y_max:200j]
        #np.c_，类似于np.vstack的功能
        Z = clf.decision_function(np.c_[XX.ravel(), YY.ravel()]).reshape(XX.shape)
        #填充等高线不同区域的颜色
        ax.pcolormesh(XX, YY, Z > 0, cmap=plt.cm.Paired)
        #绘制等高线
        ax.contour(XX, YY, Z, colors=['k', 'k', 'k'], linestyles=['--', '-', '--'],
                    levels=[-1, 0, 1])
        
        #设定坐标轴为不显示
        ax.set_xticks(())
        ax.set_yticks(())
        
        #将标题放在第一行的顶上
        if ds_cnt == 0:
            ax.set_title(kernel)
            
        #为每张图添加分类的分数   
        ax.text(0.95, 0.06, ('%.2f' % score).lstrip('0')
                , size=15
                , bbox=dict(boxstyle='round', alpha=0.8, facecolor='white')
                	#为分数添加一个白色的格子作为底色
                , transform=ax.transAxes #确定文字所对应的坐标轴，就是ax子图的坐标轴本身
                , horizontalalignment='right' #位于坐标轴的什么方向
               )

plt.tight_layout()
plt.show()

# 决策边界上的支持向量对应的是平衡最优解对应的支持向量
# 所有的支持向量决定决策边界的位置

1.通过参数class_weight来处理样本不均衡问题

导入需要的库和模块

# 解决样本不均衡问题，svm中使用class_weight,sample_weight
# class_weight ,提升少数类权重使得算法意识到样本是不平衡的
# samplee_weight,对样本的加权重，使决策边界的变形非常明显
# 但是SVM中分类判断依据决策边界决定，决策边界又由参数c来决定，所以解决样本不均衡问题由参数c实现
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm 
from sklearn.datasets import make_blobs

创建样本不均衡的数据集

class_1 = 500 #类别1有500个样本，   10：1
class_2 = 50 #类别2只有50个
centers = [[0.0, 0.0], [2.0, 2.0]] #设定两个类别的中心
clusters_std = [1.5, 0.5] #设定两个类别的方差，通常来说，样本量比较大的类别会更加松散
X, y = make_blobs(n_samples=[class_1, class_2],
                  centers=centers,
                  cluster_std=clusters_std,
                  random_state=0, shuffle=False)
#在一个图上画两个簇

X.shape

(550, 2)

#看看数据集长什么样
plt.scatter(X[:, 0], X[:, 1], c=y, cmap="rainbow",s=10)
plt.show()
#其中红色点是少数类，紫色点是多数类

在数据集上分别建模

#不设定class_weight
clf = svm.SVC(kernel='linear', C=1.0)
clf.fit(X, y)

SVC(kernel='linear')

In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook.
On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.

SVC

SVC(kernel='linear')

class_weight“平衡”模式使用 y 的值自动调整与输入数据中的类频率成反比的权重,使得少数类获得更大的权重

#设定class_weight
wclf = svm.SVC(kernel='linear', class_weight={1: 10})
wclf.fit(X, y)

SVC(class_weight={1: 10}, kernel='linear')

SVC

SVC(class_weight={1: 10}, kernel='linear')

#给两个模型分别打分看看，这个分数是accuracy准确度
#做样本均衡之后，我们的准确率下降了，没有样本均衡的准确率更高
clf.score(X,y)

0.9418181818181818

wclf.score(X,y)

0.9127272727272727

** 绘制其分离超平面**

#首先要有数据分布
plt.figure(figsize=(6,5))
plt.scatter(X[:, 0], X[:, 1], c=y, cmap="rainbow",s=10)
ax = plt.gca() #获取当前的子图，如果不存在，则创建新的子图

#绘制决策边界的第一步：要有网格
xlim = ax.get_xlim()
ylim = ax.get_ylim()

xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
YY, XX = np.meshgrid(yy, xx)
xy = np.vstack([XX.ravel(), YY.ravel()]).T

#第二步：找出我们的样本点到决策边界的距离
Z_clf = clf.decision_function(xy).reshape(XX.shape)
a = ax.contour(XX, YY, Z_clf, colors='black', levels=[0], alpha=0.5, linestyles=['-'])

Z_wclf = wclf.decision_function(xy).reshape(XX.shape)
b = ax.contour(XX, YY, Z_wclf, colors='red', levels=[0], alpha=0.5, linestyles=['-'])

#第三步：画图例
plt.legend([a.collections[0], b.collections[0]], ["non weighted", "weighted"],
           loc="upper right")
plt.show()

a.collections #调用这个等高线对象中画的所有线，返回一个惰性对象

#用[*]把它打开试试看
[*a.collections] #返回了一个linecollection对象，其实就是我们等高线里所有的线的列表

[]

#现在我们只有一条线，所以我们可以使用索引0来锁定这个对象
a.collections[0]

#为了更有效的捕捉少数类，多数类被误分类的数目大于少数类被正确分类的数目，使得模型的精确度下降

#plt.legend([对象列表],[图例列表],loc)
#只要对象列表和图例列表相对应，就可以显示出图例

2.混淆矩阵（Confusion Matrix）

2.1精确度

# precision
#混淆矩阵下的精确度计算
#所有判断正确并确实为1的样本 / 所有被判断为1的样本
#对于没有class_weight，没有做样本平衡的灰色决策边界来说：
(y[y == clf.predict(X)] == 1).sum()/(clf.predict(X) == 1).sum()

0.7142857142857143

(y[y == clf.predict(X)] == 1).sum() #True = 1, False =0 #真实值等于预测值的全 部点

int(False)

#对于有class_weight，做了样本平衡的红色决策边界来说：
(y[y == wclf.predict(X)] == 1).sum()/(wclf.predict(X) == 1).sum()

# 当误判成本过大时选择较高精确度，当力求捕获所有少数类时宁可选择低精确度

0.5102040816326531

2.2 召回率

# Recall 召回率 又被称为查全率
#判断正确少数类占所有少数类的比例

#所有predict为1的点 / 全部真实为1的点的比例

#对于没有class_weight，没有做样本平衡的灰色决策边界来说：
(y[y == clf.predict(X)] == 1).sum()/(y == 1).sum()

0.6

#对于有class_weight，做了样本平衡的红色决策边界来说：
(y[y == wclf.predict(X)] == 1).sum()/(y == 1).sum()

1.0

# 为兼顾precision与Recall，创造了两者的调和平均数作为综合性指标

3.3 特异度

# Specificity 特异度，模型将多数类判断正确的比率
#所有被正确预测为0的样本 / 所有的0样本
#对于没有class_weight，没有做样本平衡的灰色决策边界来说：
(y[y == clf.predict(X)] == 0).sum()/(y == 0).sum()

0.976

#对于有class_weight，做了样本平衡的红色决策边界来说：
(y[y == wclf.predict(X)] == 0).sum()/(y == 0).sum()

0.904

3.4 假正率

# 假正率(False Positive Rate) 1-Specificity 模型将多数类判断错误的能力

# 以Recall召回率与FPR假正率为衡量指标来评定，捕捉少数类时对多数类误判的影响

3.ROC曲线及其相关问题

3.1概率&&阈值（threshold）

1.建立数据集

class_1_ = 7
class_2_ = 4
centers_ = [[0.0, 0.0], [1,1]]
clusters_std = [0.5, 1]
X_, y_ = make_blobs(n_samples=[class_1_, class_2_],
                  centers=centers_,
                  cluster_std=clusters_std,
                  random_state=0, shuffle=False)#shuffle()将序列的所有元素随机排序
plt.scatter(X_[:, 0], X_[:, 1], c=y_, cmap="rainbow",s=30)
plt.show()

2.建模调用概率

from sklearn.linear_model import LogisticRegression as LogiR

clf_lo = LogiR().fit(X_,y_)

prob = clf_lo.predict_proba(X_)

prob

array([[0.69461879, 0.30538121],
       [0.5109308 , 0.4890692 ],
       [0.82003826, 0.17996174],
       [0.78564706, 0.21435294],
       [0.77738721, 0.22261279],
       [0.65663421, 0.34336579],
       [0.76858638, 0.23141362],
       [0.34917129, 0.65082871],
       [0.36618382, 0.63381618],
       [0.66327186, 0.33672814],
       [0.6075288 , 0.3924712 ]])

prob.shape#代表了十一个样本，的两个数据分别为属于两类的概率

(11, 2)

#将样本和概率放到一个DataFrame中
import pandas as pd
prob = pd.DataFrame(prob)

prob.columns = ["0","1"]#给列取名

prob #似然，属于0或1 的可能性

	0	1
0	0.694619	0.305381
1	0.510931	0.489069
2	0.820038	0.179962
3	0.785647	0.214353
4	0.777387	0.222613
5	0.656634	0.343366
6	0.768586	0.231414
7	0.349171	0.650829
8	0.366184	0.633816
9	0.663272	0.336728
10	0.607529	0.392471

3.使用阈值0.5进行预测分类

#手动调节阈值，来改变我们的模型效果
for i in range(prob.shape[0]):
    if prob.loc[i,"1"] > 0.5:
        prob.loc[i,"pred"] = 1
    else:
        prob.loc[i,"pred"] = 0

prob

	0	1	pred
0	0.694619	0.305381	0.0
1	0.510931	0.489069	0.0
2	0.820038	0.179962	0.0
3	0.785647	0.214353	0.0
4	0.777387	0.222613	0.0
5	0.656634	0.343366	0.0
6	0.768586	0.231414	0.0
7	0.349171	0.650829	1.0
8	0.366184	0.633816	1.0
9	0.663272	0.336728	0.0
10	0.607529	0.392471	0.0

prob["y_true"] = y_

prob = prob.sort_values(by="1",ascending=False)#降序排列，ascending是否倒序

prob

	0	1	pred	y_true
7	0.349171	0.650829	1.0	1
8	0.366184	0.633816	1.0	1
1	0.510931	0.489069	0.0	0
10	0.607529	0.392471	0.0	1
5	0.656634	0.343366	0.0	0
9	0.663272	0.336728	0.0	1
0	0.694619	0.305381	0.0	0
6	0.768586	0.231414	0.0	0
4	0.777387	0.222613	0.0	0
3	0.785647	0.214353	0.0	0
2	0.820038	0.179962	0.0	0

4.使用混淆矩阵查看结果

from sklearn.metrics import confusion_matrix as CM, precision_score as P, recall_score as R
# CM混淆矩阵P精确度,R召回率

CM(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])
#真实值，预测值，少数类标签在前

array([[2, 2],
       [0, 7]], dtype=int64)

#少数类被分类2对，2错，多数类0错，7对
#试试看手动计算Precision和Recall?

2/3

0.6666666666666666

0.5

0.5

P(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])

1.0

R(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])

0.5

5.修改阈值为0.3

for i in range(prob.shape[0]):
    if prob.loc[i,"1"] > 0.3:
        prob.loc[i,"pred"] = 1
    else:
        prob.loc[i,"pred"] = 0

prob

	0	1	pred	y_true
7	0.349171	0.650829	1.0	1
8	0.366184	0.633816	1.0	1
1	0.510931	0.489069	1.0	0
10	0.607529	0.392471	1.0	1
5	0.656634	0.343366	1.0	0
9	0.663272	0.336728	1.0	1
0	0.694619	0.305381	1.0	0
6	0.768586	0.231414	0.0	0
4	0.777387	0.222613	0.0	0
3	0.785647	0.214353	0.0	0
2	0.820038	0.179962	0.0	0

CM(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])

array([[4, 0],
       [3, 4]], dtype=int64)

P(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])

0.5714285714285714

R(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])

1.0

#通常来说，降低阈值能够升高Recall

3.2 置信度参数 decision_function,predict_proba

#使用最初的X和y，样本不均衡的这个模型

class_1 = 500 #类别1有500个样本
class_2 = 50 #类别2只有50个
centers = [[0.0, 0.0], [2.0, 2.0]] #设定两个类别的中心
clusters_std = [1.5, 0.5] #设定两个类别的方差，通常来说，样本量比较大的类别会更加松散
X, y = make_blobs(n_samples=[class_1, class_2],
                  centers=centers,
                  cluster_std=clusters_std,
                  random_state=0, shuffle=False)#shuffle随机排序列表

#看看数据集长什么样
plt.scatter(X[:, 0], X[:, 1], c=y, cmap="rainbow",s=10)
#其中红色点是少数类，紫色点是多数类

clf_proba = svm.SVC(kernel="linear",C=1.0,probability=True).fit(X,y)
#probability这个接口增加运算量，若值并非强制要求0-1分布，就不用了

clf_proba.predict_proba(X)

array([[0.68765639, 0.31234361],
       [0.25911428, 0.74088572],
       [0.96424822, 0.03575178],
       ...,
       [0.1517117 , 0.8482883 ],
       [0.35313082, 0.64686918],
       [0.31213505, 0.68786495]])

clf_proba.predict_proba(X).shape #生成的各类标签下的概率（把置信度强行改为概率 ）

(550, 2)

clf_proba.decision_function(X) #点到直线的距离，不被约束在0-1之间

array([ -0.39182241,   0.95617053,  -2.24996184,  -2.63659269,
        -3.65243197,  -1.67311996,  -2.56396417,  -2.80650393,
        -1.76184723,  -4.7948575 ,  -7.59061196,  -3.66174848,
        -2.2508023 ,  -4.27626526,   0.78571364,  -3.24751892,
        -8.57016271,  -4.45823747,  -0.14034183,  -5.20657114,
        -8.02181046,  -4.18420871,  -5.6222409 ,  -5.12602771,
        -7.22592707,  -5.07749638,  -6.72386021,  -3.4945225 ,
        -3.51475144,  -5.72941551,  -5.79160724,  -8.06232013,
        -4.36303857,  -6.25419679,  -5.59426696,  -2.60919281,
        -3.90887478,  -4.38754704,  -6.46432224,  -4.54279979,
        -4.78961735,  -5.53727469,   1.33920817,  -2.27766451,
        -4.39650854,  -2.97649872,  -2.26771979,  -2.40781748,
        -1.41638181,  -3.26142275,  -2.7712218 ,  -4.87288439,
        -3.2594128 ,  -5.91189118,   1.48676267,   0.5389064 ,
        -2.76188843,  -3.36126945,  -2.64697843,  -1.63635284,
        -5.04695135,  -1.59196902,  -5.5195418 ,  -2.10439349,
        -2.29646147,  -4.63162339,  -5.21532213,  -4.19325629,
        -3.37620335,  -5.0032094 ,  -6.04506666,  -2.84656859,
         1.5004014 ,  -4.02677739,  -7.07160609,  -1.66193239,
        -6.60981996,  -5.23458676,  -3.70189918,  -6.74089425,
        -2.09584948,  -2.28398296,  -4.97899921,  -8.12174085,
        -1.52566274,  -1.99176286,  -3.54013094,  -4.8845886 ,
        -6.51002015,  -4.8526957 ,  -6.73649174,  -8.50103589,
        -5.35477446,  -5.93972132,  -3.09197136,  -5.95218482,
        -5.87802088,  -3.41531761,  -1.50581423,   1.69513218,
        -5.08155767,  -1.17971205,  -5.3506946 ,  -5.21493342,
        -3.73358514,  -2.01273566,  -3.39045625,  -6.34357458,
        -3.54776648,  -0.17804673,  -6.26887557,  -4.17973771,
        -6.68896346,  -3.46095619,  -5.47965411,  -7.30835247,
        -4.41569899,  -4.95103272,  -4.52261342,  -2.32912228,
        -5.78601433,  -4.75347157,  -7.10337939,  -0.4589064 ,
        -7.67789856,  -4.01780827,  -4.3031773 ,  -1.83727693,
        -7.40091653,  -5.95271547,  -6.91568411,  -5.20341905,
        -7.19695832,  -3.02927263,  -4.48056922,  -7.48496425,
        -0.07011269,  -5.80292499,  -3.38503533,  -4.58498843,
        -2.76260661,  -3.01843998,  -2.67539002,  -4.1197355 ,
        -0.94129257,  -5.89363772,  -1.6069038 ,  -2.6343464 ,
        -3.04465464,  -4.23219535,  -3.91622593,  -5.29389964,
        -3.59245628,  -8.41452726,  -3.09845691,  -2.71798914,
        -7.1383473 ,  -4.61490324,  -4.57817871,  -4.34638288,
        -6.5457838 ,  -4.91701759,  -6.57235561,  -1.01417607,
        -3.91893483,  -4.52905816,  -4.47582917,  -7.84694737,
        -6.49226452,  -2.82193743,  -2.87607739,  -7.0839848 ,
        -5.2681034 ,  -4.4871544 ,  -2.54658631,  -7.54914279,
        -2.70628288,  -5.99557957,  -8.02076603,  -4.00226228,
        -2.84835501,  -1.9410333 ,  -3.86856886,  -4.99855904,
        -6.21947623,  -5.05797444,  -2.97214824,  -3.26123902,
        -5.27649982,  -3.13897861,  -6.48514315,  -9.55083209,
        -6.46488612,  -7.98793665,  -0.94456569,  -3.41380968,
        -7.093158  ,  -5.71901588,  -0.88438995,  -0.24381463,
        -6.78212695,  -2.20666714,  -6.65580329,  -2.56305221,
        -5.60001636,  -5.43216357,  -4.96741585,  -0.02572912,
        -3.21839147,   1.13383091,  -1.58640099,  -7.57106914,
        -4.16850181,  -6.48179088,  -4.67852158,  -6.99661419,
        -2.1447926 ,  -5.31694653,  -2.63007619,  -2.55890478,
        -6.4896746 ,  -3.94241071,  -2.71319258,  -4.70525843,
        -5.61592746,  -4.7150336 ,  -2.85352156,  -0.49195707,
        -8.16191324,  -3.80462978,  -6.43680611,  -4.58137592,
        -1.38912206,  -6.93900334,  -7.7222725 ,  -8.41592264,
        -5.613998  ,   0.44396046,  -3.07168078,  -1.36478732,
        -1.20153628,  -6.30209808,  -6.49846303,  -0.60518198,
        -3.83301464,  -6.40455571,  -0.22680504,   0.54161373,
        -5.99626181,  -5.98077412,  -3.45857531,  -2.50268554,
        -5.54970836,  -9.26535525,  -4.22097425,  -0.47257602,
        -9.33187038,  -4.97705346,  -1.65256318,  -1.0000177 ,
        -5.82202444,  -8.34541689,  -4.97060946,  -0.34446784,
        -6.95722208,  -7.41413036,  -1.8343221 ,  -7.19145712,
        -4.8082824 ,  -4.59805445,  -5.49449995,  -2.25570223,
        -5.41145249,  -5.97739476,  -2.94240518,  -3.64911853,
        -2.82208944,  -3.34705766,  -8.19712182,  -7.57201089,
        -0.61670956,  -6.3752957 ,  -5.06738146,  -2.54344987,
        -3.28382401,  -5.9927353 ,  -2.87730848,  -3.58324503,
        -7.1488302 ,  -2.63140119,  -8.48092542,  -4.91672751,
        -5.7488116 ,  -3.80044426,  -9.27859326,  -2.475992  ,
        -6.06980518,  -2.90059294,  -5.22496057,  -5.97575155,
        -6.18156775,  -5.38363878,  -7.41985155,  -6.73241325,
        -4.43878791,  -9.06614408,  -1.69153658,  -3.71141045,
        -3.19852116,  -4.05473804,  -3.45821856,  -4.92039492,
        -6.55332449,  -1.28332784,  -4.17989583,  -5.45916562,
        -3.80974949,  -4.27838346,  -5.31607024,  -0.62628865,
        -2.21276478,  -3.7397342 ,  -6.66779473,  -2.38116892,
        -2.83460004,  -7.01238422,  -2.75282445,  -3.01759368,
        -6.14970454,  -6.1300394 ,  -7.58620719,  -3.14051577,
        -5.82720807,  -2.52236034,  -7.03761018,  -7.82753368,
        -8.8447092 ,  -3.11218173,  -4.22074847,  -0.99624534,
        -3.45189404,  -1.46956557,  -9.42857926,  -2.75093993,
        -0.61665367,  -2.09370852,  -9.34768018,  -3.39876535,
        -5.8635608 ,  -2.12987936,  -8.40706474,  -3.84209244,
        -0.5100329 ,  -2.48836494,  -1.54663048,  -4.30920238,
        -5.73107193,  -1.89978615,  -6.17605033,  -3.10487492,
        -5.51376743,  -4.32751131,  -8.20349197,  -3.87477609,
        -1.78392197,  -6.17403966,  -6.52743333,  -3.02302099,
        -4.99201913,  -5.72548424,  -7.83390422,  -1.19722286,
        -4.59974076,  -2.99496132,  -6.83038116,  -5.1842235 ,
        -0.78127198,  -2.88907207,  -3.95055581,  -6.33003274,
        -4.47772201,  -2.77425683,  -4.44937971,  -4.2292366 ,
        -1.15145162,  -4.92325347,  -5.40648383,  -7.37247783,
        -4.65237446,  -7.04281259,  -0.69437244,  -4.99227188,
        -3.02282976,  -2.52532913,  -6.52636286,  -5.48318846,
        -3.71028837,  -6.91757625,  -5.54349414,  -6.05345046,
        -0.43986605,  -4.75951272,  -1.82851406,  -3.24432919,
        -7.20785221,  -4.0583863 ,  -3.27842271,  -0.68706448,
        -2.76021537,  -5.54119808,  -4.08188794,  -6.4244794 ,
        -4.76668274,  -0.2040958 ,  -2.42898945,  -2.03283232,
        -4.12879797,  -2.70459163,  -6.04997273,  -2.79280244,
        -4.20663028,   0.786804  ,  -3.65237777,  -3.55179726,
        -5.3460864 , -10.31959605,  -6.69397854,  -6.53784926,
        -7.56321471,  -4.98085596,  -1.79893146,  -3.89513404,
        -5.18601688,  -3.82352518,  -5.20243998,  -3.11707515,
        -5.80322513,  -4.42380099,  -5.74159836,  -6.6468986 ,
        -3.18053496,  -4.28898663,  -6.73111304,  -3.21485845,
        -4.79047586,  -4.51550728,  -2.70659984,  -3.61545839,
        -7.86496861,  -0.1258212 ,  -7.6559803 ,  -3.15269699,
        -2.87456418,  -6.74876767,  -0.42574712,  -7.58877495,
        -5.30321115,  -4.79881591,  -4.5673199 ,  -3.6865868 ,
        -4.46822682,  -1.45060265,  -0.53560561,  -4.94874171,
        -1.26112294,  -1.66779284,  -5.57910033,  -5.87103484,
        -3.35570045,  -6.25661833,  -1.51564145,   0.85085628,
        -3.82725071,  -1.47077448,  -3.36154118,  -5.37972404,
        -2.22844631,  -2.78684422,  -3.75603932,  -1.85645   ,
        -3.33156093,  -2.32968944,  -5.06053069,  -1.73410541,
        -1.68829408,  -3.79892942,  -1.62650712,  -1.00001873,
        -6.07170511,  -4.89697898,  -3.66269926,  -3.13731451,
        -5.08348781,  -3.71891247,  -2.09779606,  -3.04082162,
        -5.12536015,  -2.96071945,  -4.28796395,  -6.6231135 ,
         1.00003406,   0.03907036,   0.46718521,  -0.3467975 ,
         0.32350521,   0.47563771,   1.10055427,  -0.67580418,
        -0.46310299,   0.40806733,   1.17438632,  -0.55152081,
         0.84476439,  -0.91257798,   0.63165546,  -0.13845693,
        -0.22137683,   1.20116183,   1.18915628,  -0.40676459,
         1.35964325,   1.14038015,   1.27914468,   0.19329823,
        -0.16790648,  -0.62775078,   0.66095617,   2.18236076,
         0.07018415,  -0.26762451,  -0.25529448,   0.32084111,
         0.48016592,   0.28189794,   0.60568093,  -1.07472716,
        -0.5088941 ,   0.74892526,   0.07203056,  -0.10668727,
        -0.15662946,   0.09611498,  -0.39521586,  -0.79874442,
         0.65613691,  -0.39386485,  -1.08601917,   1.44693858,
         0.62992794,   0.76536897])

clf_proba.decision_function(X).shape

(550,)

prob

	0	1	pred	y_true
7	0.349171	0.650829	1.0	1
8	0.366184	0.633816	1.0	1
1	0.510931	0.489069	1.0	0
10	0.607529	0.392471	1.0	1
5	0.656634	0.343366	1.0	0
9	0.663272	0.336728	1.0	1
0	0.694619	0.305381	1.0	0
6	0.768586	0.231414	0.0	0
4	0.777387	0.222613	0.0	0
3	0.785647	0.214353	0.0	0
2	0.820038	0.179962	0.0	0

3.3 绘制SVM的ROC曲线

#从混淆矩阵中获取FPR和Recall
cm = CM(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])
cm

array([[4, 0],
       [3, 4]], dtype=int64)

#00/all true 0 ;1-特异度

#FPR #被我们预测错误的0（真实为0，被预测为1）占所有真正为0的样本的比例
#第0行对应少数类，真实值为1；第一行对应多数类，真实值为0；
#3/(3+4)
cm[1,0]/cm[1,:].sum()

0.42857142857142855

#Recall
#4/(4+0)
cm[0,0]/cm[0,:].sum()

1.0

#概率 clf_proba.predict_proba(X)[:,1] #我的类别1下面的概率

#阈值，每一个阈值都对应着一次循环，每一次循环，都要有一个混淆矩阵，要有一组假正率vsRecall

#np.lispance(概率最小值，概率最大值，55，endpoint=False) #endpoint=False：不要取到最大值,否则无法分为两类
#if i > 概率最大值, 返回1

#开始绘图
probrange = np.linspace(clf_proba.predict_proba(X)[:,1].min(),clf_proba.predict_proba(X)[:,1].max(),num=50,endpoint=False)

from sklearn.metrics import confusion_matrix as CM, recall_score as R
import matplotlib.pyplot as plot

recall = []
FPR = []

for i in probrange:
    y_predict = []
    for j in range(X.shape[0]):
        if clf_proba.predict_proba(X)[j,1] > i:
            y_predict.append(1)
        else:
            y_predict.append(0)
    cm = CM(y,y_predict,labels=[1,0])#labels表示标签为1的是少数类
    recall.append(cm[0,0]/cm[0,:].sum())
    FPR.append(cm[1,0]/cm[1,:].sum())
# 生成每一个阈值底下的混淆矩阵，recall,precision
recall.sort()
FPR.sort()

plt.plot(FPR,recall,c="red")
plt.plot(probrange+0.05,probrange+0.05,c="black",linestyle="--")#y=x的中间线  
plt.show()

#x轴precision假正率，越大代表多数类被误判越多
#y轴recall召回率，越大代表捕获越少数类完全

#ROC曲线就是，假正率顺序列表和召回率顺序列表构成的曲线
#我们希望假正率低，召回率高，因此希望曲线趋于左上角弯曲

#当ROC曲线趋于右下角时，说明少数类判断错误，只需要修改少数类标签label即可

#越接近中间的黑线模型越糟糕

3.4 sklearn中ROC与AUC

from sklearn.metrics import roc_curve

FPR, recall, thresholds = roc_curve(y,clf_proba.decision_function(X), pos_label=1)
#真实标签，置信度分数，positive_label正样本标签

FPR.shape

(45,)

recall.shape

(45,)

thresholds.shape #此时的threshold阈值 就不是一个概率值，而是距离值（带方向）中的阈值了，所以它可以大于1，也可以为负

(45,)

thresholds #decision_function

array([  3.18236076,   2.18236076,   1.48676267,   1.35964325,
         1.33920817,   1.14038015,   1.13383091,   1.00003406,
         0.85085628,   0.84476439,   0.78571364,   0.60568093,
         0.5389064 ,   0.46718521,   0.44396046,   0.03907036,
        -0.07011269,  -0.10668727,  -0.1258212 ,  -0.13845693,
        -0.14034183,  -0.16790648,  -0.2040958 ,  -0.22137683,
        -0.24381463,  -0.26762451,  -0.34446784,  -0.3467975 ,
        -0.39182241,  -0.40676459,  -0.4589064 ,  -0.46310299,
        -0.49195707,  -0.5088941 ,  -0.53560561,  -0.55152081,
        -0.62628865,  -0.67580418,  -0.78127198,  -0.79874442,
        -0.88438995,  -0.91257798,  -1.01417607,  -1.08601917,
       -10.31959605])

from sklearn.metrics import roc_auc_score as AUC

AUC(y,clf_proba.decision_function(X))

0.9696400000000001

area = AUC(y,clf_proba.decision_function(X))

#min = 0
#max = 1

plt.figure()
plt.plot(FPR, recall, color='red',
         label='ROC curve (area = %0.2f)' % area)#画标签
plt.plot([0, 1], [0, 1], color='black',linestyle='--')#画一条0-1之间的虚线
plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('Recall')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")#显示图例显示在右下脚
plt.show()

3.5 利用ROC曲线寻找最佳阈值

max((recall - FPR).tolist())

0.914

#lits.index(最大值) #返回这个最大值在list中的索引

(recall-FPR)

array([0.   , 0.02 , 0.014, 0.054, 0.052, 0.152, 0.15 , 0.19 , 0.186,
       0.206, 0.202, 0.342, 0.338, 0.398, 0.396, 0.576, 0.572, 0.592,
       0.59 , 0.61 , 0.608, 0.648, 0.644, 0.664, 0.66 , 0.7  , 0.698,
       0.718, 0.716, 0.776, 0.77 , 0.79 , 0.786, 0.806, 0.802, 0.822,
       0.814, 0.854, 0.848, 0.868, 0.866, 0.886, 0.874, 0.914, 0.   ])

maxindex = (recall - FPR).tolist().index(max(recall - FPR))

maxindex #recall, FPR

thresholds[maxindex] #decision_function生成的置信度来说对应的最佳阈值

-1.0860191749391461

#我们可以在图像上来看看这个点在哪里
plt.scatter(FPR[maxindex],recall[maxindex],c="black",s=30)

#把上述代码放入这段代码中：
plt.figure()
plt.plot(FPR, recall, color='red',
         label='ROC curve (area = %0.2f)' % area)
plt.plot([0, 1], [0, 1], color='black', linestyle='--')
plt.scatter(FPR[maxindex],recall[maxindex],c="black",s=30)#离左上角最近的点，离中间黑色分割线最远的点
plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('Recall')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

clf_proba.dual_coef_ #查看生成的拉格朗日乘子

array([[-1.        , -1.        , -1.        , -1.        , -1.        ,
        -1.        , -1.        , -1.        , -1.        , -1.        ,
        -1.        , -1.        , -1.        , -1.        , -1.        ,
        -1.        , -1.        , -1.        , -1.        , -1.        ,
        -1.        , -1.        , -1.        , -1.        , -0.50312301,
        -1.        , -1.        , -1.        , -1.        , -1.        ,
        -1.        , -1.        , -1.        , -1.        , -1.        ,
        -1.        , -1.        , -1.        , -1.        , -1.        ,
        -1.        , -0.25015141,  0.75327442,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ]])

clf_proba.support_vectors_.shape#查看支持向量属性

(83, 2)

clf_proba.dual_coef_.shape

(1, 83)

你可能感兴趣的:(sklearn,支持向量机,机器学习,python)

一览无遗 python 自定义装饰器使用及原理详解 1_bit python flask python flask 开发语言装饰器
注意：先行知识python，本篇文章所有代码均为实际运行，为原理和逻辑讲解一、装饰器装饰器是python中的一种语法糖，虽然我不想用语法糖这个词来表达，但这句话写在了开头，我也不到用别的更准确的词来形容他了。如果你刚接触编程不久，不理解语法糖，也没关系；在这里我说语法糖并不会影响到你接下来的理解，我只是用它在赘述，作为了一种形容词。首先我们要搞懂装饰器是什么东西，其次搞懂装饰器的基础知识点，最后逐
新手村：线性回归-实战-波士顿房价预测嘉羽很烦机器学习线性回归算法回归
新手村：线性回归-实战-波士顿房价预测前置条件阅读：新手村：线性回归了解相关概念实验目的1.熟悉机器学习的一般流程2.掌握基础的数据处理方法3.理解常用的回归算法教学例子：预测房价（以波士顿房价数据集为例）本次实验，你将使用真实的波士顿房价数据集建立起一个房价预测模型，并且了解到机器学习中的若干重要概念和评价方法，请通过机器学习建立回归模型，即:Y=θ0+θ1×X1+θ2×X2+θ3×X3+⋯+θ
新手村：混淆矩阵嘉羽很烦机器学习机器学习
新手村：混淆矩阵一、前置条件知识点要求学习资源分类模型基础理解分类任务（如二分类、多分类）和常见分类算法（如逻辑回归、决策树）。《Hands-OnMachineLearningwithScikit-Learn》Python基础熟悉变量、循环、函数、列表、字典等基本语法。《PythonCrashCourse》或在线教程（如Codecademy）scikit-learn基础掌握模型训练、预测、评估的基
计算机视觉入门 109702008 人工智能 #深度学习计算机视觉人工智能
计算机视觉（ComputerVision）是一门涉及使机器能够从图像或者多维数据中提取信息，解释、理解并对物体或场景进行处理的学科。以下是一个基本的计算机视觉入门学习路线，旨在为刚刚接触这一领域的学习者提供指导。1.基础知识储备数学基础：线性代数、概率论和数理统计、微积分、优化理论。编程语言：掌握至少一门编程语言，Python是目前在计算机视觉领域最流行的语言，其次是C++。2.计算机视觉基础数字
Python 3.12 新特性解析及对开发效率的提升叶间清风1998 python 开发语言
目录一、性能优化（一）FasterCPython（二）新的内存管理机制二、新语法和语言特性（一）Self-typeannotations（二）PatternMatchingEnhancements三、标准库更新（一）NewModulesandFunctions（二）ImprovementstoExistingModulesPython作为一种广泛应用于数据科学、人工智能、Web开发等众多领域的编程
Python Lambda 表达式简介咱家阿星 python python 开发语言
PythonLambda表达式Python的lambda表达式目录什么是Lambda表达式？Lambda的语法规则常见示范例子高阶函数中的Lambda应用Lambda与其他Python特性的结合使用Lambda的优势与限制1.什么是Lambda表达式？Lambda表达式是一种匿名函数，即没有函数名的函数。它通常用于临时场景，不需要像普通函数那样定义多行代码。常规函数与Lambda函数的对比#常规函
代码质量的基石：Python 单元测试实战 (unittest vs pytest) 清水白石008 python Python题库 python 单元测试 pytest
代码质量的基石：Python单元测试实战(unittestvspytest)引言在软件开发的浩瀚征程中，代码质量是决定项目成败的关键因素。如同建筑物的地基，稳固的代码质量能够支撑起复杂而庞大的系统，反之则可能导致系统崩溃、维护困难，甚至安全漏洞。单元测试，作为保障代码质量的第一道防线，扮演着至关重要的角色。Python，作为一门以简洁优雅著称的编程语言，拥有丰富的测试框架，其中unittest和p
【解锁机器学习：探寻数学基石】游戏乐趣机器学习人工智能
机器学习中的数学基础探秘在当今数字化时代，机器学习无疑是最具影响力和发展潜力的技术领域之一。从图像识别到自然语言处理，从智能推荐系统到自动驾驶，机器学习的应用无处不在，深刻地改变着我们的生活和工作方式。然而，在这看似神奇的机器学习背后，数学作为其坚实的理论基础，起着不可或缺的关键作用。毫不夸张地说，数学是打开机器学习大门的钥匙，是理解和掌握机器学习算法与模型的核心所在。想象一下，机器学习就像是一座
Python 文件操作基础咱家阿星 python python
Python文件操作基础在这篇将详细介绍如何打开文件、读写文件，以及如何处理文件操作中的异常。1.打开文件：open()open()函数用于打开文件，并返回一个文件对象，你可以通过这个对象操作文件内容。打开文件时，需要指定文件路径和操作模式。语法：file_object=open(file_path,mode)常见操作模式：模式描述'r'读取文件（默认模式），文件必须存在。'w'写入文件，如果文件
机器学习——正则化、欠拟合、过拟合、学习曲线代码的建筑师学习记录机器学习机器学习学习曲线过拟合欠拟合正则化
过拟合（overfitting）:模型只能拟合训练数据的状态。即过度训练。避免过拟合的几种方法：①增加全部训练数据的数量（最为有效的方式）②使用简单的模型（简单的模型学不够，复杂的模型学的太多），这里的简单指的是不要过于复杂③正则化（对目标函数后加上正则化项）：使得这个“目标函数+正则化项”的值最小，即为正则化，用防止参数变得过大（参数值变小，意味着对目标函数的影响变小），λ是正则化参数，代表正则
ubuntu部署ssl证书 QC七哥建站技能 ubuntu ssl linux https
证书安装在进行证书安装前，需要将域名的DNS指定到你的ubuntu服务器节点上，ubuntu安装Let’sEncrypt证书步骤如下安装certbot工具aptupdateaptinstallcertbotpython3-certbot-nginx运行certbot命令进行证书安装对于nginxcertbot--nginx-dmydomain.com-dwww.mydomain.com对于apac
使用 PEP 420 命名空间包构建统一目录风格及可选功能支持
背景在Python项目开发中，随着代码包数量和复杂度的增加，为了更好地管理多个代码包的命名空间及其依赖，推荐使用PEP420提供的命名空间包功能。通过这种方式，可以构建属于同一发行商（vendor）下的多个独立代码包，且这些包可以分别位于不同的代码仓库中。在此基础上，某些代码包可能需要进一步支持可选功能模块（例如optional1和optional2），用户可以根据需要选择安装这些功能模块。本文将
数据结构Python版---生成螺旋矩阵(Day5) 圆嘟嘟2019 数据结构Python版 python 算法开发语言 leetcode 数据结构
文章目录1.1⭐算法原理：1.2连续数组长度1.1⭐算法原理：生成螺旋矩阵原理：通过模拟矩阵填充来解决，像蜗牛的螺旋一样，从外往里旋。1.2连续数组长度给定一个正整数n，生成一个包含1到n^2所有元素，且元素按顺时针顺序螺旋排列的正方形矩阵。示例1：输入:3输出:[[1,2,3],[8,9,4],[7,6,5]]通过模拟矩阵填充的过程来解决，使用四个变量top、bottom、left、right来
Ubuntu 24 常用命令&方法 achi010 Linux ubuntu Ubuntu 24 常用命令 Ubuntu 24 Ubuntu Ubuntu vi 异常处理 linux 服务器
文章目录环境说明1、账号管理1.1、启用root2、包管理工具apt&dpkg2.1、apt简介&阿里源配置2.2、dpkg简介2.3、apt和dpkg两者之间的关系2.4、常用命令3、启用ssh服务4、防火墙5、开启远程登录6、关闭交换分区7、build-essential（编译和开发软件的工具和库）7.1、异常处理8、网络8.1、静态IP9、Python10、vi10.1、异常处理：方向键出现
从过拟合到强化学习：机器学习核心知识全解析吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能过拟合强化学习 python LLM scikit-learn
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Python基础学习（四）：字典代码死 python 学习 windows
1.字典简介字典是一种可变的容器，用于存储键值对。字典中的数据是无序的，键必须是唯一的且不可变。特点：使用大括号{}定义，键值对用冒号:分隔。数据是无序的。键必须是不可变类型（如字符串、数字、元组），值可以是任意类型。2.字典创建2.1使用字面值创建#创建空字典d1={}#创建包含键值对的字典d2={"name":"Alice","age":25,"city":"NewYork"}#键可以是数字d
Python基础学习（七）：运算符代码死 python 学习开发语言
Python提供了丰富的运算符，用于执行各种操作，包括算术运算、比较运算、逻辑运算、位运算等。本文将详细介绍Python中的各类运算符及其用法，并通过示例帮助你更好地理解和掌握。1.算术运算符算术运算符用于执行基本的数学运算。1.1常见运算符运算符描述示例+加法3+2→5-减法5-3→2*乘法2*3→6/除法10/2→5%取模（取余数）10%3→1**幂运算2**3→8//整除（取整数部分）10/
Python：项目相对路径一头大学牲程序--编程记录 python
项目层级结构：my_project/├──main.py├──module1/│├──__init__.py│└──my_module.py├──module2/│├──__init__.py│└──another_module.py1.包结构和__init__.py文件：Python将包含__init__.py文件的目录视为包，这允许文件夹内部的模块互相导入。无论包或模块位于项目结构的哪个级别，
Python--读取mat文件一头大学牲程序--编程记录 python 开发语言深度学习机器学习
最近在进行学习深度学习过程中，遇到了以MATLAB的.mat格式存储的数据，需要用python读取出来处理，于是就找到了以下比较方便的三种python读取mat文件的方法：使用hdf5库来读取mat文件1.使用scipy.io来读取1.5知识小插曲2.使用hdf5来读取3.使用mat73来读取1.使用scipy.io来读取-如果你的matlab的版本比较旧，保存的.mat格式为‘-v7.3’以前的
利用matlab实现贝叶斯优化算法（BO）优化支持向量机回归(SVR)的超参数是内啡肽耶算法 matlab 支持向量机机器学习回归
【导读】在机器学习建模中，支持向量机（SVM）回归模型的效果高度依赖超参数选择。但手动调参就像"大海捞针"，而网格搜索又面临"计算爆炸"的难题。今天给大家介绍一个智能调参黑科技——贝叶斯优化算法。通过Matlab实现，只需几分钟就能让模型性能自动升级！一、为什么要用贝叶斯优化调参？传统调参三大痛点：C参数（正则化强度）：过小导致过拟合，过大削弱模型能力ε参数（不敏感区域）：决定对预测误差的容忍度核
利用 OpenCV 库进行实时目标物体检测欣然～ opencv 人工智能计算机视觉
一、代码概述此代码利用OpenCV库实现了基于特征匹配的实时物体检测系统。通过摄像头捕获实时视频帧，将其与预先加载的参考图像进行特征匹配，从而识别出视频帧中是否存在与参考图像匹配的物体。二、环境依赖OpenCV：用于图像处理、特征提取和匹配等操作。NumPy：用于数值计算，OpenCV依赖于NumPy进行数组操作。可以使用以下命令安装所需库：bashpipinstallopencv-pythonn
使用python制作网站欣然～ python sqlite 数据库
新建一个名为pizzeria的项目，并在其中添加一个名为pizzas的应用程序。定义一个名为Pizza的模型，它包含字段name，用于存储比萨名称，如Hawaiian和MeatLovers。定义一个名为Topping的模型，它包含字段pizza和name，其中字段pizza是一个关联到Pizza的外键，而字段name用于存储配料，如pineapple、Canadianbacon和sausage。使
访问指定网站获取页面标题信息欣然～ python
一、代码功能概述bid_search.py是一个使用Selenium库的Python脚本，其主要功能是自动化访问特定的招投标信息网站（浙江招标投标公共服务平台-首页），点击页面上的“查看更多”按钮，获取页面上所有元素的内容，并将这些内容保存到save.txt文件中。二、代码结构与详细说明1.导入必要的库收起pythonfromseleniumimportwebdriverfromselenium.
python-提示词对大模型推理有多重要？给自己做加法 python python 语言模型
文章目录前言测试一个失败的提示词提示词内容knowledge内容提问的内容得到的回答说点啥能引导的提示词提示词内容knowledge内容提问的内容得到的回答说点啥结束语前言神级提示词一度成为AI圈的热搜，那么提示词对大模型推理到底有多重要？测试一个失败的提示词提示词内容基础知识：{knowledge}；问题：{question}；根据已知知识和基础知识回答问题knowledge内容{"商品名称":
【开源所有代码-全在线智能音箱】树莓派智能音箱，自定义唤醒词，大模型LLM GPT对话南七小僧服务器开发人工智能 AI技术产品经理智能音箱 gpt
安装sounddevicepipinstallsounddevice安装portAudiosudoapt-getinstalllibportaudio2sudoapt-getinstalllibasound-devsudoapt-getinstallportaudio.devsudoapt-getinstallpython3-pyaudiopipinstallpyaudio安装wavepipins
Miniconda 安装及使用 achi010 Python Miniconda 安装及使用 Miniconda Miniconda 安装 Miniconda 常用命令 Linux Miniconda Python 环境管理 UbuntuMiniconda
文章目录前言1、Miniconda简介2、Linux环境说明2.1、安装2.2、配置2.3、常用命令2.4、常见问题及解决方案前言在Python中，“环境管理”是一个非常重要的概念，它主要是指对Python解释器及其相关依赖库进行管理和隔离，以确保开发环境的稳定性和项目的可移植性。什么是Python环境Python解释器：Python是一种解释型语言，代码的运行需要通过Python解释器来执行。不
华为OD机试 - 最长回文字符串（C++ Java JavaScript Python） YOLO大师华为 c++java 算法华为od
题目描述如果一个字符串正读和反渎都一样（大小写敏感），则称它为一个「[回文串]，例如：leVel是一个「回文串」，因为它的正读和反读都是leVel；同理a也是「回文串」art不是一个「回文串」，因为它的反读tra与正读不同Level不是一个「回文串」，因为它的反读leveL与正读不同（因大小写敏感）给你一个仅包含大小写字母的字符串，请用这些字母构造出一个最长的回文串，若有多个最长的，返回其中字典序
自用力扣刷题记录（Python，数组、字符串） qq_40283123
文章目录一.数组69744844241274453最小操作次数使数组元素相等665非递减数列283移动的零118杨辉三角形119杨辉三角形2661图片平滑器598范围求和II419夹板上的战舰189旋转数组396旋转函数54螺旋矩阵59螺旋矩阵II498对角线遍历566重塑矩阵48旋转图像73矩阵置零289生命游戏303区域和检索-数组不可变304二维区域和检索-矩阵不可变238除自身以外数组的乘
Python 进程和线程-进程 vs. 线程赔罪 Python 系统学习 python 开发语言
目录ThreadLocal小结进程vs.线程线程切换计算密集型vs.IO密集型异步IOThreadLocal在多线程环境下，每个线程都有自己的数据。一个线程使用自己的局部变量比使用全局变量好，因为局部变量只有线程自己能看见，不会影响其他线程，而全局变量的修改必须加锁。但是局部变量也有问题，就是在函数调用的时候，传递起来很麻烦：defprocess_student(name):std=Student
一个数如果恰好等于它的因子之和，这个数就称为“完数“。例如6=1＋2＋3.编程找出1000以内的所有完数。-多语言赔罪 Practice questions 算法 java c语言 javascript python
目录C语言实现Python实现Java实现Js实现题目：一个数如果恰好等于它的因子之和，这个数就称为"完数"。例如6=1＋2＋3.编程找出1000以内的所有完数。完数（PerfectNumber）是一个正整数，它等于其所有正因子（不包括自身）的和。换句话说，如果一个数n的所有正因子（除了n本身）相加的结果等于n，那么n就是一个完数。完数的性质完数是稀有的，已知的完数都是偶数。根据欧几里得的定理，完
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam