扔出去的回旋镖

ccc-sklearn-9-SVM（3）

1.引入参数C后的支持向量

软间隔让决定两条虚线超平面的支持向量可能是来自于同一个类别的样本点，而硬间隔的时候两条虚线超平面必须是来自两个不同类别的支持向量决定的。

C值会决定我们究竟是依赖红色点作为支持向量，还是要依赖软间隔中混在在红色中的紫色点来作为支持向量。如果C值设定较大，那SVC可能会选择边际较小的，能够更好地分类所有训练点的决策边界，训练时间也会变长。如果C的设定值较小，那SVC会尽量最大化边界，尽量将掉落在决策边界另一方的样本点预测正确，这样会影响训练的决策准确度。此时，所有可能影响超平面的样本都会被定义为支持向量，而不仅仅是压在虚线超平面上的点，是哪些混在彼此类别中的点。
观察不同数据集分类的支持向量
数据导入以及绘制linear下各个数据集的支持向量

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn import svm
from sklearn.datasets import make_circles, make_moons,make_blobs,make_classification

n_samples =100
datasets = [
    make_moons(n_samples=n_samples, noise=0.2, random_state=0),
    make_circles(n_samples=n_samples, noise=0.2, factor=0.5, random_state=1),
    make_blobs(n_samples=n_samples, centers=2, random_state=5),
    make_classification(n_samples=n_samples,n_features = 
2,n_informative=2,n_redundant=0, random_state=5)
]

Kernel = ["linear"]
for X,Y in datasets:
    plt.figure(figsize=(5,4))
    plt.scatter(X[:,0],X[:,1],c=Y,s=50,cmap="rainbow")
nrows=len(datasets)
ncols=len(Kernel)+1

fig, axes = plt.subplots(nrows,ncols,figsize=(10,16))
for ds_cnt, (X,Y) in enumerate(datasets):
    ax = axes[ds_cnt,0]
    if ds_cnt ==0:
        ax.set_title("Input data")
    ax.scatter(X[:,0],X[:,1],c=Y,zorder=10,cmap=plt.cm.Paired,edgecolors='k')
    ax.set_xticks(())
    ax.set_yticks(())
    for est_idx, kernel in enumerate(Kernel):
        ax = axes[ds_cnt,est_idx+1]
        clf = svm.SVC(kernel=kernel,gamma=2).fit(X,y)
        score =clf.score(X,Y)
        ax.scatter(X[:,0],X[:,1],c=Y
                  ,zorder=10
                  ,cmap=plt.cm.Paired,edgecolors='k')
        ax.scatter(clf.support_vectors_[:,0],clf.support_vectors_[:,1],s=100,
                  facecolors='none',zorder=10,edgecolors='white')
        x_min, x_max = X[:,0].min()-.5,X[:,0].max()+.5
        y_min, y_max = X[:,1].min()-.5,X[:,1].max()+.5
        XX, YY = np.mgrid[x_min:x_max:200j, y_min:y_max:200j]
        #np.c_，类似于np.vstack的功能
        Z = clf.decision_function(np.c_[XX.ravel(), YY.ravel()]).reshape(XX.shape)
        ax.pcolormesh(XX,YY,Z>0,cmap=plt.cm.Paired)
        ax.contour(XX,YY,Z,colors=['k','k','k'],linestyles=['--','-','--'],
                  levels=[-1,0,1])
        ax.set_xticks(())
        ax.set_yticks(())
        if ds_cnt==0:
            ax.set_title(kernel)
        ax.text(0.95,0.06,('%.2f'% score).lstrip('0')
               ,size=15
               ,bbox=dict(boxstyle='round',alpha=0.8,facecolor='white')
               ,transform=ax.transAxes
               ,horizontalalignment='right')
plt.tight_layout()
plt.show()

其中白色圈出来的就是我们的支持向量，可以看到所有在两条虚线超平面之间的点，和虚线超平面外的，但属于另一个类别的点，都被认为是支持向量，并不是因为这些点都在超平面上，而是因为超平面由所有的这些点来决定，可以调节C来移动超平面，让超平面超过任何一个白色点。

2.SVC重要参数class_weight

分类模型天生倾向于多数的类，即让多数类判断正确，少数类被牺牲掉。为了让算法意识到数据的标签是不均衡的，通过一些惩罚或者改变样本本身，让模型向着捕获少数类的方向建模。SVC中一半调整SVC类中的class_weight和接口fit中可以设定的sample_weight参数

逻辑回归中的上采样下采样方法，会增加样本点的总数，对于SVC这种算法来说。样本量对计算速度的影响很大，而且决策边界仅仅受到参数C和支持向量的影响，单纯增加样本数量可能增加无数对决策边界无影响的点。

SVC的参数：class_weight
默认None，表示自动认为标签比例为1:1，所有类都被假设为占有相同的权重1，模型会根据数据原本的状况去训练。可以添加字典来进行调整。或者输入‘balanced’，使使用y的值自动调整为与输入数据中的类频率成反比的权重n_samples/(n_classes * np.bincount(y))
SVC的接口fit的参数：sample_weight
数组，结构为 (n_samples, )，必须对应输入fit中的特征矩阵的每个样本。每个样本在fit时的权重，让权重 * 每个样本对应的C值来迫使分类器强调设定的权重更大的样本。通常，较大的权重加在少数类的样本上，以迫使模型向着少数类的方向建模

通常设置两个参数中的一个即可

分别绘制进行了数据平衡与未数据平衡数据的决策边界
步骤一：导入库和创建不平衡的数据集

import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.datasets import make_blobs

class_1 = 500
class_2 = 50
centers = [[0.0,0.0],[2.0,2.0]]
clusters_std = [1.5,0.5]
X, y =make_blobs(n_samples=[class_1,class_2],
                centers=centers,
                cluster_std=clusters_std,
                random_state=0,shuffle=False)
plt.scatter(X[:,0],X[:,1],c=y,cmap="rainbow",s=10)

步骤二：分别在有数据平衡和没有数据平衡上建模

clf = svm.SVC(kernel='linear',C=1.0)
clf.fit(X,y)
wclf = svm.SVC(kernel='linear',class_weight={1:10})
wclf.fit(X,y)

clf.score(X,y)
wclf.score(X,y)

步骤三：绘制两个模型下的数据的决策边界

#获取数据分布以及网格
plt.figure(figsize=(6,5))
plt.scatter(X[:,0],X[:,1],c=y,cmap="rainbow",s=10)
ax=plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()
xx = np.linspace(xlim[0],xlim[1],30)
yy = np.linspace(ylim[0],ylim[1],30)
YY,XX =np.meshgrid(yy,xx)
xy = np.vstack([XX.ravel(),YY.ravel()]).T
#找出样本点到决策边界的距离
Z_clf = clf.decision_function(xy).reshape(XX.shape)
a = ax.contour(XX,YY,Z_clf,colors='black',levels=[0],alpha=0.5,linestyles=['-'])
Z_wclf = wclf.decision_function(xy).reshape(XX.shape)
b = ax.contour(XX,YY,Z_wclf,colors='red',levels=[0],alpha=0.5,linestyles=['-'])
#画图例
plt.legend([a.collections[0],b.collections[0]],["non weighted","weighted"],
           loc="upper right")
plt.show()

从准确率的角度来看，不做样本平衡的准确率反而更高。这是因为做了样本平衡之后，为了更加有效的捕捉出少数类，模型多数类被分错的数量>少数类被分类正确的数量，如果此时我们追求的是模型整体的准确率，那么就要拒绝样本平衡。当然实际生活中，我们往往追求的是捕捉少数类，因为它们判错的代价比较大。

3.SVC的模型评估指标

混淆矩阵

准确率 Accuracy：整体效果
精确度 Precision：多数类判错成本

(y[y == clf.predict(X)] == 1).sum()/(clf.predict(X) ==1).sum()
(y[y == wclf.predict(X)] == 1).sum()/(wclf.predict(X) ==1).sum()

它可以帮我们判断是否每一次对少数类的预测都精确，所以又被称为“查准率”。如果代价是不惜一切捕捉少数类，则不必在意。

召回率 Recall：真实为1 的样本中预测正确占的比例

(y[y == clf.predict(X)] ==1).sum()/(y==1).sum()
(y[y == wclf.predict(X)] ==1).sum()/(y==1).sum()

如果不在意少数类，则不必在意。

假负率 False Negative Rate：1-Recall
F1 measure：同时兼顾精确度和召回率

$F-measure=\frac{2}{\frac{1}{Precision}+\frac{1}{Recall}}=\frac{2*Precision*Recall}{Precision+Recall}$
两个数的调和平均倾向于靠近两个数中比较小的那一个数，高的F1值能保证精确度和召回率都较高

特异度 Specificity：真实为0的样本中，被正确预测为0所占的比例

(y[y == clf.predict(X)] == 0).sum()/(y==0).sum()
(y[y == wclf.predict(X)] == 0).sum()/(y==0).sum()

假正率 False Positive Rate：1-specificity

sklearn中的混淆矩阵

类	含义
sklearn.metrics.confusion_matrix	混淆矩阵
sklearn.metrics.accuracy_score	准确率accuracy
sklearn.metrics.precision_score	精确度precision
sklearn.metrics.recall_score	召回率recall
sklearn.metrics.precision_recall_curve	精确度-召回率平衡曲线
sklearn.metrics.f1_score	F1 measure

ROC曲线
全称The Receiver Operating Characteristic Curve，是一条以不同阈值下的假正率FPR为横坐标，不同阈值下的召回率为纵坐标的曲线

概率probability和阈值threshold
步骤一：数据创建

class_1_ = 7
class_2_ = 4
centers_ = [[0.0, 0.0], [1,1]]
clusters_std = [0.5, 1]
X_, y_ = make_blobs(n_samples=[class_1_, class_2_],
                  centers=centers_,
                  cluster_std=clusters_std,
                  random_state=0, shuffle=False)
plt.scatter(X_[:, 0], X_[:, 1], c=y_, cmap="rainbow",s=30)
plt.show()

步骤二：建模调用概率

from sklearn.linear_model import LogisticRegression as LogiR
clf_lo = LogiR().fit(X_,y_)
prob = clf_lo.predict_proba(X_)
import pandas as pd
prob = pd.DataFrame(prob)

步骤三：设置阈值0,5，大于0,5的预测为1

for i in range(prob.shape[0]):
    if prob.loc[i,"1"] > 0.5:
        prob.loc[i,"pred"] =1
    else:
        prob.loc[i,"pred"]=0
prob["y_true"]=y_
prob = prob.sort_values(by="1",ascending=False)

步骤四：使用混淆矩阵查看结果

from sklearn.metrics import confusion_matrix as CM,precision_score as P ,recall_score as R
CM(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])
P(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])
R(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])

步骤五：设置阈值为5并查看变化

for i in range(prob.shape[0]):
    if prob.loc[i,"1"] > 0.4:
        prob.loc[i,"pred"] =1
    else:
        prob.loc[i,"pred"]=0
CM(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])
P(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])
R(prob.loc[:,"y_true"],prob.loc[:,"pred"],labels=[1,0])

可以看到，不同阈值下模型的评估指标也会发生变化。升高或者降低阈值并不能确保Recall的改变，一切要根据数据的实际变化来进行判断。如果有概率需求，通常优先考虑逻辑回归和朴素贝叶斯。

4.SVM实现概率预测

decision_function
返输入的特征矩阵中每个样本到划分数据集的超平面的距离，也被称为SVM的置信度（confidence）

SVC参数probability

参数	含义
probability	布尔值，可不填，默认False ,是否启用概率估计进行必须在调用fit之前启用它，启用此功能会减慢SVM的运算速度

设置为True则会启动，启用之后，SVC的接口predict_proba和predict_log_proba将生效。在二分类情况下，SVC将使用Platt缩放来生成概率，即在decision_function生成的距离上进行Sigmoid压缩，并附加训练数据的交叉验证拟合，来生成类逻辑回归的SVM分数

概率预测实现
步骤一:创建数据

class_1 = 500
class_2 = 50
centers =[[0.0,0.0],[2.0,2.0]]
clusters_std = [1.5,0.5]
X, y =make_blobs(n_samples=[class_1,class_2],
                centers=centers,
                cluster_std=clusters_std,
                random_state=0,shuffle=False)
plt.scatter(X[:,0],X[:,1],c=y,cmap="rainbow",s=10)

步骤二：代入模型输出结果即可

clf_proba = svm.SVC(kernel="linear",C=1.0,probability=True).fit(X,y)
clf_proba.predict_proba(X)
clf_proba.predict_proba(X).shape
clf_proba.decision_function(X)
clf_proba.decision_function(X).shape

由于是距离，所以decision_function只会生成一列距离。注意，Platt缩放中涉及的交叉验证对于大型数据集来说非常昂贵，计算会非常缓慢。另外，由于Platt缩放的理论原因，在二分类过程中，有可能出现predict_proba返回的概率小于0.5，但样本依旧被标记为正类的情况出现，毕竟支持向量机本身并不依赖于概率来完成自己的分类。如果需要置信度分数，但不一定非要是概率形式的话，那建议可以将probability设置为False，使用decision_function这个接口而不是predict_proba

手动绘制SVM的ROV曲线
ROC是一条以不同阈值下假正率FPR为横坐标，不同阈值下的召回率为纵坐标的曲线，因此需要不断调整阈值求解混淆矩阵。

recall = []
FPR = []
probrange = np.linspace(clf_proba.predict_proba(X)[:,1].min(),
                        clf_proba.predict_proba(X)[:,1].max(),num=50,
                        endpoint=False)
from sklearn.metrics import confusion_matrix as CM,recall_score as R
import matplotlib.pyplot as plot

for i in probrange:
    y_predict = []
    for j in range(X.shape[0]):
        if clf_proba.predict_proba(X)[j,1]>i:
            y_predict.append(1)
        else:
            y_predict.append(0)
    cm = CM(y,y_predict,labels=[1,0])
    recall.append(cm[0,0]/cm[0,:].sum())
    FPR.append(cm[1,0]/cm[1,:].sum())
recall.sort()
FPR.sort()
plt.plot(FPR,recall,c="red")
plt.plot(probrange+0.05,probrange+0.05,c="black",linestyle="--")
plt.show()

建立ROC曲线的根本目的是找寻Recall和FPR之间的平衡，能够在尽量在捕捉少数类的时候，误伤多数类的情况会如何变化。横坐标是FPR，代表着模型将多数类判断错误的能力，纵坐标Recall，代表着模型捕捉少数类的能力，所以ROC曲线代表着，随着Recall的不断增加，FPR如何增加。
对于一条凸型ROC曲线来说，曲线越靠近左上角越好，越往下越糟糕，曲线如果在虚线的下方，则证明模型完全无法使用。但是它也有可能是一条凹形的ROC曲线。对于一条凹型ROC曲线来说，应该越靠近右下角越好，凹形曲线代表模型的预测结果与真实情况完全相反，那也不算非常糟糕，只要手动将模型的结果逆转，就可以得到一条左上方的弧线了。最糟糕的就是，无论曲线是凹形还是凸型，曲线位于图像中间，和虚线非常靠近。

sklearn中绘制ROC曲线和AUC面积

from sklearn.metrics import roc_curve
FPR,recall,thresholds = roc_curve(y,clf_proba.decision_function(X),pos_label=1)
from sklearn.metrics import roc_auc_score as AUC
area = AUC(y,clf_proba.decision_function(X))

plt.figure()
plt.plot(FPR,recall,color='red',
        label='ROC curve (area=%0.2f)'%area)
plt.plot([0,1],[0,1],color='black',linestyle='--')
plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('Recall')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

利用ROC曲线找到最佳阈值

maxindex = (recall - FPR).tolist().index(max(recall - FPR))
thresholds[maxindex]
plt.figure()
plt.plot(FPR,recall,color='red',
        label='ROC curve (area=%0.2f)'%area)
plt.plot([0,1],[0,1],color='black',linestyle='--')
plt.scatter(FPR[maxindex],recall[maxindex],c='black',s=30)
plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('Recall')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

还可以用KS曲线，或者收益曲线(profit chart)来选择我们的阈值，都是和ROC曲线类似的用法。

用 K-means 算法实现水果分堆 wh_xia_jun AI+医疗算法 kmeans 机器学习
先看运行效果：importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeans#生成模拟数据（两个高斯分布的混合点集）np.random.seed(42)X1=np.random.randn(100,2)+np.array([2,2])#第一簇数据，中心在(2,2)X2=np.random.randn(100,2)
BSCAN 在糖尿病患者数据聚类分析中的应用 wh_xia_jun AI+医疗机器学习支持向量机人工智能
完整代码：importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportDBSCANfromsklearn.preprocessingimportStandardScalerfromsklearn.datasetsimportmake_blobs#设置随机种子，确保结果可复现np.random.seed(42)#1.生成模拟
基于SVm和随机森林算法模型的中国黄金价格预测分析与研究 python编程狮支持向量机算法随机森林 python 机器学习人工智能
摘要本研究基于回归模型，运用支持向量机（SVM）、决策树和随机森林算法，对中国黄金价格进行预测分析。通过历史黄金价格数据的分析和特征工程，建立了相应的预测模型，并利用SVM、决策树和随机森林算法进行训练和预测。首先，通过对黄金价格时间序列数据的探索性分析，发现黄金价格存在一定的趋势和季节性变化。随后，进行了数据预处理和特征选择，为建立准确的预测模型奠定了基础。分别使用SVM、决策树和随机森林算法建
分类模型（BERT）训练全流程巴伦是只猫人工智能分类 bert 数据挖掘
使用BERT实现分类模型的完整训练流程BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种强大的预训练语言模型，在各种NLP任务中表现出色。下面我将详细梳理使用BERT实现文本分类模型的完整训练过程。1.准备工作1.1环境配置pipinstalltransformerstorchtensorflowpandassklearn1.2
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
python学智能算法（二十七）|SVM-拉格朗日函数求解上西猫雷婶机器学习人工智能 python学习笔记支持向量机 python 机器学习算法人工智能
【1】引言前序学习进程中，我们已经掌握了支持向量机算法中，为寻找最佳分割超平面，如何用向量表达超平面方程，如何为超平面方程建立拉格朗日函数。本篇文章的学习目标是：求解SVM拉格朗日函数。【2】求解方法【2.1】待求解函数支持量机算法的拉格朗日函数为：L(w,b,α)=12∥w∥2−∑i=1mαi[yi(w⋅xi+b−1)]L(w,b,\alpha)=\frac{1}{2}{\left\|w\rig
十种常用数据分析模型耐思nice～数据分析数据分析人工智能机器学习数学建模
1-线性回归（LinearRegression）场景：预测商品销售额优点：简单易用，结果易于解释缺点：假设线性关系，容易受到异常值影响概念：建立自变量和因变量之间线性关系的模型。公式：[y=b_0+b_1x_1+b_2x_2+...+b_nx_n]代码示例：importpandasaspdfromsklearn.linear_modelimportLinearRegressionfromsklea
一元线性回归模型与最小二乘法 liuzx32
监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个平面，对于多维空间线
支持向量回归（Support Vector Regression, SVR）详解 DuHz 回归数据挖掘人工智能信号处理算法数学建模机器学习
支持向量回归（SupportVectorRegression,SVR）详解支持向量回归（SupportVectorRegression，简称SVR）是一种基于支持向量机（SVM）的回归分析方法，广泛应用于预测和模式识别领域。SVR通过在高维空间中寻找一个最优超平面，以最大化数据点与超平面的间隔，从而实现对连续型变量的预测。本文将深入探讨SVR的理论基础、数学原理、模型构建、参数选择、训练与优化、应
K近邻算法【python】【sklearn】 weixin_44985842 python 近邻算法 sklearn
0定义K近邻算法（K-NearestNeighbors,KNN）是一种基于实例的监督学习算法，主要用于分类和回归任务。其核心思想是：在特征空间中，对于待预测的样本，找到与其距离最近的k个已知样本（“邻居”），根据这k个邻居的类别（分类任务）或属性值（回归任务）来决定该样本的预测结果，，常用欧氏距离公式：对于两个n维样本点xi=(xi1,xi2,...,xin)x_i=(x_{i1},x_{i2},
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
使用tensorflow的线性回归的例子（七） lishaoan77 tensorflow tensorflow 线性回归人工智能
L1与L2损失这个脚本展示如何用TensorFlow求解线性回归。在算法的收敛性中，理解损失函数的影响是很重要的。这里我们展示L1和L2损失函数是如何影响线性回归的收敛性的。我们使用iris数据集,但是我们将改变损失函数和学习速率来看收敛性的改变。importmatplotlib.pyplotaspltimportnumpyasnpimporttensorflowastffromsklearnim
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
C#实现SVM支持向量机（附完整源码）源代码大师 C#实战教程 c#支持向量机开发语言
C#实现SVM支持向量机下面是使用C#实现支持向量机（SVM）的示例代码：usingSystem;usingAccord.MachineLearning.VectorMachines;usingAccord.MachineLearning.VectorMachines.Learning;usingAccord
支持向量机（SVM）在病理切片图像分类（癌细胞检测，Camelyon16/17、TCGA）中的应用与实现猿享天开支持向量机分类算法机器学习人工智能
支持向量机（SVM）在病理切片图像分类（癌细胞检测，Camelyon16/17、TCGA）中的应用与实现病理切片图像分类是医学影像分析的重要领域，特别是在癌细胞检测中，SVM因其对高维数据和小样本场景的优异性能，成为一种经典且有效的分类方法。本文将深入探讨SVM在Camelyon16/17和TCGA数据集上的应用，全面覆盖概念与原理、应用场景、及挑战与应对策略，欢迎感兴趣的阅读。[文中示例代码仅供
3.多层感知机温柔济沧海深度学习深度学习人工智能多层感知机
3.1从零实现多层感知机#数据集导入importtorchimporttorchvisionfromtorchvisionimporttransformsimportmatplotlib.pyplotaspltfromtorch.utils.dataimportDataLoaderfromtorchimportnnfromtqdmimporttqdmfromsklearn.metricsimpor
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
【一起来学AI大模型】支持向量机（SVM）：核心算法深度解析运器123 AI大模型支持向量机机器学习人工智能 ai 大数据 AI编程算法
一、算法核心思想支持向量机（SVM）是一种强大的监督学习算法，核心思想是通过寻找最优超平面实现分类或回归：分类目标：找到能最大化两类数据间隔的超平面回归目标：找到包含最多数据点的ε带关键概念图解超平面：w·x+b=0/\/\+1|支持向量|-1|●●||●●||●●||_________________|最大间隔(margin)二、数学原理与优化问题1.线性可分情况目标函数：\min_{w,b}\
Aletheia 情感智能模型：完整实现
Aletheia情感智能模型，整合所有核心模块并解决之前指出的问题。这个实现包含完整的神经动力学系统、多模态情感融合、伦理约束场和量子意识接口。importnumpyasnpimportmatplotlib.pyplotaspltfromscipy.integrateimportodeintfromsklearn.decompositionimportPCAimporttorchimporttor
使用AutoKeras2.0的AutoModel进行结构化数据回归预测
1、FirstofAll:ReadTheFuckingSourceCodeimportautokerasasakimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportmean_squared_error#生成数据集np.random.seed(42)x=np.random.r
机器学习笔记——支持向量机 star_and_sun 机器学习笔记支持向量机
支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将其分开间隔最大化的分离超平面的的求解怎么求呢？最终的方法如下1.线性可分的支持向量机的优化目标其实就是找得到分离的的超平面求得参数w和b的值就可以了注意，最大间隔分离超平面是唯一的，间隔叫硬间隔1.1
使用 Bank Churn 数据集进行二元分类
一、前言分类任务：预测客户是继续使用其帐户还是关闭帐户（例如，流失）项目地址：https://www.kaggle.com/competitions/playground-series-s4e1二、具体步骤（一）数据导入与预览importpandasaspdimportnumpyasnpimportmatplotlib.pylabaspltimportseabornassnsfromsklearn
《支持向量机（SVM）在医疗领域的变革性应用》 CodeJourney. 支持向量机算法机器学习
在医疗科技日新月异的今天，先进的数据分析与机器学习技术正逐渐成为提升诊疗水平、助力医学研究的关键力量。支持向量机（SVM），凭借其独特的优势，在医疗这片复杂且对精准度要求极高的领域崭露头角，带来诸多令人瞩目的应用成果。一、疾病诊断：癌症早期筛查的“火眼金睛”癌症，作为全球健康的“头号杀手”，早期诊断对提升患者生存率意义非凡。在乳腺癌筛查领域，SVM发挥着重要作用。医疗科研人员收集大量乳腺组织的影像
支持向量机（SVM）在肝脏CT/MRI图像分类（肝癌检测）中的应用及实现猿享天开医学影像支持向量机机器学习人工智能算法
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
线性回归 python代码黄涵奕 python 线性回归 numpy 机器学习开发语言
下面是一个线性回归模型的Python代码示例：importnumpyasnpfromsklearn.linear_modelimportLinearRegression#训练数据x=np.array([[1],[2],[3],[4],[5]])y=np.array([5,7,9,11,13])#建立模型reg=LinearRegression().fit(x,y)#预测reg.predict(np
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

ccc-sklearn-9-SVM（3）

1.引入参数C后的支持向量

2.SVC重要参数class_weight

3.SVC的模型评估指标

4.SVM实现概率预测

你可能感兴趣的:(sklearn,sklearn,支持向量机)