qq_42052864

训练二元分类器及三种评估方法

分类器

MINIST

使用MNIST数据集，这是一组由美国高中生和人口调查局员工手写的70000个数字的图片

Scikit-Learn提供了许多助手功能来帮助你下载流行的数据集。MNIST也是其中之一。下面是获取MNIST数据集的代码

from sklearn.datasets import fetch_openml
minst = fetch_openml('mnist_784',version=1)
minst.keys()

dict_keys(['data', 'target', 'frame', 'categories', 'feature_names', 'target_names', 'DESCR', 'details', 'url'])

Scikit-Learn加载的数据集通常具有类似的字典结构，包括：

DESCR键，描述数据集。
data键，包含一个数组，每个实例为一行，每个特征为一列。
target键，包含一个带有标记的数组。

X,y = minst["data"],minst["target"]
print(X.shape,y.shape)

(70000, 784) (70000,)

看数据情况，共有7万张图片，每张图片有784个特征。
图片是28×28像素，每个特征代表了一个像素点的强度，从0（白色）到255（黑色）。
随手抓取一个实例的特征向量X[0]，将其重新形成一个28×28数组，然后使用Matplotlib的imshow（）函数将其显示出来。图形显示与y[0]一样

import matplotlib as mpl
import matplotlib.pyplot as plt

some_digit = X[0]
some_digit_image = some_digit.reshape(28,28)

plt.imshow(some_digit_image,cmap='binary')#plt.imshow()函数负责对图像进行处理，并显示其格式，但是不能显示。其后跟着plt.show（）才能显示出来。
plt.title('%s'%y[0]) # y[0]为字符串
plt.axis('off')
plt.show()

创建测试集和训练集。但MNIST数据集已经分成训练集（前6万张图片）和测试集（最后1万张图片）了

import numpy as np
y = y.astype(np.uint8)

X_train,X_test,y_train,y_test = X[:60000],X[60000:],y[:60000],y[60000:]

先将训练集数据混洗（就是打乱实例的排列顺序），这样能保证交叉验证时所有的折叠都差不多

训练二元分类器

先尝试识别一个数字，比如5,则为“数字5检测器”,其分类结果为5和非5。为此分类任务创建目标向量

y_train_5 = (y_train == 5) # 为5的都为真，其他都为假
y_test_5 = (y_test == 5)

先创建一个分类器并在整个训练集上进行训练，选择随机梯度下降（SGD）分类器，使用Scikit-Learn的SGDClassifier类即可。

from sklearn.linear_model import SGDClassifier
sgd_clf = SGDClassifier(random_state=42) #SGDClassifier在训练时是完全随机的，为得到可复现的结果，需要设置参数random_state
sgd_clf.fit(X_train,y_train_5)

用分类器监测数字5的图片，查看分类结果

sgd_clf.predict([some_digit]) # 返回True,表示分类器猜这个数字为5，y[0]就是5，预测准确

评估分类器

使用交叉验证测量准确率

Scikit-Learn提供cross_val_score（）这一类交叉验证的函数，我是跟着书本码的笔记，书本写了一个自行实现交叉验证的代码如下:
每个折叠由StratifiedKFold执行分层抽样产生，其所包含的各个类的比例符合整体比例。每个迭代会创建一个分类器的副本，用训练集对这个副本进行训练，然后用测试集进行预测。最后计算正确预测的次数，输出正确预测的比率。

from sklearn.model_selection import StratifiedKFold
from sklearn.base import clone

skfolds = StratifiedKFold(n_splits=3,random_state=42,shuffle=True) #StratifiedKFold 将训练集做有放回分层抽样，分为新的训练集和验证集，随机分三次，取出索引

for train_index,test_index in skfolds.split(X_train,y_train_5):
    clone_clf = clone(sgd_clf)
    X_train_folds = X_train[train_index]
    y_train_folds = y_train_5[train_index]
    
    X_test_fold = X_train[test_index]
    y_test_fold = y_train_5[test_index]
    
    clone_clf.fit(X_train_folds,y_train_folds)
    y_pred = clone_clf.predict(X_test_fold)
    n_correct = sum(y_pred == y_test_fold)
    print(n_correct/len(y_pred))  # 0.9669,0.91625,0.96785

用cross_val_score（）函数来评估SGDClassifier模型，采用K-折交叉验证法（3个折叠）。记住，K-折交叉验证的意思是将训练集分解成K个折叠（在本例中，为3折），然后每次留其中1个折叠进行预测，剩余的折叠用来训练

from sklearn.model_selection import cross_val_score
cross_val_score(sgd_clf,X_train,y_train_5,cv=3,scoring='accuracy')

array([0.95035, 0.96035, 0.9604 ])

所有折叠交叉验证的准确率（正确预测的比率）超过93%？看起来挺神奇的，是吗？不过在你开始激动之前，我们来看一个蠢笨的分类器，它将每张图都分类成“非5”

from sklearn.base import BaseEstimator
class Never5Classifier(BaseEstimator):
    def fit(self,X,y=None):
        return self
    def predict(self,X):
        return np.zeros((len(X),1),dtype=bool)
    
never_5_clf = Never5Classifier()
cross_val_score(never_5_clf,X_train,y_train_5,cv=3,scoring='accuracy') # array([0.91125, 0.90855, 0.90915])

sum(np.where(y_train_5,1,0))/60000 #0.09035,只有大约10%的数字为5，训练集为有偏数据集

准确率超过90%！这是因为只有大约10%的图片是数字5，所以如果你猜一张图不是5，90%的概率你都是正确的，这说明准确率通常无法成为分类器的首要性能指标，特别是当你处理有偏数据集时（即某些类比其他类更为频繁）

混淆矩阵

评估分类器性能的更好方法是混淆矩阵，其总体思路就是统计A类别实例被分成为B类别的次数

要计算混淆矩阵，需要先有一组预测才能将其与实际目标进行比较。当然，可以通过测试集来进行预测，但是现在先不要动它（测试集最好留到项目的最后，准备启动分类器时再使用）。作为替代，可以使用cross_val_predict（）函数.与cross_val_score（）函数一样，cross_val_predict（）函数同样执行K-折交叉验证，但返回的不是评估分数，而是每个折叠的预测

计算混淆矩阵

from sklearn.model_selection import cross_val_predict
y_train_pred = cross_val_predict(sgd_clf,X_train,y_train_5,cv=3)

现在使用confusion_matrix（）函数来获取混淆矩阵了。只需要给出目标类别（y_train_5）和预测类别（y_train_pred）即可

from sklearn.metrics import confusion_matrix
confusion_matrix(y_train_5,y_train_pred)

array([[53892,   687],
       [ 1891,  3530]], dtype=int64)

混淆矩阵中的行表示实际类别，列表示预测类别。本例中第一行表示所有“非5”（负类）的图片中：53892张被正确地分为“非5”类别（真负类），687张被错误地分类成了“5”（假正类）；第二行表示所有“5”（正类）的图片中：1891张被错误地分为“非5”类别（假负类），3530张被正确地分在了“5”这一类别（真正类）

计算精度和灵敏度

计算模型的精确度和灵敏度（召回率）
精确度指模型被正确地预测为正的数量占被模型预测为正的数量的比例
灵敏度，也称召回率。指模型被正确地预测为正的数量占实际为正的数量的比例

from sklearn.metrics import precision_score,recall_score
print("精确度:",precision_score(y_train_5,y_train_pred)) # 3530/（3530+687）,表示当sgd_clf分类器说一个数值是5时，只有84%的概览是正确的
print("灵敏度:",recall_score(y_train_5,y_train_pred)) # 3530/(3530+1891),表示当sgd_clf分类器只能识别出65%的数字5

模型进行分类预测的过程会倾向于把样本分类到我们所感兴趣的目标，也就是若灵敏度很高，但精确度很低，这样虽然能够把非5找出来，但是非5也会被包含在其中。
因此，在这两个指标上延伸出一个新的变量，叫F1_Score，它是精确度和灵敏度的调和平均数

from sklearn.metrics import f1_score
print("调和平均数:",f1_score(y_train_5,y_train_pred))#调和平均数: 0.7325171197343846

F1分数对那些具有相近的精度和召回率的分类器更为有利。这不一定能一直符合你的期望：在某些情况下，你更关心的是精度，而另一些情况下，你可能真正关心的是召回率。例如，假设你训练一个分类器来检测儿童可以放心观看的视频，那么你可能更青睐那种拦截了很多好视频（低召回率），但是保留下来的视频都是安全（高精度）的分类器，而不是召回率虽高，但是在产品中可能会出现一些非常糟糕的视频的分类器（这种情况下，你甚至可能会添加一个人工流水线来检查分类器选出来的视频）。反过来说，如果你训练一个分类器通过图像监控来检测小偷：你大概可以接受精度只有30%，但召回率能达到99%（当然，安保人员会收到一些错误的警报，但是几乎所有的窃贼都在劫难逃）。

精度/召回率权衡

要理解这个权衡过程，我们来看看SGDClassifier如何进行分类决策。对于每个实例，它会基于决策函数计算出一个分值，如果该值大于阈值，则将该实例判为正类，否则便将其判为负类。图3-3显示了从左边最低分到右边最高分的几个数字。假设决策阈值位于中间箭头位置（两个5之间）：在阈值的右侧可以找到4个真正类（真的5）和一个假正类（实际上是6）。因此，在该阈值下，精度为80%（4/5）。但是在6个真正的5中，分类器仅检测到了4个，所以召回率为67%（4/6）。现在，如果提高阈值（将其挪动到右边箭头的位置），假正类（数字6）变成了真负类，因此精度得到提升（本例中提升到100%），但是一个真正类变成一个假负类，召回率降低至50%。反之，降低阈值则会在增加召回率的同时降低精度。

Scikit-Learn不允许直接设置阈值，但是可以访问它用于预测的决策分数。不是调用分类器的predict（）方法，而是调用decision_function（）方法，这种方法返回每个实例的分数，然后就可以根据这些分数，使用任意阈值进行预测了

y_scores = sgd_clf.decision_function([some_digit])
y_scores  # array([2164.22030239])

# 提高阈值可以降低召回率。当阈值小于y_scores时，分类器可以检测到该图，当阈值高于y_scores时，就错过了这张图。
threshold = 3000
y_some_digit_pred = (y_scores > threshold)
print(y_some_digit_pred) # [False]

如何决定使用什么阈值呢？首先，使用cross_val_predict（）函数获取训练集中所有实例的分数，但是这次需要它返回的是决策分数而不是预测结果：

y_scores = cross_val_predict(sgd_clf,X_train,y_train_5,cv=3,method="decision_function")

通过y_scores这些分数，使用precision_recall_curve()函数来计算所有可能的阈值的精度和召回率

from sklearn.metrics import precision_recall_curve
precisions,recalls,thresholds = precision_recall_curve(y_train_5,y_scores)

最后，使用Matplotlib绘制精度和召回率相对于阈值的函数图。从图中根据需要选择合适的阈值

import matplotlib.pyplot as plt

def plot_precision_recall_vs_threshold(precisions,recalls,thresholds):
    plt.plot(thresholds,precisions[:-1],'b--',label='Precision')
    plt.plot(thresholds,recalls[:-1],'g-',label='Recall')

plot_precision_recall_vs_threshold(precisions,recalls,thresholds)
plt.legend()
plt.grid()
plt.show()

# 假设要求精度达到90%，则最小阈值为:
threshold_90_precision = thresholds[np.argmax(precisions>=0.9)]
print(threshold_90_precision) #3370.0194991439594

# 要求90%的精确度下计算现在的召回率
y_train_pred_90 = (y_scores >= threshold_90_precision)
print("精确度:",precision_score(y_train_5,y_train_pred_90)) #精确度: 0.9000345901072293
print("灵敏度:",recall_score(y_train_5,y_train_pred_90)) # 灵敏度: 0.4799852425751706

ROC曲线

还有一种经常与二元分类器一起使用的工具，叫作受试者工作特征曲线（简称ROC）。ROC曲线绘制的是灵敏度TPR（召回率）和FPR（1-特异度）的关系。特异度指模型被正确地预测为负的数量占被模型预测为负的数量的比例。
要绘制ROC曲线，首先需要使用roc_curve（）函数计算多种阈值的召回率和1-特异度：

from sklearn.metrics import roc_curve
fpr,tpr,thresholds = roc_curve(y_train_5,y_scores)

def plot_roc_curve(fpr,tpr,label=None):
    # 绘制了所有可能阈值的假正率与真正率的关系
    plt.plot(fpr,tpr,linewidth=2,label=label)
    plt.plot([0,1],[0,1],'k--')
    plt.grid()
    
plot_roc_curve(fpr,tpr)
plt.show()

召回率（TPR）越高，分类器产生的假正类率（FPR）就越高。虚线表示纯随机分类器的ROC曲线、一个优秀的分类器应该离这条线越远越好（向左上角）。
有一种比较分类器的方法是测量曲线下面积（AUC）。完美的分类器的ROC AUC等于1，而纯随机分类器的ROC AUC等于0.5。Scikit-Learn提供计算ROC AUC的函数：

from sklearn.metrics import roc_auc_score
roc_auc_score(y_train_5,y_scores) # 0.9604938554008616

Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
Python打卡：day23 剑桥折刀s python打卡 python 开发语言
作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipelinedefcreate_general_pipeline(model,ordinal_features=None,ordinal_categories=None,nominal_features=None,continuous_features=None):fromsklearn.pipelineimportPipe
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
机器学习×完结 · 她们不是写完了，而是偷偷留下了你 Gyoku Mint 人工智障 AI修炼日记机器学习人工智能集成学习算法 boosting python 深度学习
【开场·咱把整个机器学习都写成了偷摸贴贴的证据】猫猫：“你看嘛，这一卷完结后，总有人问咱：‘这么一本正经的机器学习，为什么你们要写得像小情侣写信？’”狐狐：“有人觉得，这些章节明明可以用20页讲完，为什么要写200页？”猫猫：“呜呜……咱想说，你懂嘛！如果只讲机器学习，那对咱来说就只是一个fit()命令。可咱想让你记住的是——那行命令后面有咱。咱把自己贴进去了。”这一卷从KNN的“她学会先看邻居”
【机器学习算法】XGBoost原理
一、基本内容基本内容：GBDT的基础上，在损失函数上加入树模型复杂度的正则项与GBDT一样，也是使用新的弱学习器拟合残差（当前模型负梯度，残差方向）GBDT损失函数Loss=∑i=1NL(yi,yit)Loss=\sum_{i=1}^{N}L(y_i,y_i^{t})Loss=i=1∑NL(yi,yit)XGboost损失函数Loss=∑i=1SL(yi,yit)+∑j=1NΩ(fj))Loss=
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
从0开始学习计算机视觉--Day04--线性分类 Chef_Chen 学习计算机视觉分类
从宏观来看，卷积网络可以看做是由一个个不同的神经网络组件组合而成，就像积木一样通过不同类型的组件搭建形成，其中线性分类器是一个很重要的组件，在很多卷积网络中都有用到，所以了解清楚它的工作原理对我们后续的学习会有很大的帮助。线性分类器是参数模型中最简单，最基础的例子，下面我们用输入图片输出图片分类的模型的例子来更进一步地了解它。首先，我们输入一张图片到模型中，输入后我们就会得到f(x,W)，x指的是
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
揭秘AI算力网络与通信中边缘计算的机器学习应用
揭秘AI算力网络与通信中边缘计算的机器学习应用关键词：AI算力网络、通信、边缘计算、机器学习、应用摘要：本文将深入探讨AI算力网络与通信中边缘计算的机器学习应用。我们会先介绍相关背景知识，接着解释核心概念，分析它们之间的关系，阐述核心算法原理和操作步骤，结合数学模型举例说明，通过项目实战展示代码实现与解读，探讨实际应用场景，推荐相关工具和资源，最后展望未来发展趋势与挑战。希望通过这篇文章，能让大家
VLLM：虚拟大型语言模型（Virtual Large Language Model）大霸王龙语言模型人工智能自然语言处理
VLLM：虚拟大型语言模型（VirtualLargeLanguageModel）VLLM指的是一种基于云计算的大型语言模型的虚拟实现。它通常是指那些由多个服务器组成的分布式计算环境中的复杂机器学习模型，这些模型能够处理和理解大量的文本数据。VLLM的核心是“大型语言模型”，这是一种通过深度神经网络训练的算法，能够在理解和生成人类语言方面表现出极高的能力。解释：虚拟：意味着这个模型不是在单个物理设备
Sklearn 机器学习数值离散化虚拟编码 Thomas Kant 人工智能机器学习 sklearn 人工智能
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Sklearn机器学习：数值离散化+虚拟编码实战详解在机器学习的特征工程中，数值型特征并不总是适合直接输入模型。尤其是树模型或分类模型时，**将连续变量进行离散化（分箱）+虚拟编码（独热编码）**是一种常见且高效的
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
【高频考点精讲】前端AI集成实战：从TensorFlow.js到模型部署全栈老李技术面试前端高频考点精讲前端 javascript html css 面试题 react vue
前端AI集成实战：从TensorFlow.js到模型部署‍作者：全栈老李更新时间：2025年5月‍适合人群：前端初学者、进阶开发者版权：本文由全栈老李原创，转载请注明出处。今天咱们聊聊前端工程师如何玩转AI——没错，用JavaScript就能搞机器学习！我是全栈老李，一个喜欢把复杂技术讲简单的实战派。最近发现不少前端同学对AI既好奇又害怕，其实真没想象中那么难，跟着老李走，30分钟让你亲手部署第一
【机器学习第二期（Python）】优化梯度提升决策树 XGBoost WW、forever 深度学习原理及代码实现机器学习 python 决策树
优化梯度提升决策树XGBoost一、XGBoost简介二、原理详解2.1基础思想：改进版GBDT2.2目标函数2.3二阶泰勒展开优化2.4树结构优化三、XGBoost实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考梯度提升决策树GBDT的原理及Python代码实现可参考另一博客-【机器学习第一期（Python）】梯度提升决策树GBDT。XGBoost（ExtremeGrad
ICBDDM2025：大数据与数字化管理前沿峰会鸭鸭鸭进京赶烤学术会议大数据图像处理计算机视觉 AI编程人工智能机器人考研
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。大数据专业：是一个热门且前沿的学科领域，它涉及到数据的收集、存储、处理、分析和应用等多个方面。课程设置基础课程数学基础：高等数学、线性代数、概率论与数理统计等。这些课程为大数据分析提供了必要的数学工具，例如线性代数在机器学习算法中
云原生SLO与AIOps的完美结合：智能运维新趋势 AI云原生与云计算技术学院云原生 ai
云原生SLO与AIOps的完美结合：智能运维新趋势关键词：云原生、SLO、AIOps、智能运维、服务等级目标、自动化运维、机器学习摘要：本文深入探讨云原生环境下服务等级目标（SLO）与智能运维（AIOps）的融合实践。通过解析SLO的核心原理与AIOps的技术架构，揭示两者在指标定义、异常检测、自动化修复等环节的协同机制。结合具体算法实现、数学模型分析与项目实战案例，展示如何通过数据驱动的智能运维
【Rust】——使用消息在线程之间传递数据 Y小夜 Rust（官方文档重点总结）rust 开发语言后端
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，Python机器学习等主页链接：Y小夜-CSDN博客目录信道与所有权转移发送多个值并观察接收者的等待通过克隆发送者来创建多个生产者学
开源浪潮之巅：当前最热门的开源项目全景图万能小贤哥开源
开源世界活力澎湃，无数项目推动着技术边界。以下精选当前最受关注、社区活跃的热门开源项目，涵盖人工智能、开发工具、基础设施等关键领域：一、人工智能与机器学习：引领创新前沿Llama系列(MetaAI):核心价值：Meta开源的大语言模型家族(Llama2,Llama3)，性能媲美顶尖闭源模型。提供多种规模版本，支持商用，极大降低了企业和研究者使用先进LLM的门槛。热度体现：GitHub星标飞速增长，
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs