Lin_w_x

机器学习之基础知识（从数据处理到模型评估）

1.数据预处理

1.1归一化

在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布的需求，这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为核心的算法中，譬如逻辑回归，支持向量机，神经网络，无量纲化可以加快求解速度；而在距离类模型，譬如K近邻，K-Means聚类中，无量纲化可以帮我们提升模型精度，避免某一个取值范围特别大的特征对距离计算造成影响。

preprocessing.MinMaxScaler

当数据(x)按照最小值中心化后，再按极差（最大值 - 最小值）缩放，数据移动了最小值个单位，并且会被收敛到 [0,1]之间，而这个过程，就叫做数据归一化。归一化之后的数据服从正态分布，公式如下：

$x^*=\frac{x-min(x)}{max(x)-min(x)}$

在sklearn当中，我们使用preprocessing.MinMaxScaler来实现这个功能。

MinMaxScaler有一个重要参数， feature_range，控制我们希望把数据压缩到的范围，默认是[0,1].
```
from sklearn.preprocessing import MinMaxScaler
 
x = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = MinMaxScaler(feature_range=[5,10]) #默认为[0,1] 
x = scaler.fit_transform(x)
```
preprocessing.StandardScale

当数据(x)按均值(μ)中心化后，再按标准差(σ)缩放，数据就会服从为均值为0，方差为1的正态分布（即标准正态分布），而这个过程，就叫做数据标准化(Standardization，又称Z-score normalization)，公式如下：

$x^*=\frac{x-\mu}{\sigma}$

在sklearn当中，我们使用preprocessing.StandardScaler来实现这个功能。
```
 from sklearn.preprocessing import StandardScaler 
 
 x = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
 stdsc = StandardScaler()
 x = stdsc.fit_transform(x)
```
小结

大多数机器学习算法中，会选择StandardScaler来进行特征缩放，因为MinMaxScaler对异常值非常敏感。在PCA，聚类，逻辑回归，支持向量机，神经网络这些算法中，StandardScaler往往是最好的选择。 MinMaxScaler在不涉及距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛，比如数字图像处理中量化像素强度时，都会使用MinMaxScaler将数据压缩于[0,1]区间之中

1.2缺失值处理

对于连续值，常常使用均值或者中位数去填充缺失值；
对于离散值，常常使用众数填充，或者把缺失值当作一个单独的类别。
对于缺失率超过一定阈值的特征，可以考虑直接舍弃。

 # 用impute.SimpleImputer进行填补
 from sklearn.impute import SimpleImputer 
 
 # 对连续值Age进行填充    
 Age = data.loc[:,"Age"].values.reshape(-1,1)            #sklearn当中特征矩阵必须是二维 
 # 实例化
 age_median = SimpleImputer(strategy="median")           #用中位数填补 (默认均值填补) 
 age_0 = SimpleImputer(strategy="constant",fill_value=0) #使用具体值填补，用fill_value指定
 # 转化
 age_median = age_median.fit_transform(Age)    #fit_transform一步完成调取结果 
 age_0 = age_0.fit_transform(Age)
 #把填补后的列赋值回原来的矩阵里
 data.loc[:,"Age"] = age_median
 
 # 对离散值Embarked进行填充 
 Embarked = data.loc[:,"Embarked"].values.reshape(-1,1) 
 Embarked_most = SimpleImputer(strategy = "most_frequent")   #使用众数填补
 data.loc[:,"Embarked"] = Embarked_most.fit_transform(Embarked)
 
 # 用Pandas进行填补
 import pandas as pd 
  
 data.loc[:,"Age"] = data.loc[:,"Age"].fillna(data.loc[:,"Age"].median()) #.fillna 在data1Frame里面直接进行填补
 data.dropna(axis=0,inplace=True) #.dropna(axis=0)删除所有有缺失值的行，.dropna(axis=1)删除所有有缺失值的列

SimpleImputer参数详解
```
class sklearn.impute.SimpleImputer(*, missing_values=nan, strategy=‘mean’, fill_value=None, verbose=0, copy=True, add_indicator=False)
```
- missing_values：int, float, str, (默认)np.nan或是None, 即缺失值是什么。
- strategy：空值填充的策略，共四种选择（默认）mean、median、most_frequent、constant。mean表示该列的缺失值由该列的均值填充。median为中位数，most_frequent为众数。constant表示将空值填充为自定义的值，但这个自定义的值要通过fill_value来定义。
- fill_value：str或数值，默认为Zone。当strategy == "constant"时，fill_value被用来替换所有出现的缺失值（missing_values）。fill_value为Zone，当处理的是数值数据时，缺失值（missing_values）会替换为0，对于字符串或对象数据类型则替换为"missing_value" 这一字符串。
- verbose：int，（默认）0，控制imputer的冗长。
- copy：boolean，（默认）True，表示对数据的副本进行处理，False对数据原地修改。
- add_indicator：boolean，（默认）False，True则会在数据后面加入n列由0和1构成的同样大小的数据，0表示所在位置非缺失值，1表示所在位置为缺失值。

1.3 处理离散特征：编码和哑变量

在sklearn当中，除了专用来处理文字的算法，其他算法在ﬁt的时候全部要求输入数组或矩阵，也不能够导入文字型数据。为了让数据适应算法和库，我们必须将数据进行编码，即是说，将文字型数据转换为数值型。

preprocessing.LabelEncoder：标签专用，能够将分类转换为分类数值

 from sklearn.preprocessing import LabelEncoder
 
 y = data.iloc[:,-1]                         #要输入的是标签，不是特征矩阵，所以允许一维
 le = LabelEncoder()                         #实例化 
 label = le.fit_transform(y)                 # 匹配加转化一步到位
 print(le.classes_)                           # 查看有多少类

preprocessing.OrdinalEncoder：特征专用，能够将分类特征转换为分类数（一般用于有序变量）

 from sklearn.preprocessing import OrdinalEncoder
 
 # 类似的，实例化，匹配，转化
 x = data_.iloc[:,1:-1]
 ol = OrdinalEncoder()
 x_train = ol.fit_transform(x)
 #接口categories_对应LabelEncoder的接口classes_，一模一样的功能 
 print(ol.categories_)

1.4 处理连续特征：二值化和分段

sklearn.preprocessing.Binarize 用于处理连续变量的二值化

根据阈值将数据二值化（将特征值设置为0或1），用于处理连续型变量。大于阈值的值映射为1，而小于或等于阈值的值映射为0。默认阈值为0。

 from sklearn.preprocessing import Binarizer 
 
 X = data.iloc[:,0].values.reshape(-1,1)               #类为特征专用，所以不能使用一维数组 
 Age = Binarizer(threshold=30).fit_transform(X)          # 以30为阈值，>30为1,<30为0

sklearn.preprocessing.KBinsDiscretizer 用于给连续变量分箱

这是将连续型变量划分为分类变量的类，能够将连续型变量排序后按顺序分箱后编码。总共包含三个重要参数：分箱个数n_bins、编码方式encode、定义箱宽的方式strategy

 from sklearn.preprocessing import KBinsDiscretizer
  
 X = data.iloc[:,0].values.reshape(-1,1) 
 est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')  # 分箱后编码成分类数值
 est.fit_transform(X)
 
 est = KBinsDiscretizer(n_bins=3, encode='onehot', strategy='uniform') #查看转换后分的箱：变成了哑变量 
 est.fit_transform(X).toarray()

2.特征提取

在数据维度很高时，我们会从中提取出一些有用的特征，降低数据处理的维度，方便计算，这个过程也被叫做降维。一般常用的降维方法有PCA和LDA。对于有标签的数据就使用LDA，而对于无监督的任务则使用PCA。

PCA：非监督降维，降维后数据的方差尽可能的大（方差大，含有的信息量就大）
LDA：有监督降维，降维后，组内（同一类别）方差小，组间（不同类别之间）方差大

2.1 主成分分析PCA

PCA的一般用途：

聚类：把复杂的多维数据转为少量数据，易于分簇
降维：降低高维数据，简化计算，达到数据降维，压缩，降噪（去掉不太重要的特征）的目的

PCA的作用：

将原有的d维数据集，转为k维数据，k
新生成的k维数据尽可能多的保留原来d维数据的信息

PCA流程：

带核函数的PCA：

选择一个核函数。
根据原始的数据得到正规化的K。（相当于数据向高维的映射）
计算特征值和特征向量
进行降维

2.2 线性判别分析LDA

线性判别分析，可以做特征降维，也可以做分类方法。

LDA的降维流程：

3.性能评估指标

混淆矩阵

混淆矩阵中有着Positive、Negative、True、False的概念，其意义如下：

称预测类别为1的为Positive（阳性），预测类别为0的为Negative（阴性）。预测正确的为True（真），预测错误的为False（伪）。对上述概念进行组合，就产生了如下的混淆矩阵：
```
 from sklearn.metrics import confusion_matrix
 y_pred = [0, 2, 1, 3,9,9,8,5,8]
 y_true = [0, 1, 2, 3,2,6,3,5,9]
 confusion_matrix(y_true, y_pred)
```
TP、FP、TN、FN，第二个字母表示样本被预测的类别，第一个字母表示样本的预测类别与真实类别是否一致
准确率

准确率（Accuracy）：正确分类的样本个数占总样本个数， A = (TP + TN) / N

 from sklearn.metrics import accuracy_score
 y_pred = [0, 2, 1, 3,9,9,8,5,8]
 y_true = [0, 1, 2, 3,2,6,3,5,9]
 accuracy_score(y_true, y_pred)

精确率

精确率（Precision）(查准率)：预测正确的正例数据占预测为正例数据的比例， P = TP / (TP + FP)

 from sklearn.metrics import precision_score
 y_pred = [0, 2, 1, 3,9,9,8,5,8]
 y_true = [0, 1, 2, 3,2,6,3,5,9]
 precision_score(y_true, y_pred, average='micro')  # 微平均,  宏平均'macro'

召回率

召回率（Recall）(查全率)：预测为正确的正例数据占实际为正例数据的比例， R = TP / (TP + FN)

 from sklearn.metrics import recall_score
 y_pred = [0, 2, 1, 3,9,9,8,5,8]
 y_true = [0, 1, 2, 3,2,6,3,5,9]
 recall_score(y_true, y_pred, average='micro')  # 微平均,  宏平均'macro'

F1值

F1 值（F1 score）：调和平均值

$F = \frac{2}{(1/P + 1/R)}= \frac{2 * P * R}{(P + R)}$

 from sklearn.metrics import f1_score
 y_pred = [0, 2, 1, 3,9,9,8,5,8]
 y_true = [0, 1, 2, 3,2,6,3,5,9]
 f1_score(y_true, y_pred, average='micro')  ## 微平均,  宏平均'macro','weighted'

ROC曲线

接收者操作特性曲线（receiver operating characteristic curve，简称ROC曲TPR线），是指在特定刺激条件下，以被试在不同判断标准下所得的虚报概率FPR为横坐标，以击中概率TPR为纵坐标，画得的各点的连线。所以需要计算两个值：

1、虚报概率：横坐标，N是真实负样本的个数，FP是N个负样本中被分类器预测为正样本的个数。 FPR=FP/(FP+TN)

2、击中概率：纵坐标， TPR=TP / (TP+FN)TPR

AUC是一个模型评价指标，只能用于二分类模型的评价。AUC的本质含义反映的是对于任意一对正负例样本，模型将正样本预测为正例的可能性大于将负例预测为正例的可能性的概率，是Area under curve的首字母缩写。Area under curve是什么呢，从字面理解，就是一条ROC曲线下面区域的ROC面积。

 # 1，计算AUC值
 import numpy as np
 from sklearn.metrics import roc_auc_score
 y_true = np.array([0, 0, 1, 1])
 y_scores = np.array([0.1, 0.4, 0.35, 0.8])
 roc_auc_score(y_true, y_scores)
  
 # 2，ROC曲线
 y = np.array([1, 1, 2, 2])
 scores = np.array([0.1, 0.4, 0.35, 0.8])
 fpr, tpr, thresholds = roc_curve(y, scores, pos_label=2)
 
 plt.figure(figsize=(10,10))
 plt.plot(fpr, tpr, color='darkorange',
          label='ROC curve (area = %0.2f)' % roc_auc_score(y, scores)) ###假正率为横坐标，真正率为纵坐标做曲线
 plt.plot([0, 1], [0, 1], color='navy', linestyle='--')
 plt.xlim([0.0, 1.0])
 plt.ylim([0.0, 1.05])
 plt.xlabel('False Positive Rate')
 plt.ylabel('True Positive Rate')
 plt.title('Receiver operating characteristic curve')
 plt.legend(loc="lower right")
 plt.show()
 
 ##通过decision_function()计算得到的y_score的值，用在roc_curve()函数中
 #clf = svm.SVC()
 #clf.fit(X_train, y_train)
 #y_score = clf.decision_function(X_test)

小结：

准确率、精确率、召回率、F1 值主要用于分类场景。

准确率可以理解为预测正确的概率，其缺陷在于：当正负样本比例非常不均衡时，占比大的类别会影响准确率。如异常点检测时：99% 的都是非异常点，那我们把所有样本都视为非异常点准确率就会非常高了。

精确率，查准率可以理解为预测出的东西有多少是用户感兴趣的；

召回率，查全率可以理解为用户感兴趣的东西有多少被预测出来了。

一般来说精确率和召回率是一对矛盾的度量。为了更好的表征学习器在精确率和召回率的性能度量，引入 F1 值。

AUC 的一般判断标准

0.5 - 0.7： 效果较低，但用于预测股票已经很不错了

0.7 - 0.85： 效果一般

0.85 - 0.95： 效果很好

0.95 - 1： 效果非常好，但一般不太可能

4.代码案例

人脸识别项目

数据集：特征：rawdata文件夹下的所有文件，按文件名对应标签id；标签：faceDR，faceDS（原始数据），faceDR_cleared.csv，faceDS_cleared.csv（已处理数据）

处理原始文件函数：dataProcessing.py

 # 功能：输入一个文件得到一个处理好的列表
 import pandas as pd
 
 
 def loadDataProcessing(file):
     with open(file) as f:
         s = f.read().splitlines() # 读取逐行数据放入list列表中
     allMessage = []
     for i in range(len(s)):
         # print(s[9])
         temp = s[i]
         temp = temp.split(' ')  # 按空格划分字符串为list列表
         while '' in temp:  # 删除list中的空元素
             temp.remove('')
         # print(temp)
 
         # 对单行进行赋值处理
         if len(temp) > 10:
             id = temp[0]
             sex = temp[2][:-1]
             age = temp[4][:-1]
             race = temp[6][:-1]
             face = temp[8][:-1]
             prop = temp[10:]
             prop[0] = prop[0][2:]
             prop.pop(-1)
             # 判断prop是否为空，并且根据prop特征的个数来用空格进行拼接
             if len(prop) != 0:
                 str = ''
                 for i in range(len(prop) - 1):
                     str = str + prop[i] + ' '
                 str = str + prop[len(prop) - 1]
                 prop = str
             else:
                 prop = 'NaN'
 
             # print(prop)
             temp = [id, sex, age, race, face, prop]
             allMessage.append(temp)
             # print(temp)
         else:
             pass
             # id = temp[0]
             # temp = [id, "missing descriptor"]
             # print(temp)
         # allMessage.append(temp)
     return allMessage
 
 # 保存为csv文件
 # x1 = loadDataProcessing("faceDR")
 # x2 = loadDataProcessing("faceDS")
 # x = x1 + x2
 # print(len(x))
 # name = ['id', 'sex', 'age', 'race', 'face', 'prop']
 # file = pd.DataFrame(columns=name, data=x)
 # # print(file)
 # file.to_csv("./myFace.csv", encoding='gbk', index=False)

主程序：face_test1.py

 import pandas as pd
 import os
 import numpy as np
 from sklearn.model_selection import train_test_split
 from sklearn import svm
 from sklearn.metrics import confusion_matrix
 from sklearn.metrics import accuracy_score
 from sklearn.metrics import precision_score
 from sklearn.metrics import recall_score
 from sklearn.metrics import f1_score
 from sklearn.metrics import roc_auc_score
 from sklearn.metrics import roc_curve
 import matplotlib.pyplot as plt
 from sklearn.preprocessing import StandardScaler
 from sklearn.preprocessing import MinMaxScaler
 import dataProcessing as dP
 from sklearn.preprocessing import LabelEncoder
 
 
 def roadLabels(path):
     # 将字符串标签“male”，“female”处理为1，0
     if (type(path).__name__ == 'list'):  # 用于处理列表数据
         labels = []
         for i in range(len(y)):
             labels.append(y[i][1])
     else:  # 用于处理csv文件
         df = pd.read_csv(path)
         labels = df.iloc[:, 1].values.tolist()
     # for i in range(len(labels)):
     #     if labels[i] == "male":
     #         labels[i] = 0
     #     else:
     #         labels[i] = 1
     le = LabelEncoder()
     labels = le.fit_transform(labels)
     return labels
 
 
 def roadData(path):
     # 读取文件夹下的文件，返回一个list列表
     path = path  # 文件夹目录
     files = os.listdir(path)  # 得到文件夹下的所有文件名称
     # f = open(path+"/"+files[0],'rb')
     # s=np.fromfile(f,dtype=np.ubyte)
     # s=np.int_(s)
     # flag=0
     s = []
     for file in files:  # 遍历文件夹
         with open(path + '/' + file, 'rb') as f:
             x = np.fromfile(f, dtype=np.ubyte)
             x = np.int_(x)
             s.append(x)
     return s
 
 
 x = roadData("./rawdata")  # 读取文件夹下的文件
 
 # prat_2使用处理好的文件标签
 # y1 = roadLabels("faceDR_cleared.csv")
 # y2 = roadLabels("faceDS_cleared.csv")
 # y = np.append(y1, y2)
 
 # part_3使用原始数据标签
 y1 = dP.loadDataProcessing('faceDR')
 y2 = dP.loadDataProcessing('faceDS')
 y = y1 + y2
 y = roadLabels(y)
 
 # print(y)
 # print(len(x))
 # print(len(y))
 print(len(x[1186]))
 print(len(x[1190]))
 x.pop(1190)
 x.pop(1186)
 y = np.delete(y, 1190)
 y = np.delete(y, 1186)
 # y.pop(1190)
 # y.pop(1186)
 print(len(x))
 print(len(y))
 
 stdsc = StandardScaler()  # 标准化
 x = stdsc.fit_transform(x)
 # # scaler = MinMaxScaler() # 归一化
 # # x = scaler.fit_transform(x)
 #
 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1)
 clf = svm.SVC()
 clf.fit(x_train, y_train)
 y_hat = clf.predict(x_test)
 y_score = clf.decision_function(x_test)
 
 print("混淆矩阵：")
 print(confusion_matrix(y_test, y_hat))
 print("准确率：", accuracy_score(y_test, y_hat))
 print("精确率：", precision_score(y_test, y_hat, pos_label=1, average='binary'))
 print("召回率：", recall_score(y_test, y_hat, pos_label=1, average='binary'))
 print("F1值：", f1_score(y_test, y_hat, pos_label=1, average='binary'))
 
 y = np.array(y_test)
 print("AUC值：", roc_auc_score(y, y_score))
 fpr, tpr, thresholds = roc_curve(y, y_score, pos_label=1)
 plt.figure(figsize=(5, 5))
 plt.plot(fpr, tpr, color='darkorange',
          label='ROC curve (area = %0.2f)' % roc_auc_score(y, y_score))  ###假正率为横坐标，真正率为纵坐标做曲线
 plt.plot([0, 1], [0, 1], color='navy', linestyle='--')
 plt.xlim([0.0, 1.0])
 plt.ylim([0.0, 1.05])
 plt.xlabel('False Positive Rate')
 plt.ylabel('True Positive Rate')
 plt.title('Receiver operating characteristic curve')
 plt.legend(loc="lower right")
 plt.show()

结果：

PS：精确率、召回率和F1值计算错误！！！可能原因为混淆矩阵的labels跟各指标的pos_label选取不一致导致。

参考资料：

1.【机器学习】scikit-learn中的数据预处理小结(归一化、缺失值填充、离散特征编码、连续值分箱) - 亚北薯条 - 博客园 (cnblogs.com)

2. 缺失值处理：SimpleImputer（简单易懂 + 超详细）向日葵的专属太阳-CSDN博客simpleimputer

3. 数据挖掘：特征提取——PCA与LDA_AvenueCyy的博客-CSDN博客_数据挖掘特征提取

4.Python机器学习笔记：常用评估模型指标的用法 - 战争热诚 - 博客园 (cnblogs.com)

5.多分类机器学习评价指标之准确率、精确率、召回率、F1值、ROC、AUC_qwe1110的博客-CSDN博客_多分类准确率

6. scikit-learn工具包中分类模型predict_proba、predict、decision_function用法详解_程大海的博客-CSDN博客

7.用Python绘制ROC曲线L.Z.的博客-CSDN博客python roc曲线

机器学习模型监控警报系统设计：Prometheus+Evidently 实战教程大熊计算机机器学习 prometheus 人工智能
1.系统架构设计：从数据采集到智能告警（1）监控系统核心组件交互图预测请求监控指标告警规则通知渠道预测结果质量报告时序数据模型服务PrometheusExporterPrometheusServerAlertmanager邮件/Slack/WebhookEvidently服务可视化仪表盘图解：系统采用双引擎架构，Prometheus负责基础监控指标采集与告警触发，Evidently执行深度模型分析
使用LangChain构建智能应用：从入门到实战 afTFODguAKBF langchain python
引言在当今的人工智能时代，构建智能应用程序已经成为越来越多开发者的目标。LangChain是一个强大的工具，可以帮助我们快速开发基于大型语言模型（LLM）的应用。本篇文章将带你了解如何从零开始使用LangChain，构建一个简单的LLM应用程序，并逐步探索更复杂的功能。主要内容构建简单的LLM应用使用LangChain，我们可以快速构建一个简单的LLM应用程序。接下来，我将带你一步步实现。什么是L
端侧开发详解初赛收官盛宴 | 2025高通边缘智能创新应用大赛第九场公开课来袭！阿加犀智能人工智能智能硬件
各位开发者、技术爱好者，2025高通边缘智能创新应用大赛即将迎来初赛阶段的最后一堂重磅公开课！诚邀大家于7月3日（星期四）晚8点，准时收看由瑞莎的嵌入式开发工程师张子烽（Morgan）带来的专题分享，共同探索端侧智能应用开发的创新技术路径。聚焦前沿平台掌握端侧智能开发流程本次课程将聚焦基于瑞莎DragonQ6A开发板的端侧人工智能应用开发。该开发板搭载高通跃龙™QCS6490平台（由阿加犀提供开发
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
机器学习5——非参数估计平和男人杨争争山东大学机器学习期末复习机器学习概率论算法
非参数估计在参数估计中我们已经提到，想要估计后验概率P(ωi∣x)=p(x∣ωi)p(ωi)p(x)P\left(\omega_i\midx\right)=\frac{p\left(x\mid\omega_i\right)p\left(\omega_i\right)}{p(x)}P(ωi∣x)=p(x)p(x∣ωi)p(ωi)，就需要估计类条件概率p(x∣ωi)p\left(x\mid\omega
机器学习4——参数估计之贝叶斯估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能
贝叶斯估计问题建模：后验概率公式：P(ωi∣x,D)=P(x∣ωi,Di)P(ωi)∑j=1cP(x∣ωj,Dj)P(ωj)P\left(\omega_i\mid\mathbf{x},\mathcal{D}\right)=\frac{P\left(\mathbf{x}\mid\omega_i,\mathcal{D}_i\right)P\left(\omega_i\right)}{\sum_{j=1
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d