天行者@

机器学习02

三、模型选择与调优

1 交叉验证

(1) 保留交叉验证HoldOut

HoldOut Cross-validation（Train-Test Split）

优点

1. 简单高效

操作简便：这种方法的实现非常直接，只需要将原始数据集按照一定比例（常见的如 70:30、80:20 等）随机划分为训练集和测试集。例如，在 Python 的 scikit - learn 库中，使用 train_test_split 函数可以轻松完成划分，代码简洁易懂。

计算成本低：由于只进行一次模型训练和评估，相较于其他复杂的交叉验证方法（如 k 折交叉验证、留一交叉验证），它所需的计算资源和时间较少。在处理大规模数据集或者模型训练时间较长的情况下，这种简单性和高效性尤为突出。

2. 模拟真实应用场景

反映泛化能力：通过将一部分数据作为测试集，模拟了模型在未见过的数据上的表现，能够直观地反映模型的泛化能力。测试集的数据与训练集相互独立，模型在测试集上的性能可以近似看作其在实际应用中的性能。

3. 灵活性高

可调整划分比例：可以根据具体需求灵活调整训练集和测试集的划分比例。如果数据集较小，可以适当减少测试集的比例，以确保有足够的数据用于模型训练；如果数据集较大，则可以增加测试集的比例，以更准确地评估模型性能。

缺点

1. 评估结果不稳定

划分随机性影响：训练集和测试集的随机划分可能会导致评估结果存在较大的波动。不同的划分方式可能会得到不同的训练集和测试集分布，从而使模型在测试集上的性能表现有所差异。例如，在一个类别分布不均衡的数据集上，如果随机划分使得测试集中某一类别的样本过少，可能会导致评估结果不准确。
缺乏全面性：只进行一次划分和评估，不能充分考虑数据的多样性和模型在不同数据子集上的表现。因此，评估结果可能无法准确代表模型的真实性能。

2. 数据利用不充分

部分数据未用于训练：测试集的数据在模型训练过程中没有被使用，这意味着部分数据信息被浪费。特别是在数据集较小的情况下，这种数据利用不充分的问题会更加明显，可能导致模型无法充分学习到数据的特征，影响模型的性能。

3. 难以选择最优模型和参数

信息有限：由于只进行一次评估，难以全面比较不同模型或同一模型不同参数组合的性能。在实际应用中，需要尝试多种模型和参数设置来找到最优方案，而 HoldOut 方法提供的信息有限，可能无法准确判断哪种模型或参数组合是最优的。

(2) K-折交叉验证(K-fold)

（K-fold Cross Validation，记为K-CV或K-fold）

K-Fold交叉验证技术中，整个数据集被划分为K个大小相同的部分。每个分区被称为一个”Fold”。所以我们有K个部分，我们称之为K-Fold。一个Fold被用作验证集，其余的K-1个Fold被用作训练集。

该技术重复K次，直到每个Fold都被用作验证集，其余的作为训练集。

模型的最终准确度是通过取k个模型验证数据的平均准确度来计算。

优点

更准确的模型评估

降低评估偏差：相较于简单的训练 - 测试集划分（HoldOut），K - 折交叉验证通过多次使用不同的数据子集进行验证，减少了因数据划分的随机性而导致的评估偏差。每次验证时，模型都在不同的数据组合上进行训练和测试，使得评估结果更能反映模型在整个数据集上的真实性能。例如，在一个包含 1000 个样本的数据集上，使用 5 折交叉验证，每个样本都有机会在验证集中出现一次，这样得到的评估结果会更加稳定和可靠。
充分考虑数据多样性：K 次验证过程让模型接触到了数据的不同方面，考虑了数据的多样性。这有助于发现模型在不同数据分布下的表现，避免模型对特定数据子集过拟合，从而提高模型的泛化能力。

有效利用数据

提高数据利用率：K - 折交叉验证将整个数据集都用于训练和验证，充分利用了所有样本的信息。与 HoldOut 方法中测试集数据不参与训练相比，K - 折交叉验证能够更充分地挖掘数据的价值，尤其是在样本数量有限的情况下，这种优势更为明显。
减少数据浪费：由于每个样本都在训练和验证中被使用，减少了数据的浪费，使得模型能够从更多的数据中学习到有用的特征，进而提升性能。

适用于模型选择和参数调优

比较不同模型：可以使用 K - 折交叉验证来比较不同的机器学习模型在同一数据集上的性能。通过对每个模型进行 K 折交叉验证并比较它们的平均评估结果，能够选择出最适合该数据集的模型。例如，在一个分类问题中，可以使用 10 折交叉验证来比较决策树、支持向量机和神经网络等不同模型的性能，从而确定最优模型。
优化模型参数：对于一个特定的模型，通常有多个参数需要调整。K - 折交叉验证可以帮助我们在不同的参数组合下评估模型的性能，从而选择出最优的参数组合。例如，在使用支持向量机时，可以通过 5 折交叉验证来选择最优的核函数和惩罚参数 C。

缺点

计算成本高

时间开销大：K - 折交叉验证需要进行 K 次模型训练和验证，计算量随着 K 的增大而增加。尤其是在数据集较大或者模型训练时间较长的情况下，计算成本会显著增加。例如，当 K = 10 且数据集非常大时，模型需要进行 10 次完整的训练和验证过程，这会消耗大量的时间和计算资源。
内存消耗大：多次训练模型需要存储不同的模型参数和中间结果，这会增加内存的消耗。在资源有限的情况下，可能会导致内存不足的问题，影响程序的正常运行。

对 K 值选择敏感

K 值选择困难：K 值的选择对评估结果有重要影响。如果 K 值过小，可能无法充分考虑数据的多样性，导致评估结果不稳定；如果 K 值过大，虽然能更充分地利用数据，但计算成本会大幅增加，而且当 K 接近样本数量时，K - 折交叉验证就近似于留一交叉验证，计算效率会变得很低。因此，选择合适的 K 值需要根据数据集的大小和特点进行权衡。

数据分布问题

类别不平衡影响：如果数据集中不同类别的样本数量不均衡，K - 折交叉验证可能会导致某些类别在验证集中出现的次数过少，从而影响评估结果的准确性。例如，在一个二分类问题中，正样本和负样本的比例为 1:10，如果进行 5 折交叉验证，可能会出现某些验证集中正样本数量非常少的情况，导致模型在这些验证集上的性能评估不准确。

(3) 分层k-折交叉验证Stratified k-fold

Stratified k-fold cross validation

分层 k - 折交叉验证（Stratified k - fold cross validation）是对普通 k - 折交叉验证的改进，在划分数据集时会考虑样本的类别分布，确保每个折（子集）中各类别样本的比例与原始数据集中的比例一致。

优点

1. 更准确的模型评估

平衡类别分布：在处理类别不平衡的数据集时，分层 k - 折交叉验证能保证每个折中的类别比例与总体数据集一致。例如，在一个医学诊断数据集中，患病样本和健康样本的比例可能是 1:9，如果使用普通 k - 折交叉验证，可能会出现某个折中几乎没有患病样本的情况，导致模型在该折上的评估结果不能真实反映其在实际应用中的性能。而分层 k - 折交叉验证可以避免这种情况，使得每个折都包含各类别的合理样本，从而更准确地评估模型。
减少评估偏差：由于每个折的类别分布相似，模型在每个折上的训练和验证环境更具代表性，减少了因类别分布不均而导致的评估偏差。这使得最终得到的平均评估指标（如准确率、召回率等）更能反映模型在整个数据集上的真实性能。

2. 提高模型泛化能力评估的可靠性

模拟真实场景：在实际应用中，数据往往是类别不平衡的。分层 k - 折交叉验证模拟了这种真实场景，让模型在具有代表性的类别分布下进行训练和验证，从而更可靠地评估模型的泛化能力，即模型在未见过的数据上的表现能力。
避免过拟合特定类别：如果不考虑类别分布进行交叉验证，模型可能会在某些折上过度拟合某个占比大的类别，而忽略其他类别。分层 k - 折交叉验证可以防止这种情况发生，促使模型学习到各类别的特征，提高模型对不同类别样本的识别能力。

3. 适用于多种分类问题

广泛应用：无论是二分类问题还是多分类问题，分层 k - 折交叉验证都能有效应用。它可以确保在各种分类任务中，每个折都能包含各类别的样本，为模型评估提供更合理的环境。

缺点

1. 计算成本较高

多次训练和验证：和普通 k - 折交叉验证一样，分层 k - 折交叉验证需要进行 k 次模型训练和验证过程。随着数据集的增大和模型复杂度的提高，计算时间和资源消耗会显著增加。例如，在处理大规模图像数据集时，每次训练模型都需要大量的计算资源和时间，k 次训练和验证会使计算成本变得很高。

2. 对数据特征的依赖

仅考虑类别信息：分层 k - 折交叉验证主要关注样本的类别分布，而忽略了其他数据特征。如果数据集中存在其他重要的特征结构（如时间序列、空间信息等），分层 k - 折交叉验证可能无法充分利用这些信息，导致评估结果不够全面。例如，在时间序列数据中，数据的顺序和趋势对模型性能有重要影响，而分层 k - 折交叉验证可能会破坏这种时间顺序，影响评估的准确性。

3. 对异常值和噪声的敏感性

异常值影响：由于分层 k - 折交叉验证是基于类别进行划分的，如果数据集中存在异常值或噪声，这些异常样本可能会被分散到各个折中，影响模型在每个折上的训练和验证效果，进而影响最终的评估结果。例如，在一个信用评分数据集中，存在一些异常高或异常低的评分样本，这些异常样本可能会干扰模型的学习过程，导致评估结果不准确。

留一交叉验证（Leave-One-Out Cross-Validation, LOOCV）

原理

留一交叉验证是一种特殊的 k 折交叉验证，其中 k 等于样本数量。具体做法是每次只留一个样本作为验证集，其余个样本作为训练集，重复次，最终得到个模型评估结果，取平均值作为最终的评估指标。

优点

数据利用率高：每个样本都有机会作为验证集，所有样本都被用于模型的训练和验证，充分利用了有限的数据，能得到较为准确的模型评估。
偏差较小：由于几乎使用了所有数据进行训练，模型的偏差相对较小，评估结果更接近模型在整个数据集上的真实性能。

缺点

计算成本高：需要进行次模型训练和验证，当样本数量很大时，计算量会非常大，时间成本极高。
对异常值敏感：单个样本作为验证集时，如果该样本是异常值，可能会对评估结果产生较大影响。
方差较大：每次验证只基于一个样本，评估结果的波动可能较大，导致方差较大。

适用场景

样本数量较少的情况，此时可以充分利用有限的数据进行评估。
对模型评估准确性要求较高，且计算资源充足的场景。

蒙特卡罗交叉验证（Monte Carlo Cross-Validation）

原理

蒙特卡罗交叉验证也称为随机子抽样验证，它随机地将数据集划分为训练集和验证集，重复多次（例如次），每次划分的比例可以自定义。每次划分后训练模型并评估，最终得到个评估结果，取平均值作为最终的评估指标。

优点

灵活性高：可以灵活控制训练集和验证集的比例，以及重复划分的次数，适应不同的需求。
计算效率相对较高：相比于留一交叉验证，蒙特卡罗交叉验证的计算量通常较小，尤其是在样本数量较大时。

缺点

评估结果不稳定：由于每次划分是随机的，不同的划分可能导致不同的训练集和验证集分布，使得评估结果的波动较大，稳定性较差。
部分样本可能未被充分利用：存在部分样本在多次划分中都未被用作验证集的可能性，导致数据利用不够充分。

适用场景

数据集较大，希望在较短时间内得到大致的模型评估结果。
对计算资源有限制，无法进行复杂交叉验证的情况。

时间序列交叉验证（Time Series Cross-Validation）

原理

考虑到时间序列数据的顺序性和相关性，时间序列交叉验证按照时间顺序依次划分训练集和验证集。例如，前个时间点的数据作为训练集，接下来的个时间点的数据作为验证集，逐步向前移动，直到覆盖整个时间序列。

优点

符合时间序列特性：充分考虑了时间序列数据的顺序性和相关性，能够更准确地评估模型在实际时间序列预测中的性能。
避免信息泄露：确保验证集的数据不会在训练集中出现，避免了模型利用未来信息进行训练，使评估结果更具现实意义。

缺点

数据划分受时间限制：由于要按照时间顺序划分，不能像其他交叉验证方法那样随机划分，可能会导致某些时间段的数据在验证集中出现的次数较少，影响评估的全面性。
模型适应性问题：随着时间的推移，数据的分布和特征可能发生变化，模型在不同时间段的性能可能不稳定，需要不断调整模型。

适用场景

处理时间序列数据，如股票价格预测、气象数据预测、销售数据预测等场景。

示例

from sklearn.datasets import load_iris
from sklearn.model_selection import StratifiedKFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 初始化分层k-折交叉验证器
#n_splits划分为几个折叠 
#shuffle是否在拆分之前被打乱(随机化),False则按照顺序拆分
#random_state随机因子
strat_k_fold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# 创建一个K近邻分类器实例
knn = KNeighborsClassifier(n_neighbors=7)

# 进行交叉验证
accuracies = []
for train_index, test_index in strat_k_fold.split(X, y):
    print(train_index, test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    # 数据预处理（标准化）
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    # 使用K近邻分类器进行训练
    knn.fit(X_train_scaled, y_train)
    
    # 输出每次折叠的准确性得分
    score = knn.score(X_test,y_test)
    print(score)
    accuracies.append(score)#把分数添加到外面列表中
print(sum(accuracies)/len(accuracies))#平均得分

#使用StratifiedKFold来创建5个折叠，每个折叠中鸢尾花数据集的类别分布与整体数据集的分布一致。然后我们对每个折叠进行了训练和测试，计算了分类器的准确性

2 超参数搜索

超参数搜索也叫网格搜索(Grid Search)

比如在KNN算法中，k是一个可以人为设置的参数，所以就是一个超参数。网格搜索能自动的帮助我们找到最好的超参数值。

class sklearn.model_selection.GridSearchCV(estimator, param_grid)

说明：
同时进行交叉验证(CV)、和网格搜索(GridSearch)，GridSearchCV实际上也是一个估计器(estimator)，同时它有几个重要属性：
      best_params_  最佳参数
      best_score_ 在训练集中的准确率
      best_estimator_ 最佳估计器
      cv_results_ 交叉验证过程描述
      best_index_最佳k在列表中的下标
参数：
	estimator： scikit-learn估计器实例
	param_grid:以参数名称（str）作为键，将参数设置列表尝试作为值的字典
		示例： {"n_neighbors": [1, 3, 5, 7, 9, 11]}
    cv: 确定交叉验证切分策略,值为:
        (1)None  默认5折
        (2)integer  设置多少折
        如果估计器是分类器，使用"分层k-折交叉验证(StratifiedKFold)"。在所有其他情况下，使用KFold。

示例-鸢尾花分类

用KNN算法对鸢尾花进行分类，添加网格搜索和交叉验证

# 用KNN算法对鸢尾花进行分类，添加网格搜索和交叉验证
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

def knn_iris_gscv():
    # 1）获取数据
    iris = load_iris()
    
    # 2）划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
    
    # 3）特征工程：标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
   
    # 4）KNN算法预估器, 这里就不传参数n_neighbors了，交给GridSearchCV来传递
    estimator = KNeighborsClassifier()
    # 加入网格搜索与交叉验证, GridSearchCV会让k分别等于1,2,5,7,9,11进行网格搜索偿试。cv=10表示进行10次交叉验证
    estimator = GridSearchCV(estimator, param_grid={"n_neighbors": [1, 3, 5, 7, 9, 11]}, cv=10)
    estimator.fit(x_train, y_train)

    # 5）模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)

    # 方法2：计算准确率
    score = estimator.score(x_test, y_test)
    print("在测试集中的准确率为：\n", score)  #0.9736842105263158

    # 最佳参数：best_params_
    print("最佳参数：\n", estimator.best_params_) #{'n_neighbors': 3}， 说明k=3时最好
    # 最佳结果：best_score_
    print("在训练集中的准确率：\n", estimator.best_score_)  #0.9553030303030303
    # 最佳估计器：best_estimator_
    print("最佳估计器:\n", estimator.best_estimator_) # KNeighborsClassifier(n_neighbors=3)
    # 交叉验证结果：cv_results_
    print("交叉验证过程描述:\n", estimator.cv_results_)
    #最佳参数组合的索引:最佳k在列表中的下标
    print("最佳参数组合的索引:\n",estimator.best_index_)
    
    #通常情况下，直接使用best_params_更为方便
    return None

knn_iris_gscv()

Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
宗毅说 | 乌卡瑟时代的生存思考裂变学院
今天，互联网经济、人工智能、全球化发展对我们的影响，要比我们想象得大得多。在多股合力的相互作用下，这个时代的社会特征、商业特征与之前相比显著不同，我称之为乌卡瑟“VUCASE”。备注：乌卡瑟（VUCASE）这个术语是我自创的，来自于乌卡(VUKA）。VUCA是Volatility(易变性)，Uncertainty(不确定性)，Complexity(复杂性)、Ambiguity（模糊性）这四个英文单
[论文阅读] 人工智能 + 软件工程 | 单会话方法论：一种以人类为中心的人工智能辅助软件开发协议张较瘦_ 前沿技术论文阅读人工智能软件工程
单一对话法（SCM）：AI辅助软件开发的“全局对话”新思路SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSoftwareDevelopmentarXiv:2507.12665SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSo
如何安全使用人工智能大模型
人工智能大模型的安全漏洞在推送，你只要有不一样的解决方案他就会通过学习学会，在别人讨论相同问题时，就会作为解决问题的推荐方案。这种机制是没办法防的。鉴于此我们只能采取如下措施:1.绝对本地部署，就是部署好以后断网，因为你使用时他还是会手机数据往后台传送，我本地部署的大模型在推理时看性能，网络也是有数据流的。也不知道在交换什么。2.既然搞不清楚那就彻底不相信，断网。那么我们要加快进度，快速完成任务，
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】陈辰学长人工智能科技
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】在21世纪的科技浪潮中，人工智能（AI）作为一股不可忽视的力量，正以前所未有的速度渗透并重塑着我们的生活、工作乃至艺术创作领域。其中，AI绘画作为科技与艺术深度融合的产物，不仅挑战了传统艺术的边界，更开启了一个充满无限想象与可能的新时代。本文将从AI绘画的定义与发展历程、技术原理、对艺术创作的影响、面临的挑战与机遇以及未来展望等多个维度，深入探讨这
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
骗局揭露：光远投研会马光远，环境排放3.0被骗不靠谱！不可信！真相震惊！易星辰分享普法
关于曝光网上光远投研会马光远在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

机器学习02

三、模型选择与调优

1 交叉验证

(1) 保留交叉验证HoldOut

优点

缺点

(2) K-折交叉验证(K-fold)

优点

缺点

(3) 分层k-折交叉验证Stratified k-fold

优点

缺点

留一交叉验证（Leave-One-Out Cross-Validation, LOOCV）

原理

优点

缺点

适用场景

蒙特卡罗交叉验证（Monte Carlo Cross-Validation）

原理

优点

缺点

适用场景

时间序列交叉验证（Time Series Cross-Validation）

原理

优点

缺点

适用场景

示例

2 超参数搜索

你可能感兴趣的:(机器学习,人工智能,深度学习)