ChenVast

【机器学习】完整的机器学习项目演练：第二部分

模型选择，超参数调整和评估

组装解决问题所需的所有机器学习文件可能是一项艰巨的任务。在本系列文章中，我们将逐步实现使用真实数据集的机器学习工作流程，以了解各种技术如何结合在一起。

在第一篇文章中，我们清理和构建了数据，执行了探索性数据分析，开发了一套在我们的模型中使用的功能，并建立了一个我们可以衡量性能的基线。在本文中，我们将介绍如何在Python中实现和比较多个机器学习模型，执行超参数调整以优化最佳模型，以及评估测试集上的最终模型。

这个项目的完整代码在GitHub上，与本文对应的第二个jupyter notebook就在这里。您可以以任何方式随意使用，共享和修改代码！

模型评估与选择

作为提醒，我们正在开展监督回归任务：使用纽约市建筑能源数据，我们希望开发一个可以预测建筑物能源之星得分的模型。我们的重点是预测的准确性和模型的可解释性。

有大量的机器学习模型可供选择，决定从哪里开始可能是令人生畏的。虽然有一些图表试图向您展示使用哪种算法，但我更喜欢试用几种，看哪哪种效果最好！机器学习仍然是一个主要由经验（实验）而不是理论结果驱动的领域，并且几乎不可能提前知道哪个模型将做得最好。

一般来说，最好从简单的，可解释的模型开始，如线性回归，如果性能不够，则转向更复杂但通常更准确的方法。下图显示了准确性与可解释性权衡的（高度不科学）版本：

解释性与准确性（来源）

我们将评估涵盖复杂性范围的五种不同模型：

线性回归
K-Nearest Neighbors回归
随机森林回归
渐变助推回归
支持向量机回归

在这篇文章中，我们将专注于实现这些方法而不是它们背后的理论。对于有兴趣学习背景的人，我强烈推荐使用Scikit-Learn和TensorFlow 进行统计学习简介（可在线免费获得）或动手机器学习。这两本教科书都很好地解释了理论，并分别展示了如何有效地使用R和Python中的方法。

输入缺失值

虽然我们在清理数据时丢弃了超过50％缺失值的列，但仍然有相当多的缺失观察结果。机器学习模型不能处理任何缺席值，因此我们必须填写它们，这个过程称为插补。

首先，我们将读入所有数据并提醒自己它的样子：

import pandas as pd
import numpy as np
# Read in data into dataframes 
train_features = pd.read_csv('data/training_features.csv')
test_features = pd.read_csv('data/testing_features.csv')
train_labels = pd.read_csv('data/training_labels.csv')
test_labels = pd.read_csv('data/testing_labels.csv')

Training Feature Size:  (6622, 64)
Testing Feature Size:   (2839, 64)
Training Labels Size:   (6622, 1)
Testing Labels Size:    (2839, 1)

每个值NaN代表缺失的观察。虽然有很多方法可以填补缺失的数据，但我们将采用一种相对简单的方法，即中位数估算。这将使用列的中值替换列中的所有缺失值。

在下面的代码中，我们创建一个Scikit-Learn Imputer对象，其策略设置为中位数。然后，我们在训练数据（使用imputer.fit）上训练此对象，并使用它来填充训练和测试数据中的缺失值（使用imputer.transform）。这意味着测试数据中的缺失值用训练数据中的相应中值填充。

（我们必须以这种方式进行估算，而不是对所有数据进行训练，以避免测试数据泄漏的问题，其中来自测试数据集的信息溢出到训练数据中。）

# 创建一个具有中位填充策略的
imputer = Imputer(strategy='median')

# Train on the training features
imputer.fit(train_features)

# 转换训练数据和测试数据
X = imputer.transform(train_features)
X_test = imputer.transform(test_features)

Missing values in training features:  0
Missing values in testing features:   0

所有功能现在都具有真实的有限值，没有遗漏的例子。

特征缩放

缩放是指更改要素范围的一般过程。这是必要的，因为要素以不同的单位进行测量，因此涵盖不同的范围。考虑到观测之间的距离测量的支持向量机和K近邻等方法受到特征范围的显着影响，并且缩放允许他们学习。虽然线性回归和随机森林等方法实际上并不需要进行特征缩放，但在我们比较多个算法时，最佳做法仍然是采取这一步骤。

我们将通过将每个特征放在0和1之间的范围来缩放特征。这可以通过获取特征的每个值，减去特征的最小值，然后除以最大值减去最小值（范围）来完成。这种特定版本的缩放通常称为规范化，另一种主要版本称为标准化。

虽然这个过程很容易手工实现，但我们可以使用MinMaxScalerScikit-Learn中的对象来实现。此方法的代码与插补的代码相同，除了使用缩放器而不是imputer！同样，我们确保仅使用训练数据进行训练，然后转换所有数据。

# 创建范围为0-1 
scaler = MinMaxScaler(feature_range=(0, 1))

# 适合训练数据
scaler.fit(X)

# 转换训练和测试数据
X = scaler.transform(X)
X_test = scaler.transform(X_test)

现在，每个功能的最小值都为0，最大值为1.缺少值插补和特征缩放是几乎所有机器学习管道中都需要的两个步骤，因此了解它们的工作原理是个好主意！

在Scikit-Learn中实现机器学习模型

在我们花费所有工作清理和格式化数据之后，实际创建，训练和预测模型相对简单。我们将使用Python中的Scikit-Learn库，它具有出色的文档和一致的模型构建语法。一旦您知道如何在Scikit-Learn中制作一个模型，您就可以快速实现各种算法。

我们可以用Gradient Boosting Regressor 说明模型创建，训练（使用.fit）和测试（使用 .predict）的一个例子：

from sklearn.ensemble import GradientBoostingRegressor

# Create the model
gradient_boosted = GradientBoostingRegressor()

# Fit the model on the training data
gradient_boosted.fit(X, y)

# Make predictions on the test data
predictions = gradient_boosted.predict(X_test)

# Evaluate the model
mae = np.mean(abs(predictions - y_test))

print('Gradient Boosted Performance on the test set: MAE = %0.4f' % mae)

Gradient Boosted Performance on the test set: MAE = 10.0132

模型创建，培训和测试都是一条线！为了构建其他模型，我们使用相同的语法，只更改算法的名称。结果如下：

为了正确看待这些数字，使用目标中值计算的幼稚基线为24.5。很明显，机器学习适用于我们的问题，因为它比基线有了显着的改进！

的梯度升压回归（MAE = 10.013）略微击败了随机森林（10.014 MAE）。这些结果并不完全公平，因为我们主要使用超参数的默认值。特别是在支持向量机等模型中，性能高度依赖于这些设置。尽管如此，根据这些结果，我们将选择梯度增强回归量用于模型优化。

用于模型优化的超参数调整

在机器学习中，在我们选择模型之后，我们可以通过调整模型超参数来针对我们的问题对其进行优化。

首先，什么是超参数？它们与参数有何不同？

模型超参数最好被认为是在训练之前由数据科学家设置的机器学习算法的设置。例如，随机森林中的树木数量或K近邻算法中使用的邻居数量。
模型参数是模型在训练期间学习的内容，例如线性回归中的权重。

控制超参数会通过改变模型中欠拟合和过度拟合之间的平衡来影响模型性能。欠拟合是指我们的模型不够复杂（它没有足够的自由度）来学习从特征到目标的映射。欠配合模型具有高偏差，我们可以通过使模型更复杂来纠正。

过度拟合是指我们的模型基本上记忆训练数据。过拟合模型具有高方差，我们可以通过正则化来限制模型的复杂性来纠正。欠装和过装模型都无法很好地概括为测试数据。

选择正确的超参数的问题在于，每个机器学习问题的最优设置都是不同的！因此，找到最佳设置的唯一方法是在每个新数据集上尝试使用它们。幸运的是，Scikit-Learn有许多方法可以让我们有效地评估超参数。此外，Epistasis Lab的TPOT等项目正在尝试使用遗传编程等方法优化超参数搜索。在这个项目中，我们将坚持使用Scikit-Learn这样做，但是仍然关注自动ML场景的更多工作！

随机搜索和交叉验证

我们将实现的特定超参数调整方法称为具有交叉验证的随机搜索：

随机搜索是指我们将用于选择超参数的技术。我们定义一个网格，然后随机抽样不同的组合，而不是网格搜索，我们穷尽地尝试每一个组合。（令人惊讶的是，随机搜索的表现几乎与网格搜索一样，并且运行时间大幅缩短。）
交叉验证是我们用于评估所选超参数组合的技术。我们使用K-Cross交叉验证，而不是将培训设置拆分为单独的培训和验证集，从而减少我们可以使用的培训数据量。这包括将训练数据划分为K个折叠，然后经历迭代过程，其中我们首先训练折叠的K-1，然后评估第K折叠的性能。我们重复这个过程K次，在K折交叉验证结束时，我们将每个K次迭代的平均误差作为最终性能度量。

K = 5的K-Fold交叉验证的想法如下所示：

K = 5的K折交叉验证（来源）

使用交叉验证执行随机搜索的整个过程是：

设置一个超参数网格进行评估
随机抽样超参数组合
使用所选组合创建模型
使用K折交叉验证评估模型
确定哪些超参数最有效

当然，我们实际上并没有手动执行此操作，而是让Scikit-Learn RandomizedSearchCV处理所有工作！

轻微转移：渐变提升方法

由于我们将使用Gradient Boosted回归模型，我应该至少给出一些背景知识！这个模型是一个集合方法，意味着它是由许多弱学习者构建的，在这种情况下是个体决策树。虽然随机森林等套袋算法并行训练弱学习者，并让他们投票进行预测，但像Gradient Boosting这样的提升方法依次训练学习者，每个学习者“集中”前一个学生所犯的错误。。

近年来，提升方法已经变得流行，并且经常赢得机器学习竞赛。在梯度推进的方法是使用梯度下降通过对前两者的残差顺序训练学习者以最小的成本函数一个特定的实现。Gradient Boosting的Scikit-Learn实现通常被认为效率低于其他库，例如XGBoost ，但它对我们的小数据集来说效果很好，而且非常准确。

返回超参数调整

在Gradient Boosted Regressor中有许多超参数可供调整，您可以查看Scikit-Learn文档了解详细信息。我们将优化以下超参数：

loss：最小化的损失函数
n_estimators：要使用的弱学习者（决策树）的数量
max_depth：每个决策树的最大深度
min_samples_leaf：决策树的叶节点所需的最小示例数
min_samples_split：拆分决策树节点所需的最小示例数
max_features：用于拆分节点的最大功能数

我不确定是否有人真正理解所有这些相互作用的方式，找到最佳组合的唯一方法就是尝试它们！

在下面的代码中，我们构建了一个超参数网格，创建了一个RandomizedSearchCV对象，并使用超过25个不同超参数组合的4倍交叉验证执行超参数搜索：

# 优化损失功能
loss = ['ls', 'lad', 'huber']

# 提升过程中使用的树数
n_estimators = [100, 500, 900, 1100, 1500]

# 每棵树的最大深度
max_depth = [2, 3, 5, 10, 15]

# 每片叶子的最小样本数
min_samples_leaf = [1, 2, 4, 6, 8]

# 拆分节点的最小样本数
min_samples_split = [2, 4, 6, 10]

# 进行拆分时要考虑的最大功能数
max_features = ['auto', 'sqrt', 'log2', None]

# 定义要进行搜索的超参数网格
hyperparameter_grid = {'loss': loss,
                       'n_estimators': n_estimators,
                       'max_depth': max_depth,
                       'min_samples_leaf': min_samples_leaf,
                       'min_samples_split': min_samples_split,
                       'max_features': max_features}

# 创建用于超参数调整的模型
model = GradientBoostingRegressor(random_state = 42)

# 设置4次交叉验证的随机搜索
random_cv = RandomizedSearchCV(estimator=model,
                               param_distributions=hyperparameter_grid,
                               cv=4, n_iter=25, 
                               scoring = 'neg_mean_absolute_error',
                               n_jobs = -1, verbose = 1, 
                               return_train_score = True,
                               random_state=42)

# Fit on the training data
random_cv.fit(X, y)

执行搜索后，我们可以检查RandomizedSearchCV对象以找到最佳模型：

# 找到设置的最佳组合
random_cv.best_estimator_

GradientBoostingRegressor（loss ='lad'，max_depth = 5，
                          max_features = None，
                          min_samples_leaf = 6，
                          min_samples_split = 6，
                          n_estimators = 500）

然后，我们可以使用这些结果通过选择接近这些最佳值的网格参数来执行网格搜索。但是，进一步调整不太可能显着改善我们的模型。作为一般规则，正确的特征工程对模型性能的影响要比最广泛的超参数调整大得多。这是应用于机器学习的递减收益定律：特征工程可以帮助您完成大部分工作，而超参数调整通常只能提供一个小的好处。

我们可以尝试的一个实验是改变估计量（决策树）的数量，同时保持其余的超参数稳定。这直接让我们观察到这个特定设置的效果。请参阅笔记本以了解实施情况，但结果如下：

随着模型使用的树木数量的增加，训练和测试误差都会减少。但是，训练误差比测试误差下降得快得多，我们可以看到我们的模型过度拟合：它在训练数据上表现很好，但是在测试集上却无法达到相同的性能。

我们总是期望测试集上的性能至少有所降低（毕竟，模型可以看到训练集的真实答案），但是显着的差距表明过度拟合。我们可以通过获取更多培训数据来解决过度拟合问题，或通过hyer参数降低模型的复杂性。在这种情况下，我们会将超参数留在原来的位置，但我鼓励任何人尝试减少过度拟合。

对于最终模型，我们将使用800个估算器，因为这导致交叉验证中的最小错误。现在，是时候测试一下这个模型了！

评估测试集

作为负责任的机器学习工程师，我们确保不让我们的模型在任何培训点看到测试集。因此，我们可以使用测试集性能作为我们的模型在现实世界中部署时的性能指标。

对测试集进行预测并计算性能相对简单。在这里，我们将默认的Gradient Boosted Regressor的性能与调优模型进行比较：

# 使用默认值和最终模型对测试集进行预测
default_pred = default_model.predict(X_test)
final_pred = final_model.predict(X_test)

Default model performance on the test set: MAE = 10.0118.
Final model performance on the test set:   MAE = 9.0446.

超参数调整将模型的准确度提高了约10％。根据使用情况，10％可能是一个巨大的改进，但它是在一个重要的时间投资！

我们还可以计算%timeit在Jupyter笔记本中使用magic命令训练两个模型所需的时间。首先是默认模型：

%%timeit -n 1 -r 5
default_model.fit(X, y)

1.09 s ± 153 ms per loop (mean ± std. dev. of 5 runs, 1 loop each)

1秒似乎很合理。最终调整的模型不是那么快：

%%timeit -n 1 -r 5
final_model.fit(X, y)

12.1 s ± 1.33 s per loop (mean ± std. dev. of 5 runs, 1 loop each)

这展示了机器学习的一个基本方面：它始终是一种权衡的游戏。我们必须始终保持准确性与可解释性，偏差与方差，准确性与运行时间等的平衡。正确的混合将最终取决于问题。在我们的例子中，相对而言，运行时间增加了12倍，但从绝对意义上说，并不是那么重要。

一旦我们得到最终预测，我们就可以对它们进行调查，看看它们是否表现出任何明显的偏差。左边是预测值和实际值的密度图，右边是残差的直方图：

预测值和实际值的密度图（左）和残差直方图（右）

模型预测似乎遵循实际值的分布，尽管密度峰值更接近训练集的中值（66）而不是密度的真实峰值（接近100）。残差几乎是正态分布，尽管我们看到一些大的负值，其中模型预测远低于真实值。我们将在下一篇文章中深入研究解释模型的结果。

结论

在本文中，我们介绍了机器学习工作流程中的几个步骤：

估算缺失值和缩放特征
评估和比较几种机器学习模型
使用随机网格搜索和交叉验证进行超参数调整
评估测试集上的最佳模型

这项工作的结果向我们表明，机器学习适用于使用可用数据预测建筑物能源之星得分的任务。使用梯度增强回归量，我们能够将测试集上的分数预测到真实值的9.1分之内。此外，我们发现超参数调整可以在投入的时间方面以显着的成本提高模型的性能。这是我们在开发机器学习解决方案时必须考虑的众多权衡之一。

在第三篇文章（此处提供）中，我们将查看我们创建的黑盒子，并尝试了解我们的模型如何进行预测。我们还将确定影响能源之星得分的最大因素。虽然我们知道我们的模型是准确的，但我们想知道为什么它会做出预测，以及它告诉我们这个问题！

想看第一部分点击这里。

一如既往，我欢迎反馈和建设性的批评，可以在Twitter @koehrsen_will上联系。

原文：https://towardsdatascience.com/a-complete-machine-learning-project-walk-through-in-python-part-two-300f1f8147e2

你可能感兴趣的:(Machine,Learning,机器学习算法理论与实战)

细嗦Transformer（三）：准备训练，讲解及代码实现优化器、学习率调整策略、正则化和KL散度损失 Ace_bb 算法 LLM transformer
文章目录关注我：细嗦大模型批处理对象/BatchesandMasking训练循环主函数/TrainingLoop优化器/Optimizer学习率调整策略/Learningrateadjustmentstrategy样例测试正则化/RegularizationLabelsmoothing标签平滑KL散度损失样例测试Github完整代码----求求了给个star和关注吧参考资料求求了，给个star和关
【人工智能】Python实战：构建高效的多任务学习模型蒙娜丽宁 Python杂谈 AI 人工智能 python 学习
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界多任务学习（Multi-taskLearning,MTL）作为机器学习领域中的一种重要方法，通过在单一模型中同时学习多个相关任务，不仅能够提高模型的泛化能力，还能有效利用任务间的共享信息。本文深入探讨了多任务学习的基本概念、优势及其在实际应用中的重要性。
pythonffmpeg 推流_Python实现推流直播简单心理 pythonffmpeg 推流
教程https://codingchaozhang.blog.csdn.net/article/details/102732555?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param&depth_1-utm_source=distribute.pc_rele
「AI 中国」榜单揭晓，OpenBayes贝式计算入选「大模型最具潜力创业企业 TOP 10」
日前，「AI中国」机器之心2024年度评选正式揭晓，OpenBayes贝式计算有幸入选「大模型最具潜力创业企业TOP10」。作为专业的人工智能媒体与产业服务平台，机器之心于2017年发布了AI榜单「SyncedMachineIntelligenceAwards」，在随后的时间里，伴随AI的跨越式发展，机器之心的年度评选也逐渐成为了产业风向标之一，覆盖的领域、范围更加广泛，维度更加细化。机器之心20
论文阅读：Deep Bilateral Learning for Real-Time Image Enhancement-google-hdrnet-slicing SetMaker 论文阅读
项目地址:https://gitcode.com/google/hdrnethdrnet作为超分领域的经典文章，由google提出主要用来用轻量化的方法来实现高分辨率的图像生成，hdrnet结合cnn可以让更高分辨率的图像部署在板端。如图所示，原始图像比如4k图像，首先分为两个主要模块：grid和guide。grid就是对应图上面的那一条特征提取网络，具体来说，原始图像经过下采样之后，默认256分
2017-SIGGRAPH-Google,MIT-(HDRNet)Deep Bilateral Learning for Real-Time Image Enhancements WX Chen HDR技术深度学习神经网络机器学习
双边网格本质上是一个可以保存边缘信息的3维的数据结构。对于一张2维图片,在2维空间中增加了一维代表像素的强度slice操作(上采样)BilateralGuidedUpsampling这篇文章用双边网格实现图像的操作算子的加速。算法的核心思想是将一幅高分辨率的图像通过下采样转换成一个双边网格,在双边网格中每个格子就是一个图像的仿射变换算子,它的原理是在空间与值域相近的区域内,相似输入图像的亮度经算子
AWS GCR EKS Resource：构建高效弹性云原生应用的利器杨女嫚
AWSGCREKSResource：构建高效弹性云原生应用的利器eks-workshop-greater-chinaAWSWorkshopforLearningEKSforGreaterChina项目地址:https://gitcode.com/gh_mirrors/ek/eks-workshop-greater-china在云计算的浪潮中，AWS（AmazonWebServices）一直处于创新
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
iMac电脑启动ideal跑Java项目报错(Class JavaLaunchHelper is implemented in both...One of the two will be used.) 学习时长两年半的小学生开发的小坑小洼编辑器 java
第一次在iMac上面跑ideal，启动一个main方法出现报错（objc[19374]:ClassJavaLaunchHelperisimplementedinboth/Library/Java/JavaVirtualMachines/jdk1.8.0_121.jdk/Contents/Home/bin/java(0x10d1cb4c0)and/Library/Java/JavaVirtualMa
蓝桥杯真题 - 公因数匹配 - 题解 ExRoc 蓝桥杯算法 c++
题目链接：https://www.lanqiao.cn/problems/3525/learning/个人评价：难度2星（满星：5）前置知识：调和级数整体思路题目描述不严谨，没说在无解的情况下要输出什么（比如nnn个111），所以我们先假设数据保证有解；从222到10610^6106枚举xxx作为约数，对于约数xxx去扫所有xxx的倍数，总共需要扫n2+n3+n4+⋯+nn≈nln⁡n\frac{
蓝桥杯真题 - 子树的大小 - 题解 ExRoc 蓝桥杯算法 c++
题目链接：https://www.lanqiao.cn/problems/3526/learning/个人评价：难度2星（满星：5）前置知识：无整体思路整体将节点编号−1-1−1，通过找规律可以发现，节点iii下一层最左边的节点编号是im+1im+1im+1，最右边的节点编号是im+mim+mim+m；用l,rl,rl,r分别标记当前层子树的最小节点编号与最大节点编号，每次让最左边的节点往下一层的
C#遇见TensorFlow.NET：开启机器学习的全新时代墨夶 C#学习资料1 机器学习 c#tensorflow
在当今快速发展的科技世界里，机器学习（MachineLearning,ML）已经成为推动创新的重要力量。从个性化推荐系统到自动驾驶汽车，ML的应用无处不在。对于那些习惯于使用C#进行开发的程序员来说，将机器学习集成到他们的项目中似乎是一项具有挑战性的任务。但随着TensorFlow.NET的出现，这一切变得不再困难。今天，我们将一起探索如何利用这一强大的工具，在熟悉的.NET环境中轻松构建、训练和
【JVM】—G1 GC日志详解一棵___大树 JVM jvm
G1GC日志详解⭐⭐⭐⭐⭐⭐Github主页https://github.com/A-BigTree笔记链接https://github.com/A-BigTree/Code_Learning⭐⭐⭐⭐⭐⭐如果可以，麻烦各位看官顺手点个star~文章目录G1GC日志详解1G1GC周期2G1日志开启与设置3YoungGC日志4MixedGC5FullGC关于G1回收器的前置知识点：【JVM】—深入理解
NLP 中文拼写检测纠正论文-04-Learning from the Dictionary 后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
【已解决】ImportError: libnvinfer.so.8: cannot open shared object file: No such file or directory 小小小小祥 python
问题描述：按照tensorrt官方安装文档：https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html#installing-tar安装完成后，使用python测试导入tensorrtimporttensorrt上述代码报错：Traceback(mostrecentcalllast):File“main.py”,li
ASPICE 4.0引领自动驾驶未来：机器学习模型的特点与实践亚远景aspice 机器学习自动驾驶人工智能
ASPICE4.0-ML机器学习模型是针对汽车行业，特别是在汽车软件开发中，针对机器学习（MachineLearning,ML）应用的特定标准和过程。ASPICE（AutomotiveSPICE）是一种基于软件控制的系统开发过程的国际标准，旨在提升软件开发过程的质量、效率和可靠性。ASPICE4.0中的ML模型部分则进一步细化了机器学习在汽车软件开发中的具体要求和流程。以下是对ASPICE4.0-
利用Python运行Ansys Apdl ssssasda ansys apdl 流处理批处理 python
Ansys流处理1.学习资源2.版本要求3.pymapdl安装流程4.初始设置和本地启动mapdl5.PyMAPDL语法6.工具库7.与window的交互接口1.学习资源Ansys官网：https://www.ansys.com/zh-cnAnsysAcademic（Ansys学术）:https://www.ansys.com/zh-cn/academicAnsysLearningForum（An
PVE和ESXi有何不同 king-agic Linux运维其他
PVE（ProxmoxVirtualEnvironment）和ESXi（vSphereHypervisor）都是用于构建和管理虚拟化环境的平台，但它们之间存在一些重要的区别。1.技术基础PVE：基于DebianLinux发行版，支持KVM（Kernel-basedVirtualMachine）和LXC（LinuxContainers）两种虚拟化技术。ESXi：基于VMware的专有架构，是一款裸金
【机器学习：三十二、强化学习：理论与应用】 KeyPan 机器学习机器学习机器人人工智能深度学习数据挖掘
1.强化学习概述**强化学习（ReinforcementLearning,RL）**是一种机器学习方法，旨在通过试验与反馈的交互，使智能体（Agent）在动态环境中学习决策策略，以最大化累积奖励（CumulativeReward）。相比监督学习和无监督学习，强化学习更关注长期目标，而非简单地从标签中学习。核心概念智能体（Agent）：进行学习和决策的主体。环境（Environment）：智能体所在
第三讲隐语架构 huang8666 人工智能
第三讲隐语架构产品层白屏黑屏两大模块通过可视化产品，降低终端用户的体验和演示成本通过模块化API降低技术集成商的研发成本隐语产品SecretPad：轻量化安装快速验证POC可定制集成SecretNote：Notebook形式交互式建模多节点一站式管理和交互运行状态跟踪算法层PSI/PIR、DataAnalysis、FederatedLearningPSI（PrivateSetIntesection
什么是python虚拟机 python游乐园计算机基础 python 开发语言
一、定义Python虚拟机（PythonVirtualMachine，简称PVM）是Python语言的运行核心。它是一种抽象的计算机，用于执行Python字节码。字节码是Python源代码经过编译后生成的一种中间表示形式，就像是一种特殊的机器语言，但不是针对物理硬件的，而是针对Python虚拟机这个“虚拟硬件”。二、工作原理编译阶段当你编写Python源代码（例如.py文件）时，Python解释器
麒麟操作系统基础知识保姆级教程（五）系统优化小屁不止是运维基础知识架构 linux 运维服务器
如果你想拥有你从未拥有过的东西，那么你必须去做你从未做过的事情1、查看系统版本两种方法1、使用命令查看[root@localhost~]#hostnamectl Statichostname:localhost.localdomain Iconname:computer-vm Chassis:vm MachineID:372f0bb3bfcd4bd09688fd725b9a085
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
Ubuntu安装vmware-workstation失败后解决方法 demodeom ubuntu linux 运维
由于不用版本、不同内核的Ubuntu，安装vmware-workstation时，可能会安装失败，安装失败后的解决方案，错误1使用以下命令可以查看安装失败的模块sudo/etc/init.d/vmwarestart输出如下，多数情况下都是这两个模块失败了StartingVMwareservices:VirtualmachinemonitorfailedVirtualmachinecommunica
机器学习和深度学习的概念你好呀我是裤裤深度学习笔记机器学习深度学习人工智能
MachineLearning机器学习，可以看作是找一个函数。这个函数是人类找不到的，所以交给机器来找。DifferenttypesofFunctions**Regression：**函数的输出是一个数值forexample：**Classification：**给出选项，让机器去选择。forexample：检测一个邮件是不是垃圾文件，就可以通过这个来做。选项是两个：垃圾文件or非垃圾文件。下面，
PLUTO：突破基于模仿学习的自动驾驶规划极限硅谷秋水机器学习自动驾驶人工智能自动驾驶人工智能机器学习计算机视觉
24年4月来自香港科技大学的论文“PLUTO:PushingtheLimitofImitationLearning-basedPlanningforAutonomousDriving”。PLUTO，突破基于模仿学习的自动驾驶规划极限。改进来自三个关键方面：一种纵向横向感知模型架构，可实现灵活多样的驾驶行为；一种创新的辅助损失计算方法，可广泛应用且可高效地进行批量计算；一种利用对比学习的训练框架，采
官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake 阿里云大模型
2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（MachineLearning,AI,BigDataSystemsLab）联合发布了以KVCache为中心的大模型推理架构Mooncake。通过使用以KVCache为中心的PD分离和以存换算架构，大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。近日，清华大学和研究组织9#
【机器学习】主动学习-增加标签的操作方法-样本池采样（Pool-Based Sampling） IT古董机器学习机器学习学习人工智能
Pool-BasedSamplingPool-basedsampling是一种主动学习（ActiveLearning）方法，与流式选择性采样不同，它假设有一个预先定义的未标注样本池，算法从中选择最有价值的样本进行标注，以提升模型的性能。这种方法广泛应用于需要人工标注的场景，例如文本分类、图像识别等。核心思想预先准备一个未标注数据池（UnlabeledDataPool）。使用初始标注数据训练一个模型
ARM、DSP和FPGA技术浅析 mosquito88881 嵌入式 ARMDSP和FPGA技术浅析
摘要：本文简要的介绍了ARM、DSP和FPGA的区别和发展趋势。1、ARM与DSP和FPGA简介ARM（AdvancedRISCMachines）是微处理器行业的一家知名企业，设计了大量高性能、低价、低功耗的RISC处理器,研究微处理器相关技术，以及开发工具等。ARM架构是面向低预算市场设计的第一款RISC微处理器，基本是32位单片机的行业标准，它提供一系列内核、体系扩展、微处理器和系统芯片方案，
《C++ 赋能强化学习：Q - learning 算法的实现之路》 c++人工智能深度学习
在当今科技飞速发展的时代，人工智能无疑是最热门的领域之一，而强化学习作为其中的重要分支，正逐渐改变着我们解决复杂问题的方式。Q-learning算法作为强化学习中的经典算法，在众多领域如游戏、机器人控制、资源管理等有着广泛的应用前景。本文将深入探讨如何用C++实现强化学习中的Q-learning算法，带您领略C++在人工智能领域的强大魅力。一、强化学习与Q-learning算法概述强化学习是一种通
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo