ChenVast

【机器学习】完整的机器学习项目演练：第一部分

把机器学习拼接起来

通过阅读数据科学书籍或参加课程，可以感觉到你有各自的作品，但不太知道如何将它们组合在一起。采取下一步并解决完整的机器学习问题可能令人生畏，但保留和完成第一个项目将使您有信心解决任何数据科学问题。本系列文章将介绍一个包含真实数据集的完整机器学习解决方案，让您了解所有部分是如何组合在一起的。

我们将按照一般的机器学习工作流程逐步进行：

数据清理和格式化
探索性数据分析
特征工程和选择
比较性能指标上的几种机器学习模型
在最佳模型上执行超参数调整
评估测试集上的最佳模型
解释模型结果
得出结论并记录工作

在此过程中，我们将看到每个步骤如何流入下一步以及如何在Python中专门实现每个部分。该完整的项目可在GitHub上，与这里的部分的jupyter notebook。第一篇文章将介绍步骤1-3，其余内容将在后续文章中介绍。

（作为一个说明，这个问题最初是作为启动时作业屏幕的“任务”给我的。完成工作后，我得到了工作，但公司的首席技术官辞职了，他们不是'能够引进任何新员工。我想这就是启动现场的情况！）

问题定义

我们编写代码之前的第一步是了解我们要解决的问题和可用数据。在这个项目中，我们将使用纽约市公开提供的建筑能源数据。

目标是使用能源数据建立一个模型，该模型可以预测建筑物的能源之星得分并解释结果以找出影响得分的因素。

这些数据包括能源之星得分，这使其成为受监督的回归机器学习任务：

监督：我们可以访问功能和目标，我们的目标是培训可以学习两者之间映射的模型
回归：能源之星得分是一个连续变量

我们希望开发一个既准确的模型- 它可以预测接近真实值的能源之星分数 - 并且可以解释 - 我们可以理解模型预测。一旦我们了解了目标，我们就可以在我们深入研究数据和构建模型时使用它来指导我们的决策。

数据清理

与您认为的大多数数据科学课程相反，并非每个数据集都是完美策划的观察组，没有缺失值或异常（查看您的mtcars和虹膜数据集）。现实世界的数据很混乱，这意味着我们需要在可以开始分析之前将其清理并加工成可接受的格式。数据清理是大多数实际数据科学问题的一个非常迷人但必不可少的部分。

首先，我们可以将数据加载为Pandas DataFrame并查看：

import pandas as pd
import numpy as np
# Read in data into a dataframe 
data = pd.read_csv('data/Energy_and_Water_Data_Disclosure_for_Local_Law_84_2017__Data_for_Calendar_Year_2016_.csv')
# Display top of dataframe
data.head()

这是包含60列的完整数据的子集。我们已经看到了几个问题：首先，我们知道我们想要预测，ENERGY STAR Score但我们不知道任何列的含义。虽然这不一定是一个问题 - 我们通常可以在不了解变量的情况下制作精确的模型 - 我们希望专注于可解释性，并且至少理解一些列可能很重要。

当我最初从初创公司获得任务时，我不想问所有列名称的含义，所以我查看了文件的名称，

并决定寻找“地方法84”。这导致我进入这个页面，解释这是纽约市法律要求所有规模的建筑物报告他们的能源使用情况。更多的搜索让我了解了列的所有定义。也许看一个文件名是一个显而易见的起点，但对我来说，这是一个缓慢的提示，所以你不要错过任何重要的东西！

我们不需要研究所有列，但我们至少应该了解能源之星得分，其描述如下：

基于报告年度自我报告的能源使用情况的1到100百分位排名。在能源之星的分数是用于比较建筑物的能源效率的相对度量。

这清除了第一个问题，但第二个问题是缺失值被编码为“不可用”。这是Python中的一个字符串，这意味着即使带有数字的列也将存储为object数据类型，因为Pandas会将包含任何字符串的列转换为所有字符串的列。我们可以使用以下dataframe.info()方法查看列的数据类型：

# 查看列数据类型和非缺失值
data.info()

果然，一些明显包含数字（例如ft²）的列存储为对象。我们不能对字符串进行数值分析，因此必须将它们转换为数字（特定float）数据类型！

这里有一个Python代码，用于替换所有“Not Available”条目而不是number（np.nan），可以将其解释为数字，然后将相关列转换为float数据类型：

# 将所有不可用的numpy替换为numpy而不是数字
data = data.replace({'Not Available': np.nan})

# 遍历列
for col in list(data.columns):
    # 选择应为数字的列
    if ('ft²' in col or 'kBtu' in col or 'Metric Tons CO2e' in col or 'kWh' in 
        col or 'therms' in col or 'gal' in col or 'Score' in col):
        # 将数据类型转换为float
        data[col] = data[col].astype(float)

一旦正确的列是数字，我们就可以开始调查数据了。

缺少数据和异常值

除了不正确的数据类型之外，处理实际数据时的另一个常见问题是缺少值。这些可能由于许多原因而产生，并且必须在我们训练机器学习模型之前填写或移除。首先，让我们了解每列中有多少缺失值（请参阅笔记本中的代码）。

（为了创建这个表，我使用了这个Stack Overflow论坛中的一个函数）。

虽然我们总是要小心删除信息，但如果列的缺失值百分比很高，那么它对我们的模型可能没用。删除列的阈值应该取决于问题（这是一个讨论），对于这个项目，我们将删除任何缺失值超过50％的列。

此时，我们可能还想删除异常值。这可能是由于数据输入中的拼写错误，单位错误，或者它们可能是合法的但是极端值。对于这个项目，我们将根据极端异常值的定义删除异常：

低于第一个四分位数--3 *四分位数范围
高于第三个四分位数+3 *四分位数范围

（有关删除列和异常的代码，请参阅笔记本）。在数据清理和异常删除过程结束时，我们留下了超过11,000个建筑物和49个功能。

探索性数据分析

既然数据清理的繁琐但必要的步骤已经完成，我们可以继续探索我们的数据！探索性数据分析（EDA）是一个开放式过程，我们计算统计数据并制作数据以查找数据中的趋势，异常，模式或关系。

简而言之，EDA的目标是了解我们的数据可以告诉我们什么。它通常以高级概述开始，然后在我们找到有趣的数据部分时缩小到特定区域。这些发现本身可能很有趣，或者它们可以用来告知我们的建模选择，例如帮助我们决定使用哪些功能。

单变量图

目标是预测能源之星得分（score在我们的数据中重命名），因此合理的起点是检查此变量的分布。直方图是一种简单而有效的方法，可视化单个变量的分布，并且易于使用matplotlib。

import matplotlib.pyplot as plt
# Histogram of the Energy Star Score
plt.style.use('fivethirtyeight')
plt.hist(data['score'].dropna(), bins = 100, edgecolor = 'k');
plt.xlabel('Score'); plt.ylabel('Number of Buildings'); 
plt.title('Energy Star Score Distribution');

这看起来很可疑！能源之星得分是百分位数，这意味着我们期望看到均匀分布，每个得分分配给相同数量的建筑物。然而，不成比例的建筑物具有最高，100或最低1的分数（能量之星得分越高越好）。

如果我们回到分数的定义，我们会发现它基于“自我报告的能量使用”，这可能解释了非常高的分数。要求建筑物业主报告他们自己的能源使用情况就像要求学生在测试中报告他们自己的分数一样！因此，这可能不是建筑物能效的最客观衡量标准。

如果我们有无限的时间，我们可能想调查为什么这么多建筑物的分数非常高而且非常低，我们可以通过选择这些建筑物并看到它们的共同点。但是，我们的目标只是预测得分，而不是设计更好的建筑物评分方法！我们可以在报告中记下分数有可疑分布，但我们主要关注的是预测分数。

寻找关系

EDA的一个主要部分是搜索特征和目标之间的关系。与目标相关的变量对模型很有用，因为它们可用于预测目标。检查目标上的分类变量（仅接受有限的一组值）的影响的一种方法是使用seaborn库的密度图。

甲密度图可以被看作是一个平滑的直方图，因为它示出了单个变量的分布。我们可以按类别对密度图进行着色，以查看分类变量如何改变分布。以下代码根据建筑物的类型绘制能源之星得分的密度图（仅限于具有超过100个数据点的建筑类型）：

# 创建超过100个测量值的建筑物列表
types = data.dropna(subset=['score'])
types = types['Largest Property Use Type'].value_counts()
types = list(types[types.values > 100].index)

# 建筑类别分数分布图
figsize(12, 10)

# 绘制每个建筑物
for b_type in types:
    # 选择建筑类型
    subset = data[data['Largest Property Use Type'] == b_type]
    
    # 密度能源之星成绩的plot
    sns.kdeplot(subset['score'].dropna(),
               label = b_type, shade = False, alpha = 0.8);
    
# label the plot
plt.xlabel('Energy Star Score', size = 20); plt.ylabel('Density', size = 20); 
plt.title('Density Plot of Energy Star Scores by Building Type', size = 28);

我们可以看到建筑类型对能源之星得分有重大影响。办公楼往往得分较高，而酒店得分较低。这告诉我们，我们应该在建模中包含建筑类型，因为它确实会对目标产生影响。作为一个分类变量，我们将不得不对建筑类型进行单热编码。

类似的情节可以用来显示自治市镇的能源之星得分：

自治市镇的建筑类型似乎没有那么大的影响。尽管如此，我们可能希望将其包含在我们的模型中，因为自治市镇之间存在细微差别。

为了量化变量之间的关系，我们可以使用Pearson Correlation Coefficient。这是两个变量之间线性关系的强度和方向的度量。得分+1是完全线性正关系，得分-1是完全负线性关系。相关系数的几个值如下所示：

虽然相关系数无法捕获非线性关系，但它是一种开始计算变量如何相关的好方法。在Pandas中，我们可以轻松计算数据帧中任何列之间的相关性：

＃查找与分数的所有相关性并排序
correlations_data = data.corr()['score'].sort_values()

与目标的最负（左）和正（右）相关：

特征与目标之间存在若干强烈的负相关，而不同类别的EUI最为负（这些指标在计算方式上略有不同）。该EUI -能源使用强度 -是能量通过一座由建筑物的面积有多大划分的使用量。它旨在衡量建筑物的效率，评分越低越好。直觉上，这些相关性是有意义的：随着EUI的增加，能源之星得分趋于下降。

双变量图

为了可视化两个连续变量之间的关系，我们使用散点图。我们可以在点的颜色中包含其他信息，例如分类变量。例如，下图显示了建筑类型所着色的能源之星得分与场地EUI：

该图使我们可以看到-0.7的相关系数是什么样的。随着场地EUI减少，能源之星得分增加，这种关系在建筑类型中保持稳定。

我们将要做的最终探索性情节被称为Pairs Plot。这是一个很好的探索工具，因为它可以让我们看到多对变量之间的关系以及单个变量的分布。在这里，我们使用seaborn可视化库和PairGrid函数来创建一个对上图，上面的三角形上有散点图，对角线上的直方图和下三角形上的2D核密度图和相关系数。

# 提取要绘制的列
plot_data = features[['score', 'Site EUI (kBtu/ft²)', 
                      'Weather Normalized Source EUI (kBtu/ft²)', 
                      'log_Total GHG Emissions (Metric Tons CO2e)']]

# 用nan替换inf
plot_data = plot_data.replace({np.inf: np.nan, -np.inf: np.nan})

# 重命名列
plot_data = plot_data.rename(columns = {'Site EUI (kBtu/ft²)': 'Site EUI', 
                                        'Weather Normalized Source EUI (kBtu/ft²)': 'Weather Norm EUI',
                                        'log_Total GHG Emissions (Metric Tons CO2e)': 'log GHG Emissions'})

# 删除na值
plot_data = plot_data.dropna()

# 功能计算两列之间的相关系数
def corr_func(x, y, **kwargs):
    r = np.corrcoef(x, y)[0][1]
    ax = plt.gca()
    ax.annotate("r = {:.2f}".format(r),
                xy=(.2, .8), xycoords=ax.transAxes,
                size = 20)

# 创建pairgrid对象
grid = sns.PairGrid(data = plot_data, size = 3)

# 上是一个散点图
grid.map_upper(plt.scatter, color = 'red', alpha = 0.6)

# 对角线是直方图
grid.map_diag(plt.hist, color = 'red', edgecolor = 'black')

# 下方是相关性和密度图
grid.map_lower(corr_func);
grid.map_lower(sns.kdeplot, cmap = plt.cm.Reds)

# Title for entire plot
plt.suptitle('Pairs Plot of Energy Data', size = 36, y = 1.02);

要查看变量之间的交互，我们会查找行与列相交的位置。例如，要查看Weather Norm EUIwith 的相关性score，我们查看Weather Norm EUI行和score列，并查看相关系数-0.67。除了看起来很酷，这些图可以帮助我们决定在建模中包含哪些变量。

特征工程与选择

特征工程和选择通常可以为机器学习问题提供最大的时间回报。首先，让我们来定义这两个任务是什么：

特征工程：获取原始数据并提取或创建新特征的过程。这可能意味着转换变量，例如自然日志和平方根，或者单热编码分类变量，以便可以在模型中使用它们。通常，我认为特征工程是从原始数据创建其他功能。
特征选择：选择数据中最相关特征的过程。在特征选择中，我们删除了一些功能，以帮助模型更好地概括新数据并创建更具可解释性的模型。一般来说，我认为特征选择是减去特征，所以我们只留下最重要的特征。

机器学习模型只能从我们提供的数据中学习，因此确保数据包含我们任务的所有相关信息至关重要。如果我们不为模型提供正确的数据，那么我们将其设置为失败，我们不应期望它能够学习！

对于此项目，我们将采取以下功能工程步骤：

单热编码分类变量（自治市镇和财产使用类型）
添加数值变量的自然对数变换

在模型中包含分类变量需要单热编码。机器学习算法无法理解建筑类型的“办公室”，因此如果建筑物是办公室，我们必须将其记录为1，否则记录为0。

添加变换特征可以帮助我们的模型学习数据中的非线性关系。采用平方根，自然对数或各种特征的权力是数据科学中的常见做法，可以基于领域知识或在实践中最有效的方法。这里我们将包括所有数字特征的自然对数。

以下代码选择数字要素，对这些要素进行日志转换，选择两个分类要素，对这些要素进行一次热编码，并将这两个要素连接在一起。这似乎很多工作，但它在熊猫中相对简单！

# 复制原始数据
features = data.copy()

# 选择数字列
numeric_subset = data.select_dtypes('number')

# 创建包含数字列日志的列
for col in numeric_subset.columns:
    # 跳过能源之星得分列
    if col == 'score':
        next
    else:
        numeric_subset['log_' + col] = np.log(numeric_subset[col])
        
# 选择分类列
categorical_subset = data[['Borough', 'Largest Property Use Type']]

# 一个热编码
categorical_subset = pd.get_dummies(categorical_subset)

＃ 使用concat加入两个数据帧
＃ 确保使用axis = 1来执行列绑定
features = pd.concat([numeric_subset, categorical_subset], axis = 1)

在此过程之后，我们拥有超过11,000个具有110列（特征）的观测（建筑物）。并非所有这些功能都可能对预测能源之星得分有用，所以现在我们将转向功能选择以删除一些变量。

特征选择

我们数据中的110个功能中的许多功能都是多余的，因为它们彼此高度相关。例如，这里是Site EUI与Weather Normalized Site EUI的关系系数为0.997的图。

彼此强相关的特征被称为共线特征，并且移除这些特征对中的一个变量通常可以帮助机器学习模型概括并且更易于解释。（我应该指出，我们正在讨论功能与其他功能的相关性，而不是与目标的相关性，这有助于我们的模型！）

有许多方法可以计算特征之间的共线性，其中最常见的是方差膨胀因子。在这个项目中，我们将使用相关系数来识别和删除共线特征。如果它们之间的相关系数大于0.6，我们将丢弃一对特征中的一个。对于实现，请看一下笔记本（以及此Stack Overflow答案）

虽然这个值似乎是任意的，但我尝试了几个不同的阈值，这个选择产生了最好的模型。机器学习是一个经验领域，通常是试验和发现最佳表现！选择特征后，我们剩下64个总功能和1个目标。

# Remove any columns with all na values
features  = features.dropna(axis=1, how = 'all')
print(features.shape)

(11319, 65)

建立基线

我们现在已经完成了数据清理，探索性数据分析和特征工程。在开始建模之前采取的最后一步是建立一个naive基线。这基本上是我们可以比较我们的结果的猜测。如果机器学习模型没有超过这个猜测，那么我们可能必须得出结论，机器学习对于任务是不可接受的，或者我们可能需要尝试不同的方法。

对于回归问题，合理的naive基线是猜测测试集中所有示例的训练集上目标的中值。这为任何模型设定了相对较低的标准。

我们将使用的度量是平均绝对误差（mae），它测量预测的平均绝对误差。回归有很多指标，但我喜欢Andrew Ng建议选择一个指标，然后在评估模型时坚持使用它。平均绝对误差易于计算且可解释。

在计算基线之前，我们需要将数据分成训练和测试集：

该训练集的特点就是我们与答案一起训练时提供给我们的模型。目标是让模型学习特征和目标之间的映射。
该测试集的功能是用来评估训练的模型。不允许该模型查看测试集的答案，并且必须仅使用这些特征进行预测。我们知道测试集的答案，因此我们可以将测试预测与答案进行比较。

我们将使用70％的数据进行培训，30％的数据用于测试：

# Split into 70% training and 30% testing set
X, X_test, y, y_test = train_test_split(features, targets, 
                                        test_size = 0.3, 
                                        random_state = 42)

现在我们可以计算出naive 基线表现：

# Function to calculate mean absolute error
def mae(y_true, y_pred):
    return np.mean(abs(y_true - y_pred))

baseline_guess = np.median(y)

print('The baseline guess is a score of %0.2f' % baseline_guess)
print("Baseline Performance on the test set: MAE = %0.4f" % mae(y_test, baseline_guess))

naive 估计在测试集上减少了约25个点。得分范围从1-100，所以这代表25％的错误，超过相当低的标准！

结论

在本文中，我们介绍了机器学习问题的前三个步骤。在定义问题后，我们：

清理并格式化原始数据
执行探索性数据分析以了解数据集
开发了一组我们将用于模型的功能

最后，我们还完成了建立基线的关键步骤，我们可以据此判断机器学习算法。

第二篇文章（此处提供）将展示如何使用Scikit-Learn评估机器学习模型，选择最佳模型，以及执行超参数调整以优化模型。处理模型解释和报告结果的第三篇文章就在这里。

一如既往，我欢迎反馈和建设性的批评，可以在Twitter @koehrsen_will上联系。

原文：https://towardsdatascience.com/a-complete-machine-learning-walk-through-in-python-part-one-c62152f39420

深度学习 Deep Learning 第2章线性代数 odoo中国 AI编程人工智能深度学习线性代数人工智能
深度学习第2章线性代数线性代数是深度学习的语言。张量操作是神经网络计算的基石，矩阵乘法是前向传播的核心，范数约束模型复杂度，而生成空间理论揭示模型表达能力的本质。本章介绍线性代数的基本内容，为进一步学习深度学习做准备。主要内容2.1标量、向量、矩阵和张量标量：单个数字，用斜体表示，通常赋予小写字母变量名。向量：数字数组，按顺序排列，用粗体小写字母表示，元素通过下标访问。矩阵：二维数字数组，用粗体大
TidyBot++：用于机器人学习开源的完整移动机械手三谷秋水计算机视觉智能体人工智能机器人开源人工智能机器学习深度学习
24年12月来自普林斯顿、斯坦福和dexterity.ai的论文“TidyBot++:AnOpen-SourceHolonomicMobileManipulatorforRobotLearning”。要充分利用模仿学习在移动机械操作方面的最新进展，需要收集大量人工引导的演示。本文提出一种开源设计，用于设计一种廉价、坚固、灵活的移动机械手，该机械手可支撑任意臂，从而实现各种现实世界的家用移动机械操作
Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践 kkchenkx 数据挖掘信息可视化算法聚类均值算法数据挖掘机器学习
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践数据降维简介降维技术的重要性在数据科学和机器学习领域，数据降维是一种关键的技术，用于减少数据集的维度，同时保留数据的结构和重要信息。降维不仅可以帮助我们更有效地存储和处理数据，还能在高维数据中发现潜在的模式和结构，这对于数据可视化和模型训练尤为重要。高维数据往往难以直观理解，通过降维，我们可以将其转换为二维或三维空间，便于可视化
孪生网络模型，当训练集与测试集共用一个数据集时，训练准确率为100%，而测试准确率仍在50%左右浮动 bug菌¹ 全栈Bug调优(实战版)pytorch 机器学习
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！问题描述【问题】孪生网络模型，测试效果异常：当训练集与测试集共用一个数据集（样本、标签完全相同）时，训练准确率为100%，而测试准确率仍在50%左右浮动（正常来说测试的都
TPAMI 2024 | 学习人类教育智慧：以学生为中心的知识蒸馏方法小白学视觉论文解读 IEEE TPAMI 知识蒸馏 TPAMI 论文解读深度学习
题目：LearningFromHumanEducationalWisdom:AStudent-CenteredKnowledgeDistillationMethod学习人类教育智慧：以学生为中心的知识蒸馏方法作者：S.Yang;J.Yang;M.Zhou;Z.Huang;W.-S.Zheng;X.Yang;J.Ren摘要现有的知识蒸馏研究通常侧重于以教师为中心的方法，其中教师网络根据自身标准进行训
数据分布偏移检测：保障模型在生产环境中的稳定性 trust Tomorrow 机器学习 python 机器学习人工智能深度学习
数据分布偏移检测：保障模型在生产环境中的稳定性引言在机器学习系统从开发环境部署到生产环境的过程中，数据分布偏移问题是影响模型性能的主要挑战之一。当训练数据与生产环境中的数据分布不一致时，即使是经过精心调优的模型也可能表现出明显的性能下降。本文将深入探讨数据分布偏移的检测方法，并提供一套系统化的解决方案，帮助读者构建更加稳健的机器学习系统。1.数据分布偏移问题概述1.1分布偏移的类型数据分布偏移主要
基于热力梯度的线圈设计用来更替新型的储能方式热爱电气数学建模
摘要研究背景：传统电磁储能技术受限于较低的能量密度（约1-5Wh/kg）和充放电速度。热力梯度储能技术通过调控温度场实现多模式能量转换，其潜力能量密度可达100Wh/kg以上。创新点：1.提出三层异质线圈结构（铜基主储层+Bi₂Te₃热电转换层+GdFeO₃磁热调谐层），实现温度梯度与磁场的协同调控。2.开发动态热-电-磁耦合模型，结合有限元分析（COMSOL）与机器学习算法（遗传算法优化参数）。
【机器学习】skit-learn中LSI模型的实现一穷二白到年薪百万机器学习 python sklearn
参考文献[1]sklearn_api.lsimodel–ScikitlearnwrapperforLatentSemanticIndexing[2]Pythonmodels.LsiModel方法代码示例
Transformer动画讲解 - 工作原理 ghx3110 transformer 深度学习人工智能
Transformer模型在多模态数据处理中扮演着重要角色，其能够高效、准确地处理包含不同类型（如图像、文本、音频、视频等）的多模态数据。Transformer工作原理四部曲：Embedding（向量化）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（模型输出）。阶段一：Embedding（向量化）“Embedding”在字面上的翻译是“嵌入”，但在机器学习和自
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
【大一新生必收藏系列】❤机器学习7大方面，30个数据集。纯干货分享❤ .Boss. 机器学习人工智能 python 算法开发语言笔记 #大一新生
.记住了就可以跟同学装起来了嗷....目录.纯干货回归问题分类问题图像分类文本情感分析自然语言处理自动驾驶金融类...........纯干货..................在刚刚开始学习算法的时候，大家有没有过这种感觉，最最重要的那必须是算法本身！其实在一定程度上忽略了数据的重要性。而事实上一定是，质量高的数据集可能是最重要的！数据集在机器学习算法项目中具有非常关键的重要性，数据集的大小、质量
Manus开源平替-开源通用智能体 galileo2016 人工智能
原文链接:https://i68.ltd/notes/posts/250306-opensource-agi-agent/OWL-比Manus还强的全能开源AgentOWL:OptimizedWorkforceLearningforGeneralMulti-AgentAssistanceinReal-WorldTaskAutomation，现实世界中执行自动化任务的通用多代理辅助优化学习框架项目仓
训练模型时，步长为什么不能太大也不能太小？ yuanpan 人工智能
在训练模型时，步长（也称为学习率，LearningRate）是一个关键的超参数，它控制着每次参数更新的大小。步长既不能太大，也不能太小，原因如下：1.步长太大的问题如果步长过大，会导致以下问题：模型发散（Divergence）：参数更新幅度过大，可能导致损失函数的值不断增大，甚至无法收敛，模型性能急剧下降。错过最优解：过大的步长可能导致参数在最优解附近震荡，甚至直接跳过最优解，无法找到良好的模型参
机器学习中的梯度到底是什么？（chat-gpt问答）湫怿机器学习 gpt 人工智能梯度
1、梯度是对损失函数求导吗？是的，梯度是对损失函数（或目标函数）求导数值化后的结果。梯度告诉我们目标函数在某个点上的方向性和变化率，这些信息是优化算法推进参数评估和更新的重要指标。在机器学习中，我们通过不断调整参数，使目标函数达到最小值，从而实现模型的训练和学习。2、为什么梯度要求偏导来求解？梯度是一个向量，它的方向指向函数值增加最快的方向，其大小表示函数值的变化率。为了确定梯度的方向和大小，需要
机器学习中的梯度下降是什么意思？ yuanpan 机器学习人工智能
梯度下降（GradientDescent）是机器学习中一种常用的优化算法，用于最小化损失函数（LossFunction）。通过迭代调整模型参数，梯度下降帮助模型逐步逼近最优解，从而提升模型的性能。1.核心思想梯度下降的核心思想是利用损失函数的梯度（即导数）来指导参数的更新方向。具体来说：梯度：梯度是损失函数对模型参数的偏导数，表示损失函数在当前参数点上的变化率。下降：通过沿着梯度的反方向（即损失函
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
机器学习-----决策树多巴胺与内啡肽. 机器学习机器学习决策树人工智能
文章目录1、概念2.决策树的构建过程2.1特征选择2.2树的生成2.3树的剪枝3.决策树的优缺点4.决策树的应用4.1分类任务4.2回归任务4.3集成学习代码示例总结1、概念1.1决策树是什么决策树是通过对样本的训练，建立出分类规则，并对新样本进行预测，属于有监督学习。根节点：最上面的节点。叶子节点：能直接看到结果的节点。非叶子节点：位于中间的节点。1.2决策树的类型分类树：用于分类任务，叶节点代
机器学习驱动的智能化电池管理技术与应用萌萌可爱郭德纲机器学习人工智能
电池管理技术概述电池的工作原理与关键性能指标电池管理系统的核心功能ØSOC估计ØSOH估计Ø寿命预测Ø故障诊断人工智能机器学习基础人工智能的发展机器学习的关键概念机器学习在电池管理中的应用案例介绍人工智能在电池荷电状态估计中的应用荷电状态估计方法概述基于迁移学习的SOC估计(1)基于迁移学习的SOC估计方法数据集、估计框架、估计结果(2)全生命周期下的SOC估计方法数据集、估计框架、估计结果基于数
机器学习_重要知识点整理嘉羽很烦机器学习机器学习
机器学习重要知识点整理一、数学与理论基础1.概率与统计术语作用使用场景概率分布描述随机变量的取值概率，如正态分布、二项分布。数据建模（如高斯分布假设）、生成模型（如贝叶斯网络）。贝叶斯定理计算条件概率，更新先验知识以获得后验概率。贝叶斯分类器、文本分类（如垃圾邮件检测）。最大似然估计（MLE）通过数据最大化似然函数，估计模型参数。线性回归、逻辑回归参数估计。假设检验判断假设是否成立（如t检验、卡方
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
KVM安全模块生产环境配置与优化指南 TechStack 创行者 #服务器容器 Linux 服务器运维安全 kvm SELinux
KVM安全模块生产环境配置与优化指南一、引言在当今复杂多变的网络安全环境下，生产环境中KVM（Kernel-basedVirtualMachine）的安全配置显得尤为重要。本指南旨在详细阐述KVM安全模块的配置方法，结合强制访问控制（MAC）、硬件隔离及合规性要求，为您提供全面且深入的操作建议，确保KVM环境的安全性和稳定性。二、SELinux安全模块配置1.基础策略配置SELinux（Secur
HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
信息检索系统评估指标的层级分析：从单点精确度到整体性能度量人工智能深度学习llm检索系统
在构建搜索引擎系统时，有效的评估机制是保证系统质量的关键环节。当用户输入查询词如"machinelearningtutorialspython"，系统返回结果列表后，如何客观评估这些结果的相关性和有效性？这正是信息检索评估指标的核心价值所在。分析用户与搜索引擎的交互模式，我们可以观察到以下行为特征：用户主要关注结果列表的前几项对顶部结果的关注度显著高于底部结果用户基于多次搜索体验形成对搜索系统整体
Python 科学计算与机器学习入门：NumPy + Scikit-Learn 实战指南吴师兄大模型 python numpy scikit-learn 人工智能开发语言机器学习编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST