程序_丸

【机器学习/数据分析大项目】黑色星期五销售预测（详细报告）

【机器学习/数据分析大项目】黑色星期五销售预测

- 一、项目背景
- 二、问题描述
- 三、数据集描述
- 四、项目代码
- - 1. 导入项目所需的库
  - 2. 读取数据集
  - 3. 检查缺失值
  - ★ 探索性数据分析（EDA）：
  - 4.可视化目标变量 "Purchase" (购买金额)
  - 5. 统计"Gender"（性别）列
  - 6. 统计"Marital Status"（婚姻状况）列
  - 7. 统计"Occupation"（职业）列
  - 8. 统计"City_Category"（城市类别）列
  - 9. 统计"Stay_In_Current_City_Years"（在当前城市居住的年数）列
  - 10. 统计"Age"（年龄）列
  - 11. 统计"Product_Category_1"（产品类别1）列
  - 12. 统计"Product_Category_2"（产品类别2）列
  - 13. 统计"Product_Category_3"（产品类别3）列
  - 14. 绘制列之间的相关性热力图
  - ★ 数据处理：
  - 15. 对分类变量进行编码
  - 16. 缺失值替换
  - 17. 删除不相关的列
  - 18. 划分训练集和测试集
  - ★ 构建模型：
  - 19. 构建线性回归模型
  - 20. 构建决策树回归器（DecisionTreeRegressor）模型
  - 21. 构建随机森林回归器（Random Forest Regressor）模型
  - 22. 构建XGBoost回归器模型
- 五、总结

一、项目背景

黑色星期五是美国感恩节后的星期五，通常被称为黑色星期五。感恩节在每年11月的第四个星期四庆祝。自1952年起，感恩节后的第二天被视为美国圣诞购物季的开始，尽管直到最近几十年，"黑色星期五"这个术语才变得广泛使用。许多商店在黑色星期五提供大力推广的促销活动，非常早就开门，比如午夜，甚至可能在感恩节当天就开始销售。对于零售店或电子商务企业来说，最大的挑战是选择产品价格，以便在销售结束时获得最大利润。我们的项目涉及根据历史零售店销售数据确定产品价格。在生成预测之后，我们的模型将帮助零售店确定产品的价格以获取更多利润。

二、问题描述

一家零售公司希望了解顾客在不同类别的各种产品上的购买行为（具体来说，购买金额）。他们分享了上个月各个高销量产品的顾客购买摘要。数据集还包含顾客的人口统计信息（年龄、性别、婚姻状况、城市类型、停留在当前城市的时间）、产品详情（产品ID和产品类别）以及上个月的总购买金额。
现在，他们希望构建一个模型来预测顾客在各种产品上的购买金额，这将帮助他们为不同产品制定个性化的优惠。

三、数据集描述

本项目采用的数据集是通过Analytics Vidhya主办的在线数据分析黑客马拉松获得的。数据包含年龄、性别、婚姻状况、购买的产品类别、城市人口统计信息、购买金额等特征。该数据集共有12列和537,577条记录。我们的模型将通过训练该数据集来预测产品的购买金额。
您可以通过下面百度网盘链接下载项目所需的数据集：数据集下载链接

数据集具体变量定义如下：
• User_ID: 用户ID
• Product_ID: 产品ID
• Gender: 用户性别
• Age: 年龄段
• Occupation: 职业（出于隐私保护，已对数据进行替换处理）
• City_Category: 城市分类（A、B、C）
• Stay_In_Current_City_Years: 在当前城市居住的年数
• Marital_Status: 婚姻状况
• Product_Category_1: 产品类别（出于隐私保护，已对数据进行替换处理）
• Product_Category_2: 产品可能属于其他类别（出于隐私保护，已对数据进行替换处理）
• Product_Category_3: 产品可能属于其他类别（出于隐私保护，已对数据进行替换处理）
• Purchase: 购买金额（目标变量）

四、项目代码

1. 导入项目所需的库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

这段代码导入了一些常用的数据分析和可视化库，包括NumPy、Pandas、Matplotlib和Seaborn：

• import numpy as np：导入NumPy库，并将其命名为np。NumPy是用于进行数值计算和数组操作的Python库。
• import pandas as pd：导入Pandas库，并将其命名为pd。Pandas是一个强大的数据分析库，提供了用于处理和分析数据的数据结构和函数。
• import matplotlib.pyplot as plt：导入Matplotlib库中的pyplot模块，并将其命名为plt。Matplotlib是一个用于创建静态、动态和交互式可视化的绘图库。
• import seaborn as sns：导入Seaborn库，并将其命名为sns。Seaborn是一个基于Matplotlib的数据可视化库，提供了更高级别的接口和美观的图形主题。

通过导入这些库，您可以使用它们提供的函数和工具来进行数据分析、数据可视化以及其他相关任务。

2. 读取数据集

data = pd.read_csv("BlackFridaySales.csv")
data.head()

• 运行结果如下：

这段代码加载了一个名为"BlackFridaySales.csv"的CSV文件，并使用Pandas库中的read_csv()函数将其读取为一个数据框（DataFrame）对象，并将该对象存储在名为data的变量中。
• pd.read_csv("BlackFridaySales.csv")：使用Pandas库的read_csv()函数读取名为"BlackFridaySales.csv"的CSV文件。CSV文件是一种常见的以逗号分隔值的文件格式，用于存储表格数据。read_csv()函数会将CSV文件解析为一个数据框对象，并返回该对象。
• data.head()：使用head()函数显示data数据框的前几行，默认情况下是前五行。该函数用于快速查看数据框的内容，以确保数据正确加载并了解数据的结构。

通过这段代码，将数据集文件中的数据加载到名为data的数据框中，并使用data.head()函数查看了数据框的前几行。

查看数据集的形状：

data.shape

• 运行结果如下：

我们使用 data.shape 来获取数据框 data 的形状信息。运行结果 (550068, 12) 表示数据框 data 包含 550,068 行和 12 列的数据。这意味着原始 CSV 文件中有 550,068 条记录（每一行代表一条记录），并且每条记录包含 12 个不同的属性或特征（每一列代表一个属性）。

查看 data 的详细信息：

data.info()

• 运行结果如下：

data.info() 提供了数据框 data 的详细信息摘要。下面是对输出结果的解释：

• 表明 data 是一个 Pandas 数据框（DataFrame）对象。
• RangeIndex: 550068 entries, 0 to 550067 表示数据框的索引范围是从 0 到 550067，共有 550068 条记录。
• Data columns (total 12 columns): 表明数据框共有 12 列。

接下来的表格显示了每一列的详细信息：

• Column 列出了列的名称。
• Non-Null Count 显示了每列的非空值数量，即没有缺失值的记录数。
• Dtype 显示了每列的数据类型。
• 最后一行显示了数据框的内存占用情况，表示整个数据框的内存占用为 50.4+ MB。

根据这些信息，我们可以了解到数据框 data 中的各个列的名称、非空值的数量、数据类型以及整个数据框的内存占用情况。此外，还可以看到有两列（Product_Category_2 和 Product_Category_3）存在缺失值，因为它们的非空值数量少于总记录数。这个信息摘要有助于进一步了解数据的结构、数据类型和缺失值情况，为后续的数据处理和分析提供了基础。

3. 检查缺失值

检查缺失值的作用是为了了解数据集中是否存在缺失数据，即某些观测值或特征的值是空的或未记录的。缺失值可能对数据分析和建模产生不良影响，因此检查缺失值具有以下重要作用：

1. 数据完整性：检查缺失值可以帮助确保数据集的完整性。缺失数据可能导致信息不完整，从而影响分析和模型的准确性。
2. 数据处理：在进行数据处理和分析之前，需要了解数据中的缺失值情况。根据缺失值的分布和类型，可以选择适当的处理方法，如删除包含缺失值的行/列、填充缺失值或使用其他插补技术。
3. 特征选择：缺失值的存在可能会导致特征的信息缺失或偏差。通过检查缺失值，可以评估每个特征的缺失比例，进而决定是否保留或舍弃某些特征。
4. 模型建立：许多机器学习算法对缺失值敏感，因此在构建模型之前，需要处理或填充缺失值。检查缺失值有助于决定处理缺失值的方法，以确保模型的准确性和可靠性。

检查缺失值是数据预处理的关键步骤，它能够帮助我们理解数据的完整性、决策数据处理方法，并确保建立准确和可靠的模型。我们可以通过以下代码检查数据集的缺失值分布情况：

data.isnull().sum()

• 运行结果如下：

data.isnull() 返回一个与数据框 data 大小相同的布尔值数据框，其中每个元素表示对应位置是否为空值。接着，.sum() 对布尔值数据框进行求和操作，统计每列的空值数量。
下面是对输出结果的解释：

• 每列的名称是输出结果的索引。
• 每列的数值表示该列中的空值数量。

根据输出结果，可以得出以下信息：

• Product_Category_2 列中有 173638 个空值，表示该列有 173638 条记录缺失了数据。
• Product_Category_3 列中有 383247 个空值，表示该列有 383247 条记录缺失了数据。

这个结果表明了每列中缺失值的数量。缺失值表示某些记录在相应列中没有提供数据。了解缺失值的分布情况有助于我们在后续的数据处理和分析中选择合适的方法来处理这些缺失值，例如填充、删除或插值等。

★ 探索性数据分析（EDA）：

探索性数据分析（Exploratory Data Analysis，简称EDA）是一种数据分析方法，旨在通过可视化和统计技术来了解数据集的特征、发现模式、检测异常值，并获取对数据的初步洞察。EDA是数据分析的关键步骤，有助于为后续的建模和推断性分析做好准备。
以下是探索性数据分析的一些常见任务和目的：

• 1. 数据摘要：通过计算数据集的描述性统计量（如均值、中位数、标准差等），了解数据的分布、中心趋势和离散程度。
• 2. 数据可视化：通过绘制图表（如直方图、箱线图、散点图等）来可视化数据的分布、关系和趋势。可视化可以帮助发现数据中的模式、异常值和关联性。
• 3. 特征相关性：通过计算特征之间的相关系数或绘制相关矩阵热图，了解特征之间的相关性。这有助于确定哪些特征对目标变量有重要影响，以及特征之间是否存在多重共线性。
• 4. 缺失值和异常值处理：通过检查缺失值和异常值的分布和模式，决定如何处理它们。可以使用插补方法填充缺失值，并选择适当的异常值处理策略。
• 5. 数据分布和偏度：通过观察数据的分布和偏度情况，了解数据的形态和分布特征。这对于选择适当的建模技术和转换数据（如对数转换或归一化）具有重要意义。
• 6. 群集和聚类分析：通过应用聚类算法（如K均值聚类、层次聚类等），将数据样本划分为不同的群集，并探索样本之间的相似性和差异性。

通过EDA，我们能够深入了解数据集，发现数据的特征和规律，并为后续的数据预处理、特征工程和建模过程提供基础。EDA有助于提高数据分析的准确性、可靠性和解释性，同时也有助于生成新的研究假设和发现新的洞察。下面是探索性数据分析的具体实现。

4.可视化目标变量 “Purchase” (购买金额)

sns.distplot(data["Purchase"],color='r')
plt.title("Purchase Distribution")
plt.show()

• 运行结果如下：

这段代码使用了Seaborn库和Matplotlib库来绘制名为"Purchase"的列的分布图：

• sns.distplot(data["Purchase"], color='r')：这行代码使用Seaborn库中的distplot()函数绘制了"Purchase"列的分布图。data["Purchase"]表示从数据框data中选择"Purchase"列的数据作为绘图的输入。color='r'表示设置绘图的颜色为红色。distplot()函数绘制直方图并估计核密度曲线，以显示数据的分布情况。
• plt.title("Purchase Distribution")：这行代码使用Matplotlib库中的title()函数设置图形的标题为"Purchase Distribution"，用于描述图形的主题或内容。
• plt.show()：这行代码显示生成的图形。

通过这段代码，您可以查看"Purchase"列的分布情况，并了解该列中数值的分布范围、峰值和形状。图形的横轴表示"Purchase"的数值，纵轴表示相应数值的频率或概率密度。这样的可视化可以帮助您对"Purchase"数据的整体分布有一个直观的了解。

sns.boxplot(data["Purchase"])
plt.title("Boxplot of Purchase")
plt.show()

• 运行结果如下：

• 运行结果如下：
这段代码使用了Seaborn库和Matplotlib库来绘制名为"Purchase"的列的箱线图：

• sns.boxplot(data["Purchase"])：这行代码使用Seaborn库中的boxplot()函数绘制了"Purchase"列的箱线图。data["Purchase"]表示从数据框data中选择"Purchase"列的数据作为绘图的输入。箱线图用于显示数据的分布情况，包括中位数、四分位数、异常值等。
• plt.title("Boxplot of Purchase")：这行代码使用Matplotlib库中的title()函数设置图形的标题为"Boxplot of Purchase"，用于描述图形的主题或内容。
• plt.show()：这行代码显示生成的图形。

通过这段代码，您可以查看"Purchase"列的箱线图，以了解该列中数值的分布情况，包括中位数、四分位数、异常值等。箱线图可以帮助您判断数据的离散程度、异常值的存在以及数据的集中趋势。

下面查看 “Purchase” 的列的偏度：

data["Purchase"].skew()

• 运行结果如下：

代码data["Purchase"].skew() 是一个函数调用，用于计算数据框 data 中名为 “Purchase” 的列的偏度（skewness）。

偏度是描述数据分布偏斜程度的统计量，它衡量了数据分布的不对称性。当偏度为正值时，表示数据分布右偏（正偏），即数据的尾部在右侧延伸，也就是数据集中的值偏向较小的一侧；当偏度为负值时，表示数据分布左偏（负偏），即数据的尾部在左侧延伸，数据集中的值偏向较大的一侧；当偏度接近于0时，表示数据分布相对对称。
通过运行 data["Purchase"].skew()，可以得到 “Purchase” 列的偏度值。这个值可以帮助我们判断数据分布的偏斜程度，从而了解数据的整体特征。
（请注意，偏度只提供了数据分布的一个方面信息，更全面的数据分布分析还需要结合其他统计量和图形化分析方法来进行。）

该运行结果表示 “Purchase” 列的偏度为 0.6001400037087128。根据输出结果，我们可以得出结论：
• “Purchase” 列的偏度为正值（0.6001400037087128），说明该列的数据分布略微呈现右偏形态。
• 右偏表明数据的尾部在右侧延伸，也就是数据集中的值偏向较小的一侧。

这个结果表明在 “Purchase” 列中，较小的购买金额的值较为集中，而较大的购买金额的值相对较少。然而，由于偏度值并不是非常大，因此数据分布的右偏程度并不明显。

下面查看 “Purchase” 的列的峰度：

data["Purchase"].kurtosis()

• 运行结果如下：

代码data["Purchase"].kurtosis() 是一个函数调用，用于计算数据框 data 中名为 “Purchase” 的列的峰度（kurtosis）。

峰度是描述数据分布峰态的统计量，它衡量了数据分布的尖锐程度或厚尾程度。正常分布的峰度为3，如果数据的峰度大于3，则表示数据分布比正态分布更尖锐（尖峰），而如果数据的峰度小于3，则表示数据分布比正态分布更平缓（厚尾）。
通过运行 data["Purchase"].kurtosis()，可以得到 “Purchase” 列的峰度值。这个值可以帮助我们判断数据分布的尖锐程度或厚尾程度，从而了解数据的整体特征。
（请注意，峰度只提供了数据分布的一个方面信息，更全面的数据分布分析还需要结合其他统计量和图形化分析方法来进行。）

该运行结果表示 “Purchase” 列的峰度为 -0.3383775655851702。根据峰度的定义，正峰度值大于3表示数据分布尖峰，而负峰度值小于3表示数据分布厚尾。因此，根据输出结果，我们可以得出结论：

• “Purchase” 列的峰度为负值 -0.3383775655851702，表示数据分布相对于正态分布来说略微厚尾。

这个结果表明 “Purchase” 列的数据分布相对平缓，尾部相对较厚，不如正态分布的尾部那么尖锐。峰度值接近于0，说明数据相对于正态分布来说并没有明显的尖峰或厚尾特征。

下面查看 “Purchase” 的列的基本统计描述信息：

data["Purchase"].describe()

• 运行结果如下：

代码data["Purchase"].describe() 是一个函数调用，用于计算数据框 data 中名为 “Purchase” 的列的基本统计描述信息。该函数会计算 “Purchase” 列的以下统计量：

• count：非空值的数量。
• mean：平均值。
• std：标准差。
• min：最小值。
• 25%：第一四分位数。
• 50%：中位数（第二四分位数）。
• 75%：第三四分位数。
• max：最大值。

过运行 data["Purchase"].describe()，我们可以得到关于 “Purchase” 列的重要统计信息：

• “Purchase” 列共有 550,068 个非空值。
• 平均购买金额为 9,263.97。
• 购买金额的标准差为 5,023.07，说明购买金额的变动较大。
• 购买金额的最小值为 12，最大值为 23,961。
• 25% 的数据小于或等于 5,823，50% 的数据小于或等于 8,047，75% 的数据小于或等于 12,054。

这些统计量提供了关于数据分布、中心位置、离散程度以及数据的最大和最小值的信息。它们有助于描述和总结 “Purchase” 列的数据特征，帮助我们了解数据的整体情况。

5. 统计"Gender"（性别）列

可视化男女性别的频数分布情况：

sns.countplot(data['Gender'])
plt.show()

• 运行结果如下：

这段代码使用了 seaborn（sns）和 matplotlib 库来创建一个针对数据框 data 中 “Gender” 列的计数柱状图，并显示图形。具体解释如下：

• sns.countplot(data['Gender'])：这行代码使用 seaborn 库的 countplot() 函数来创建一个计数柱状图。data['Gender'] 表示选择数据框 data 中的 “Gender” 列作为绘图的数据。countplot() 函数将根据 “Gender” 列的不同取值进行计数，并将结果可视化为柱状图。
• plt.show()：这行代码使用 matplotlib 库的 show() 函数来显示图形。在创建完图形后，调用 show() 函数将图形显示出来。

通过这个图形，可以直观地了解 “Gender” 列的数据分布和类别计数情况。

下面查看男女性别的占比分布：

data['Gender'].value_counts(normalize=True)*100

• 运行结果如下：

通过运行 data['Gender'].value_counts(normalize=True)*100，我们得到了 “Gender”（性别）列每个类别的频率百分比。结果表明，在数据集中，男性的比例为 75.31%，女性的比例为 24.69%。这些百分比可以帮助我们了解样本中不同性别的分布情况，并进行进一步的分析。

查看不同性别的购买金额平均水平：

grouped_data = data.groupby("Gender")["Purchase"].mean()
grouped_data

• 运行结果如下：

这段代码使用 groupby() 方法对数据框 data 按照 “Gender” 列进行分组，并计算每个分组中 “Purchase” 列的平均值。具体解释如下：

• data.groupby("Gender")：这部分代码使用 groupby() 方法将数据框 data 按照 “Gender” 列的唯一值进行分组。这将创建一个分组对象，其中包含了按照 “Gender” 列分组后的数据。
• ["Purchase"]：这部分代码指定了我们想要获取的列，即 “Purchase” 列。只选择 “Purchase” 列作为计算平均值的列。
• .mean()：这部分代码调用 mean() 方法，对分组后的 “Purchase” 列进行求平均操作。对于每个分组，计算 “Purchase” 列的平均值。

通过运行 grouped_data = data.groupby("Gender")["Purchase"].mean()，我们得到了按照 “Gender” 列分组后，每个组中 “Purchase” 列的平均值。将结果存储在名为 grouped_data 的变量中。结果表明，女性的平均购买金额为 8734.565765，男性的平均购买金额为 9437.526040。这些结果可以帮助我们了解不同性别之间的购买行为差异，以及在营销和市场策略中进行性别定向的决策依据。

6. 统计"Marital Status"（婚姻状况）列

可视化婚姻状况的频数分布情况：

sns.countplot(data['Marital_Status'])
plt.show()

• 运行结果如下：

该段代码创建一个计数柱状图，用于可视化数据框 data 中 “Marital_Status” 列的不同取值的频数。通过这个图形，可以直观地了解 “Marital_Status” 列的数据分布和类别计数情况。通过直方图可以发现，在该数据集中，未婚的比已婚的人数更多。

查看不同婚姻状况的购买金额平均水平：

grouped_data = data.groupby("Marital_Status")["Purchase"].mean()
grouped_data

• 运行结果如下：

这段代码使用 groupby() 方法对数据框 data 按照 “Marital_Status” 列进行分组，并计算每个分组中 “Purchase” 列的平均值。结果表明，未婚者的平均购买金额为 9265.907619，已婚者的平均购买金额为 9261.174574。这些结果可以帮助我们了解不同婚姻状况之间的购买行为差异，以及在营销和市场策略中进行婚姻状况定向的决策依据。

可视化按照 “Marital_Status” 列分组后的购买金额平均值:

grouped_data.plot(kind='bar')
plt.title("Marital_Status and Purchase Analysis")
plt.show()

• 运行结果如下：

我们可以发现，尽管未婚人士在购买上花费更多，但已婚和未婚人士的平均购买金额是相同的。

7. 统计"Occupation"（职业）列

可视化职业的频数分布：

plt.figure(figsize=(18,5))
sns.countplot(data['Occupation'])
plt.show()

• 运行结果如下：

* 注：由于隐私保护，原数据集已将职业用数字替换，每一个数字代表一类职业。
该段代码使用 seaborn 库的 countplot() 函数绘制了一个计数条形图，显示了不同职业的计数情况。通过这个图形，可以直观地了解每个职业的频数分布。

统计不同职业组的平均购买金额：

occup = pd.DataFrame(data.groupby("Occupation")["Purchase"].mean())
occup

运行结果如下：

这段代码根据 “Occupation” 列对数据进行分组，并计算每个职业组中 “Purchase” 列的平均值。结果被存储在一个名为 occup 的新数据框中。该数据可以用于进一步分析和可视化不同职业组的购买金额平均水平，帮助了解不同职业之间的购买行为差异。

可视化不同职业组的购买金额平均值：

occup.plot(kind='bar',figsize=(15,5))
plt.title("Occupation and Purchase Analysis")
plt.show()

• 运行结果如下：

该段代码根据按照职业分组后的购买金额平均值，创建一个条形图来可视化不同职业组的购买金额平均值。通过这个图形，可以直观地比较不同职业之间的购买金额差异。由统计直方图可以看出，尽管某些职业的的购买金额平均值更高，但每个用户的平均消费金额在各个职业间大致相同。

8. 统计"City_Category"（城市类别）列

可视化不同城市类别的频数分布：

sns.countplot(data['City_Category'])
plt.show()

• 运行结果如下：

这段代码使用 seaborn 库绘制了一个计数条形图，用于可视化 “City_Category” 列的计数情况。具体解释如下：

• sns.countplot(data['City_Category'])：这行代码使用 seaborn 库的 countplot() 函数绘制了一个计数条形图，显示了 “City_Category” 列中每个城市类别的计数。data['City_Category'] 表示从数据框中选择 “City_Category” 列作为绘图的数据。
• plt.show()：这行代码使用 matplotlib 库的 show() 函数显示图形。

通过条形图，可以发现B类城市频数分布最多，A类城市分布最少。

可视化按照城市类别分组后的购买金额平均值：

data.groupby("City_Category")["Purchase"].mean().plot(kind='bar')
plt.title("City Category and Purchase Analysis")
plt.show()

• 运行结果如下：

该段代码根据按照城市类别分组后的购买金额平均值，创建一个条形图来可视化不同城市类别的购买金额平均值。通过这个图形，可以直观地比较不同城市类别之间的购买金额差异。我们可以发现，C类城市的平均消费金额最多。

9. 统计"Stay_In_Current_City_Years"（在当前城市居住的年数）列

可视化不同城市类别的频数分布：

sns.countplot(data['Stay_In_Current_City_Years'])
plt.show()

• 运行结果如下：

根据条形图可以发现一个人在某个城市居住的时间越长，购买新物品的倾向就越低。因此，如果有人刚搬到一个新城市，并且需要很多新东西来装饰他们的房子，他们会利用黑色星期五的低价购买所有所需物品。

可视化按照停留年限分组后的购买金额平均值：

data.groupby("Stay_In_Current_City_Years")["Purchase"].mean().plot(kind='bar')
plt.title("Stay_In_Current_City_Years and Purchase Analysis")
plt.show()

• 运行结果如下：

根据统计图可以发现，刚来到城市的人负责更多的购买次数，然而，从个体来看，他们在无论在当前城市居住了多少年的情况下，花费的金额倾向是相同的。

10. 统计"Age"（年龄）列

可视化年龄的频数分布情况：

sns.countplot(data['Age'])
plt.title('Distribution of Age')
plt.xlabel('Different Categories of Age')
plt.show()

• 运行结果如下：

该段代码的作用是创建一个计数条形图，通过 seaborn 库的 countplot() 函数可视化了不同年龄段的计数情况。通过这个图形，可以直观地了解每个年龄段的频数分布。根据结果可以发现，年龄组为26-35岁的人群中，购买次数最多。

可视化按照年龄段分组后的购买金额平均值：

data.groupby("Age")["Purchase"].mean().plot(kind='bar')

• 运行结果如下：

该段代码根据按照年龄段分组后的购买金额平均值，创建一个条形图来可视化不同年龄段的购买金额平均值。通过这个图形，可以直观地比较不同年龄段之间的购买金额差异。我们可以发现在不同年龄组之间，平均购买率倾向于相同，只有51-55岁的年龄组的平均购买金额稍高一些。

可视化按照年龄段分组后的购买金额总和：

data.groupby("Age")['Purchase'].sum().plot(kind="bar")
plt.title("Age and Purchase Analysis")
plt.show()

• 运行结果如下：

该段代码根据按照年龄段分组后的购买金额总和，创建一个条形图来可视化不同年龄段的购买金额总和。通过这个图形，可以直观地比较不同年龄段之间的购买金额差异。我们可以发现，购买总金额与购买次数按年龄分布是一致的。

11. 统计"Product_Category_1"（产品类别1）列

可视化不同产品类别的频数分布情况：

plt.figure(figsize=(18,5))
sns.countplot(data['Product_Category_1'])
plt.show()

• 运行结果如下：

可视化按照 “Product_Category_1” 列分组后的购买金额平均值：

data.groupby('Product_Category_1')['Purchase'].mean().plot(kind='bar',figsize=(18,5))
plt.title("Product_Category_1 and Purchase Mean Analysis")
plt.show()

• 运行结果如下：

该段代码根据按照产品类别分组后的购买金额平均值，创建一个条形图来可视化不同产品类别的购买金额平均值。通过这个图形，可以直观地比较不同产品类别之间的购买金额差异。根据运行结果你会发现尽管1、5、8类别的产品购买数量更多，但这三个类别的平均消费金额并不是最高的。有趣的是，尽管对销售数量影响较小，但其他类别出现了高额购买金额。

可视化按照 “Product_Category_1” 列分组后的购买金额总和：

data.groupby('Product_Category_1')['Purchase'].sum().plot(kind='bar',figsize=(18,5))
plt.title("Product_Category_1 and Purchase Analysis")
plt.show()

• 运行结果如下：

该段代码根据按照产品类别分组后的购买金额总和，创建一个条形图来可视化不同产品类别的购买金额总和。通过这个图形，可以直观地比较不同产品类别之间的购买金额差异。

12. 统计"Product_Category_2"（产品类别2）列

可视化不同产品类别的频数分布情况：

plt.figure(figsize=(18,5))
sns.countplot(data['Product_Category_2'])
plt.show()

• 运行结果如下：

13. 统计"Product_Category_3"（产品类别3）列

可视化不同产品类别的频数分布情况：

plt.figure(figsize=(18,5))
sns.countplot(data['Product_Category_3'])
plt.show()

• 运行结果如下：

14. 绘制列之间的相关性热力图

计算数值列之间的相关性：

string_columns = data.select_dtypes(include=['object']).columns
data1 = data.drop(string_columns, axis=1)
data1.corr()

• 运行结果如下：

这段代码的作用是计算数据框 data 中数值列之间的相关性。具体解释如下：

• string_columns = data.select_dtypes(include=['object']).columns：这行代码使用 select_dtypes() 方法选择数据框中数据类型为 “object”（字符串）的列，并将这些列的列名存储在 string_columns 变量中。
• data1 = data.drop(string_columns, axis=1)：这行代码使用 drop() 方法删除数据框 data 中的 string_columns 列，即将数据框中的字符串列移除，并将结果存储在 data1 变量中。
• data1.corr()：这部分代码调用 corr() 方法计算 data1 数据框中数值列之间的相关性。结果是一个相关性矩阵，其中每个单元格表示对应两个列之间的相关性系数。

综合起来，该段代码的作用是将数据框 data 中的字符串列移除，然后计算数值列之间的相关性，得到一个相关性矩阵。这可以帮助我们了解数值列之间的线性相关程度，有助于发现变量之间的关联性。

然后，绘制列之间的相关性热力图：

sns.heatmap(data1.corr(),annot=True)
plt.show()

• 运行结果如下：

运行这段代码后，生成了一个热力图，其中展示了相关性矩阵 data1.corr() 中各个变量之间的相关性。在热力图中，每个单元格的颜色表示对应两个变量之间的相关性强度，颜色越深表示相关性越强，颜色越浅表示相关性越弱。此外，参数 annot=True 用于在热力图中显示相关性系数的数值。
通过观察热力图，可以更直观地了解不同变量之间的相关性模式。强正相关的变量在热力图中呈现深色方块，而强负相关的变量则呈现浅色方块。无相关性或较弱的相关性会在热力图中表现为中间色调或浅色。通过该可视化可以帮助我们发现变量之间的相关性模式，并为进一步的数据分析和建模提供有价值的洞察。
通过热力图我们可以发现，产品类别组之间存在一定的相关性。

★ 数据处理：

数据处理是指对原始数据进行清洗、转换和整理的过程，以便进行进一步的分析和应用。在数据处理过程中，通常会包括以下几个主要步骤：

数据清洗：识别和处理数据中的错误、缺失、异常或重复值。这包括去除无效或不完整的数据记录，填补缺失值，修复错误数据等。
数据转换：对数据进行转换，以满足分析或应用的需求。这可能包括对数据进行标准化、归一化、离散化、聚合等操作，以便于后续的统计分析或机器学习算法的应用。
特征选择：根据分析目标和问题的需要，选择最相关的特征或变量，而舍弃或删除不相关或冗余的特征。这有助于减少数据维度，提高模型的效率和解释性。
数据集成：将来自不同数据源或不同格式的数据进行合并和整合，以创建一个统一的数据集。这可以通过连接、合并、拼接等操作来完成。
数据规约：对大型数据集进行抽样、压缩或聚合，以减少数据量和存储需求，同时保持对整体数据集的代表性。
数据处理的可视化：使用图表、图形或可视化工具，对处理后的数据进行展示和探索，以便更好地理解数据的分布、关系和趋势。

通过这些数据处理步骤，可以清理和准备好的数据将更有利于后续的分析、建模和决策制定。数据处理的目标是提高数据的质量和可用性，使得数据能够为业务和研究带来更有价值的洞察和见解。

15. 对分类变量进行编码

创建副本：

df = data.copy()

对 df 进行独热编码：

df = pd.get_dummies(df, columns=['Stay_In_Current_City_Years'])

这两段代码先使用copy()方法创建了一个data数据帧的副本，并将其赋值给新的数据帧df，( 创建副本的目的是为了在进行数据处理和分析时保留原始数据的完整性,通过对副本进行操作，可以避免对原始数据帧产生不可逆的更改，以便在需要时可以回到原始数据的状态。) 然后对数据帧df中的Stay_In_Current_City_Years列进行独热编码处理，并将编码后的结果添加到df中。解释代码的作用：

pd.get_dummies(df, columns=['Stay_In_Current_City_Years']): 这行代码使用Pandas库的get_dummies()函数对df数据帧中的Stay_In_Current_City_Years列进行独热编码处理。columns=['Stay_In_Current_City_Years']指定了要进行独热编码处理的列名。

独热编码是一种将分类变量转换为二进制向量的方法。对于Stay_In_Current_City_Years列，如果有n个不同的取值，独热编码将创建n个新的二进制列，每个列表示原始列中的一个取值。对于每一行，只有对应取值的列为1，其他列为0。这样可以将分类变量转换为机器学习算法更易于处理的形式。
通过对df进行独热编码处理，可以将Stay_In_Current_City_Years列转换为多个二进制列，并将编码后的结果添加到df数据帧中。这样可以在进一步的数据分析和建模过程中使用这些编码后的列。

from sklearn.preprocessing import LabelEncoder
lr = LabelEncoder()

这段代码导入了sklearn.preprocessing模块中的LabelEncoder类，并创建了一个名为lr的LabelEncoder对象。下面解释代码的作用：

from sklearn.preprocessing import LabelEncoder: 这行代码从sklearn.preprocessing模块中导入LabelEncoder类。LabelEncoder用于将分类变量转换为数值标签，使得机器学习算法能够处理这些标签。
lr = LabelEncoder(): 这行代码创建了一个名为lr的LabelEncoder对象。lr对象是LabelEncoder类的实例，可以用于对分类变量进行标签编码。

通过导入LabelEncoder类并创建lr对象，您可以使用lr对象对分类变量进行标签编码，将其转换为数值标签。这样可以在机器学习算法中使用这些编码后的数值来进行训练和预测。

df['Gender'] = lr.fit_transform(df['Gender'])

这段代码使用先前创建的lr对象，对数据帧df中的Gender列进行标签编码，并将编码后的结果覆盖到原始的Gender列中。下面解释代码的作用：

df['Gender']: 这部分代码指定了要操作的列为df数据帧中的Gender列。
lr.fit_transform(df['Gender']): 这部分代码使用之前创建的lr对象，对Gender列进行标签编码转换。fit_transform()方法首先对Gender列进行拟合（学习标签编码的映射关系），然后对该列进行转换得到编码后的结果。
df['Gender'] = lr.fit_transform(df['Gender']): 这部分代码将编码后的结果覆盖到原始的Gender列中，实现了对Gender列的标签编码操作。

标签编码将分类变量转换为整数标签，其中每个不同的类别将映射到一个唯一的整数值。通过将分类变量转换为数值标签，可以在机器学习算法中更好地处理这些特征，并帮助算法理解类别之间的相对关系。

df['Age'] = lr.fit_transform(df['Age'])

这段代码使用先前创建的lr对象，对数据帧df中的Age列进行标签编码，并将编码后的结果覆盖到原始的Age列中。

df['City_Category'] = lr.fit_transform(df['City_Category'])

这段代码使用先前创建的lr对象，对数据帧df中的City_Category列进行标签编码，并将编码后的结果覆盖到原始的City_Category列中。

查看编码后的数据帧前五行：

df.head()

• 运行结果如下：

可以看到进行了标签编码之后，Gender、Age和City_Category列现在的数据变成了整数值，而不是之前的分类变量。

16. 缺失值替换

df['Product_Category_2'] =df['Product_Category_2'].fillna(0).astype('int64')
df['Product_Category_3'] =df['Product_Category_3'].fillna(0).astype('int64')

这段代码对数据帧df中的Product_Category_2列和Product_Category_3列进行缺失值处理，并将缺失值替换为0，并将列的数据类型转换为整数类型（int64），以便于数据更适合进行后续的分析和建模。

下面查看数据帧 df 每列的缺失值情况：

df.isnull().sum()

• 运行结果如下：

可以看到，现在数据帧已没有缺失值，下面可以对数据进行进一步的分析和处理。

17. 删除不相关的列

df = df.drop(["User_ID","Product_ID"],axis=1)

这段代码从数据帧df中删除了名为User_ID和Product_ID的两列，这是因为它们在分析或建模过程中不被使用，删除它们可以减少数据集的维度，简化分析过程，提高分析效率和速度。

18. 划分训练集和测试集

X = df.drop("Purchase",axis=1)
y = df['Purchase']

这段代码将数据帧df中的Purchase列作为目标变量，并将其从df中删除，然后将剩余的列作为特征矩阵赋值给变量X，将Purchase列赋值给变量y。通过这段代码将数据帧df被拆分成了特征矩阵X和目标变量y。X包含了除了Purchase列以外的所有特征列，用于训练模型。y包含了Purchase列的值，用作模型的目标进行训练和预测。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

这段代码使用train_test_split函数从特征矩阵X和目标变量y中划分出训练集和测试集。下面解释代码的作用：

train_test_split(X, y, test_size=0.3, random_state=123): 这部分代码调用train_test_split函数进行数据集划分。参数X表示特征矩阵，y表示目标变量。test_size=0.3表示测试集的比例为30%，训练集的比例为70%。random_state=123是一个随机种子，用于控制随机划分的过程，保证每次运行代码时得到的划分结果相同。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123): 这部分代码将train_test_split函数返回的划分结果分别赋值给变量X_train、X_test、y_train和y_test。其中，X_train和y_train表示训练集的特征矩阵和目标变量，X_test和y_test表示测试集的特征矩阵和目标变量。

通过这段代码，特征矩阵X和目标变量y被划分为训练集和测试集。训练集用于训练机器学习模型，测试集用于评估模型的性能和泛化能力。划分过程使用了30%的数据作为测试集，并使用随机种子保证了划分结果的可复现性。

★ 构建模型：

19. 构建线性回归模型

线性回归是一种用于建模和预测连续数值变量的统计分析方法。它基于线性关系假设，通过拟合一个直线或超平面来描述自变量（输入特征）与因变量（输出目标）之间的关系。
线性回归模型的基本形式可以表示为：Y = β0 + β1X1 + β2X2 + … + βnXn + ε
其中，Y表示因变量（要预测的目标变量），X1、X2、…、Xn表示自变量（输入特征），β0、β1、β2、…、βn表示模型的参数（斜率），ε表示误差项（随机噪声）。模型的目标是通过调整参数的取值，使得预测值与真实值之间的差距最小化。
线性回归模型可以通过最小二乘法来估计参数的取值。最小二乘法的目标是最小化残差平方和，即使得预测值与真实值之间的平方差异最小化。
线性回归模型的优点包括简单易于理解和实现，计算效率高，适用于大规模数据集。然而，线性回归也有一些限制，例如它假设自变量和因变量之间的关系是线性的，忽略了非线性关系；还有可能存在多重共线性、异方差性等问题，需要进行适当的处理和检验。
在实际应用中，线性回归模型可以用于预测房价、销售量、股票价格等连续数值变量的问题。

首先导入scikit-learn库的线性回归模型：

from sklearn.linear_model import LinearRegression

这段代码导入了LinearRegression线性回归模型类，该类是scikit-learn库中的一个模型类。通过这段代码，您可以在代码中使用LinearRegression类来构建线性回归模型。

对模型进行训练：

lr = LinearRegression()
lr.fit(X_train,y_train)

这段代码创建了一个LinearRegression线性回归模型的实例，并使用训练集数据对模型进行训练。下面解释代码的作用：

lr = LinearRegression(): 这部分代码创建了一个LinearRegression的实例，将其赋值给变量lr。这个实例化的对象将用于构建线性回归模型。
lr.fit(X_train, y_train): 这部分代码使用训练集数据X_train和y_train对线性回归模型进行训练。fit()方法将根据训练数据拟合模型，学习特征和目标之间的线性关系。

通过这段代码，线性回归模型lr被实例化，并使用训练集数据进行训练。模型通过学习训练数据中的特征和目标之间的线性关系，尝试找到最佳的回归函数，以便对测试集数据进行预测。

查看线性回归模型中的截距值：

lr.intercept_

• 运行结果如下：

lr.intercept_ 是线性回归模型中的一个属性，用于获取模型的截距值（intercept）。截距值表示当所有特征的取值都为0时，目标变量的预测值。
在这个例子中，输出结果 9536.400764131557 表示线性回归模型的截距项的数值为 9536.400764131557。这意味着当所有特征的取值都为0时，模型预测的目标变量（在此处为"Purchase"）的平均值或基准值为 9536.400764131557。
截距值在线性回归中很重要，它对模型的预测结果起到偏移的作用。当特征的取值不全为0时，截距值会对预测结果进行调整。通过获取截距值，我们可以了解模型在特征为0的情况下的基准预测值。

查看线性回归模型的系数：

lr.coef_

• 运行结果如下：

运行代码 lr.coef_ 的输出结果是一个数组：

array([ 465.82318446,  112.36643445,    5.05508596,  314.06766138,
        -58.23217776, -348.4514785 ,   12.98415047,  143.49190467,
        -20.83796687,    5.4676518 ,   17.68367185,   -3.96751734,
          1.65416056])

lr.coef_ 是线性回归模型中的一个属性，用于获取模型的系数（coefficients）。这些系数对应于模型中各个特征的权重，表示特征对目标变量的影响程度。
在这个例子中，输出结果表示线性回归模型中每个特征的系数值，系数的顺序与特征在训练过程中的顺序相对应。根据输出的数组元素顺序，可以对应如下特征：

• 第一个系数（465.82318446）对应着 Gender 特征。
• 第二个系数（112.36643445）对应着 Age 特征。
• 第三个系数（5.05508596）对应着 Occupation 特征。
• 第四个系数（314.06766138）对应着 City_Category 特征。
• 第五个系数（-58.23217776）对应着 Marital_Status 特征。
• 第六个系数（-348.4514785）对应着 Product_Category_1 特征。
• 第七个系数（12.98415047）对应着 Product_Category_2 特征。
• 第八个系数（143.49190467）对应着 Product_Category_3 特征。
• 第九个系数（-20.83796687）对应着 Stay_In_Current_City_Years_0 特征。
• 第十个系数（5.4676518）对应着 Stay_In_Current_City_Years_1 特征。
• 第十一个系数（17.68367185）对应着 Stay_In_Current_City_Years_2 特征。
• 第十二个系数（-3.96751734）对应着 Stay_In_Current_City_Years_3 特征。
• 第十三个系数（1.65416056）对应着 Stay_In_Current_City_Years_4+ 特征。

这些系数值表示了每个特征对目标变量（在此处为"Purchase"）的影响程度。正系数表示正相关关系，即特征增加时目标变量也会增加，而负系数表示负相关关系，即特征增加时目标变量会减少。系数的绝对值越大，表示特征对目标变量的影响越大。通过查看 lr.coef_ 的值，可以了解线性回归模型中每个特征的权重，从而理解模型对特征的建模结果。

对测试集进行预测：

y_pred = lr.predict(X_test)

下面解释代码的作用：

lr.predict(X_test): 这部分代码调用线性回归模型 lr 的 predict() 方法，传入测试集数据 X_test 作为参数。该方法根据已训练的模型对测试集数据进行预测，并返回预测结果。
y_pred = lr.predict(X_test): 这部分代码将预测结果存储在变量 y_pred 中。y_pred 是一个数组，其中包含了对测试集数据的预测值。

通过这段代码，我们使用训练好的线性回归模型 lr 对测试集数据进行预测，得到预测结果存储在变量 y_pred 中。这样，我们就可以与实际的目标变量 y_test 进行比较，评估模型的预测性能。

from sklearn.metrics import mean_absolute_error,mean_squared_error, r2_score

这段代码导入了三个评估回归模型性能的指标：
• mean_absolute_error：平均绝对误差（MAE），用于评估预测值与真实值之间的平均绝对差异。
• mean_squared_error：均方误差（MSE），用于评估预测值与真实值之间的平均平方差异。
• r2_score：确定系数（R^2），用于评估模型对目标变量方差的解释程度。

这些指标可以用来评估线性回归模型的性能和预测准确度。

计算平均绝对误差（MAE）：

mean_absolute_error(y_test, y_pred)

• 运行结果如下：

mean_absolute_error(y_test, y_pred) 的作用是计算预测值 y_pred 和真实值 y_test 之间的平均绝对误差（Mean Absolute Error, MAE）。它衡量了预测值与真实值之间的平均绝对差异，用于评估模型的预测准确度。
输出结果 3532.0692261658432 是预测值 y_pred 和真实值 y_test 之间的平均绝对误差。该值表示预测值与真实值之间的平均差异程度。通常较小的 MAE 值表示模型的预测能力较好，因为它表示模型的预测值与真实值的平均绝对差异较小。

计算均方误差（MSE）：

mean_squared_error(y_test, y_pred)

• 运行结果如下：

mean_squared_error(y_test, y_pred) 的作用是计算预测值 y_pred 和真实值 y_test 之间的均方误差（Mean Squared Error, MSE）。它衡量了预测值与真实值之间的平均平方差异，用于评估模型的预测准确度。
输出结果 21397853.26940752 是预测值 y_pred 和真实值 y_test 之间的均方误差。该值表示预测值与真实值之间的平均平方差异程度。通常较小的 MSE 值表示模型的预测能力较好，因为它表示模型的预测值与真实值的平均平方差异较小。

计算确定系数（ $R^2$ ）：

r2_score(y_test, y_pred)

• 运行结果如下：

r2_score(y_test, y_pred) 的作用是计算预测值 y_pred 和真实值 y_test 之间的确定系数（R^2 score）。确定系数衡量了模型对目标变量方差的解释程度，用于评估模型的拟合优度。
输出结果 0.15192944521481666 是预测值 y_pred 和真实值 y_test 之间的确定系数。确定系数的取值范围在 0 到 1 之间，越接近 1 表示模型对目标变量的解释能力越好。在这种情况下，输出结果约为 0.15，意味着模型对目标变量的解释能力较低，只能解释目标变量方差的约15%。

计算均方根误差（RMSE）：

from math import sqrt
print("RMSE of Linear Regression Model is ",sqrt(mean_squared_error(y_test, y_pred)))

• 运行结果如下：

首先，from math import sqrt 导入了 math 模块中的 sqrt 函数，该函数用于计算给定数字的平方根。
然后，print("RMSE of Linear Regression Model is ", sqrt(mean_squared_error(y_test, y_pred))) 将打印输出一个字符串和计算得到的 RMSE 值。
输出结果 "RMSE of Linear Regression Model is 4625.781368526567" 表示线性回归模型的均方根误差为约 4625.78。RMSE 是均方误差的平方根，用于衡量模型的预测误差。较小的 RMSE 值表示模型的预测能力较好，因为它表示模型的预测值与真实值之间的平均差异较小。

20. 构建决策树回归器（DecisionTreeRegressor）模型

决策树回归器（Decision Tree Regressor）是一种用于回归问题的决策树算法。与分类问题中的决策树类似，决策树回归器使用树状结构来建立预测模型，但其目标是预测连续数值的目标变量。
决策树回归器的构建过程如下：

数据准备：准备包含输入特征和目标变量的训练数据集。
特征选择：根据一定的指标（例如平方误差或方差减少），选择最佳的特征作为当前节点的分裂依据。
分裂节点：根据选定的特征和分裂依据，将当前节点分裂为多个子节点。
递归建树：对于每个子节点，重复步骤2和步骤3，直到满足停止条件，如达到最大深度或节点样本数量低于阈值。
叶节点预测：在叶节点上，使用目标变量的均值或其他统计量作为预测结果。
预测：对于新的输入样本，根据构建好的决策树回归器，沿着树的路径进行判断，最终到达叶节点并获得预测结果。

决策树回归器的优点包括易于理解和解释，能够处理非线性关系和离群值，对于缺失值有一定的容忍度。然而，它也容易过拟合训练数据，特别是在树的深度较大时。为了缓解过拟合，可以使用剪枝技术或集成学习方法，如随机森林。
决策树回归器在许多领域有广泛应用，如房价预测、股票价格预测、销售量预测等。它可以帮助我们理解和分析输入特征对于目标变量的影响，并进行预测和决策。

导入 scikit-learn 库中的 DecisionTreeRegressor 类：

from sklearn.tree import DecisionTreeRegressor

创建决策树回归模型的对象：

regressor = DecisionTreeRegressor(random_state = 0)

代码 regressor = DecisionTreeRegressor(random_state = 0) 创建了一个 DecisionTreeRegressor 类的对象 regressor。在创建对象时，使用了 random_state = 0 参数，用于设置随机种子，以确保每次运行模型时得到相同的结果。
在创建了 regressor 对象后，您可以使用该对象调用相关的方法和属性，例如 fit() 方法用于训练模型，predict() 方法用于进行预测等。

训练模型：

regressor.fit(X_train, y_train)

regressor.fit(X_train, y_train) 调用了决策树回归模型对象 regressor 的 fit() 方法，将训练数据集 X_train 和对应的目标变量 y_train 作为参数传递给 fit() 方法。这样，模型会根据训练数据来学习特征和目标变量之间的关系，并生成一个拟合的决策树回归模型。
在训练过程中，模型会根据特征的不同取值进行划分，并计算每个划分节点的最佳划分方式，以最小化目标变量的误差。通过不断迭代和优化，模型将生成一棵拟合训练数据的决策树模型。训练完成后，regressor 对象就包含了训练得到的决策树回归模型，可以用于对新的输入数据进行预测。

预测模型：

dt_y_pred = regressor.predict(X_test)

regressor.predict(X_test) 调用了决策树回归模型对象 regressor 的 predict() 方法，传入测试数据集 X_test 作为参数。模型会根据学习到的规则和划分准则，对测试数据集进行预测，并返回预测的目标变量值。预测结果会被存储在变量 dt_y_pred 中，每个元素表示对应测试样本的预测值。这样，您可以通过比较预测值和真实值（测试集的目标变量 y_test）来评估模型的性能和准确度。

计算平均绝对误差（MAE）：

mean_absolute_error(y_test, dt_y_pred)

• 运行结果如下：

在这个结果中，MAE 为 2372.04，这意味着决策树回归模型的平均预测误差约为 2372.04。

计算均方误差（MSE）：

mean_squared_error(y_test, dt_y_pred)

• 运行结果如下：

在这个结果中，MSE 为 11300579.47，这意味着决策树回归模型的平均预测误差的平方约为 11300579.47。

计算确定系数（ $R^2$ ）：

r2_score(y_test, dt_y_pred)

• 运行结果如下：

通过计算 R2 分数，可以评估决策树回归模型在测试数据集上的预测能力。R2 分数越接近 1，表示模型的拟合效果越好，能够解释目标变量的方差越多。在这个结果中，R2 分数为 0.552，说明决策树回归模型对目标变量的解释能力一般。

计算均方根误差（RMSE）：

print("RMSE of Linear Regression Model is ",sqrt(mean_squared_error(y_test, dt_y_pred)))

• 运行结果如下：

RMSE是用于评估回归模型预测性能的指标，它表示预测值与真实值之间差异的平均程度。RMSE的值与被预测的目标变量的单位相同，因此可以直观地了解模型的预测误差大小。在这个结果中，RMSE的值为3361.633452177241，表示决策树回归模型的预测值与真实值之间的平均差异约为3361.633。

21. 构建随机森林回归器（Random Forest Regressor）模型

随机森林回归器（Random Forest Regressor）是一种集成学习算法，它通过构建多个决策树并综合它们的预测结果来进行回归任务。它结合了决策树的高效性和集成学习的鲁棒性，适用于解决回归问题。
下面是随机森林回归器的主要步骤：

数据采样：从原始训练数据集中随机有放回地抽取一定数量的样本，形成一个子样本集。这个过程称为自助采样（bootstrap sampling）。
特征随机选择：从所有特征中随机选择一部分特征，一般来说，对于每个决策树而言，特征的选择个数是固定的。
决策树构建：基于子样本集和随机选择的特征，构建一颗决策树。决策树的构建过程中，对于每个节点，选择最佳的切分特征和切分点，使得划分后的子节点中样本的平方误差最小。
构建多个决策树：重复步骤2和3，构建多颗决策树。
预测结果：对于回归任务，将每棵决策树的预测结果综合起来，可以通过简单地取平均值来得到最终的预测结果。

随机森林回归器具有以下特点：

• 能够处理大量的输入特征，而且在特征数量很大的情况下仍能保持较好的性能。
• 对于缺失数据的处理具有较好的鲁棒性。
• 能够有效地处理非线性关系和交互作用。
• 具有较好的抗过拟合能力，因为每颗决策树都是基于不同的子样本和特征构建的。

随机森林回归器在实际应用中广泛使用，特别适用于预测问题，如房价预测、销售预测、股票价格预测等。它的集成特性使得模型更加稳健，并且可以通过调整决策树数量和特征选择策略来进行模型优化。

导入了随机森林回归模型：

from sklearn.ensemble import RandomForestRegressor

创建一个随机森林回归器对象：

RFregressor = RandomForestRegressor(random_state = 0)

训练模型：

RFregressor.fit(X_train, y_train)

上述代码使用随机森林回归器对象 RFregressor 对训练集数据进行训练。在训练过程中，随机森林回归器会使用多个决策树进行训练，每个决策树使用随机选择的样本和特征子集进行构建。通过对这些决策树的预测结果进行平均或投票，随机森林回归模型能够提供更准确和稳定的预测结果。训练完成后，RFregressor 对象就包含了训练好的随机森林回归模型，可以用于进行预测任务。

预测模型：

rf_y_pred = RFregressor.predict(X_test)

上述代码使用训练好的随机森林回归器 RFregressor 对测试集数据 X_test 进行预测，并将预测结果存储在变量 rf_y_pred 中。

计算平均绝对误差（MAE）：

mean_absolute_error(y_test, rf_y_pred)

• 运行结果如下：

在这个结果中，MAE 为 2222.05，这意味着随机森林回归模型的平均预测误差约为 2222.05。

计算均方误差（MSE）：

mean_squared_error(y_test, rf_y_pred)

• 运行结果如下：

在这个结果中，MSE 为 9310769.87，这意味着随机森林回归模型的平均预测误差的平方约为 9310769.87。

计算确定系数（ $R^2$ ）：

r2_score(y_test, rf_y_pred)

• 运行结果如下：

该结果表示随机森林回归模型对购买金额的预测与真实值之间的拟合程度为 0.6309821516972987，即模型能够解释目标变量的方差的约 63.1%。这意味着随机森林回归模型对购买金额的变化有一定的解释能力，但仍有一部分方差无法被模型解释。

计算均方根误差（RMSE）：

print("RMSE of Linear Regression Model is ",sqrt(mean_squared_error(y_test, rf_y_pred)))

• 运行结果如下：

在这个结果中，RMSE的值为3051.35541573242，表示随机森林回归模型的预测值与真实值之间的平均差异约为3051.355。

22. 构建XGBoost回归器模型

XGBoost（eXtreme Gradient Boosting）是一种强大的机器学习算法，用于解决回归问题。它是一种梯度提升框架，通过集成多个决策树来建立强大的预测模型。
XGBoost回归器的工作原理如下：

基本模型：XGBoost回归器由多个决策树组成，每个决策树称为"弱学习器"。初始时，将所有样本的预测值设为一个常数，这个常数是所有样本目标值的平均值。然后，通过迭代的方式，每次添加一个新的决策树来改善模型的性能。
损失函数：XGBoost使用梯度提升算法，通过最小化损失函数来训练模型。回归问题中，常用的损失函数是均方误差（Mean Squared Error）。算法通过计算预测值与实际值之间的误差，然后根据这些误差来更新模型，使预测值逐步逼近真实值。
特征分裂：在每次迭代中，XGBoost使用梯度提升算法来确定应该在哪个特征的哪个取值上进行分裂。它通过计算每个特征的增益（Gain），选择增益最大的特征和分裂点。这样可以使模型更好地捕捉特征之间的关系。
正则化：为了避免过拟合，XGBoost引入了正则化项。它使用了L1和L2正则化来约束模型的复杂度，防止过度拟合训练数据。
提升权重：为了进一步优化模型，XGBoost为每个样本分配一个权重，该权重表示模型对该样本的关注程度。在每次迭代中，算法会根据前一轮的预测误差调整样本的权重，使模型更加关注那些预测不准确的样本。

XGBoost回归器具有以下特点：

高性能：XGBoost使用并行计算和近似算法来提高训练和预测的速度。它在处理大规模数据集时表现出色，并且能够有效地处理高维特征。
鲁棒性：XGBoost对于缺失值和异常值具有一定的鲁棒性，能够处理各种类型的数据。
可解释性：XGBoost回归器可以提供特征重要性排序，帮助理解模型如何做出预测。
灵活性：XGBoost可以通过调整各种参数来优化模型的性能，包括树的数量、深度、学习率等。

导入XGBoost库中的XGBRegressor类：

from xgboost.sklearn import XGBRegressor

创建一个XGBoost回归模型的实例：

xgb_reg = XGBRegressor(learning_rate=1.0, max_depth=6, min_child_weight=40, seed=0)

这段代码创建了一个XGBoost回归模型的实例。在这个实例化过程中，我们使用了几个参数来配置模型的行为：

learning_rate：学习率控制每次迭代中模型权重的更新幅度。较低的学习率可以使模型更加稳定，但可能需要更多的迭代次数才能收敛。
max_depth：决策树的最大深度，它控制每棵树的复杂度。较大的深度可以提供更丰富的模型表示能力，但也容易过拟合。
min_child_weight：叶子节点的最小样本权重总和。用于控制决策树分裂的过程中是否继续分裂。较大的权重可以防止过拟合。
seed：随机种子，用于控制模型的随机性，以便使实验结果可重现。

通过调整这些参数，您可以对模型的复杂度、学习速率和随机性进行调优，以获得更好的性能和泛化能力。

训练模型：

xgb_reg.fit(X_train, y_train)

预测模型：

xgb_y_pred = xgb_reg.predict(X_test)

计算平均绝对误差（MAE）：

mean_absolute_error(y_test, xgb_y_pred)

• 运行结果如下：

在这个结果中，MAE 为 2144.86，这意味着XGBoost回归模型的平均预测误差约为 2144.86。

计算均方误差（MSE）：

mean_squared_error(y_test, xgb_y_pred)

• 运行结果如下：

在这个结果中，MSE 为8268802.18，这意味着XGBoost回归模型的平均预测误差的平方约为8268802.18。

计算确定系数（ $R^2$ ）：

r2_score(y_test, xgb_y_pred)

• 运行结果如下：

该结果表示XGBoost回归模型对购买金额的预测与真实值之间的拟合程度为 0.67227891659979，即模型能够解释目标变量的方差的约 67.2%，表示模型对数据的拟合效果较好。

计算均方根误差（RMSE）：

print("RMSE of Linear Regression Model is ",sqrt(mean_squared_error(y_test, xgb_y_pred)))

• 运行结果如下：

在这个结果中，RMSE的值为2875.5525007114747，表示XGBoost回归模型的预测值与真实值之间的平均差异约为2875.55。

五、总结

下面将上面几个模型的评估指标制作成表格，来对比不同模型的性能：

	线性回归	决策树回归	随机森林回归	XGBoost回归	指标说明
平均绝对误差 (MAE)	3532.07	2372.04	2222.05	★ 2144.86	MAE的值越小，表示模型的预测结果与真实值之间的差异越小，预测能力越好
均方误差 (MSE)	21397853.27	11300579.47	9310769.87	★ 8268802.18	MSE的值越小，表示模型的预测结果与真实值之间的差异越小，预测能力越好
确定系数 ( $R^2$ )	0.152	0.552	0.631	★ 0.672	R²的值越接近1表示模型对数据的拟合效果越好，越接近0表示模型对数据的拟合效果较差
均方根误差 (RMSE)	4625.78	3361.63	3051.36	★ 2875.55	RMSE越小表示模型的预测能力越好，即预测值与真实值之间的差异较小

通过对比不同模型的效果，可以得出以下结论：

平均绝对误差(MAE)：随机森林回归和XGBoost回归模型的MAE值较小，分别为2222.05和2144.86，表明这两个模型的预测结果与真实值之间的差异较小，预测能力较好。
均方误差(MSE)：XGBoost回归模型的MSE值最小，为8268802.18，说明该模型的预测结果与真实值之间的差异最小，预测能力最好。
确定系数( $R^2$ )：XGBoost回归模型的确定系数值最高，为0.672，说明该模型对数据的拟合效果较好，能够解释目标变量的方差的67.2%。
均方根误差(RMSE)：XGBoost回归模型的RMSE值最小，为2875.55，表明该模型的预测能力较好，预测值与真实值之间的差异较小。

综上所述，基于这些评估指标的比较，XGBoost回归模型在这个问题上表现最好，具有最佳的预测能力和拟合效果。注意，最终选择哪个模型还应考虑其他因素，例如模型的复杂度、训练时间和应用场景等。

以上就是本项目的全部内容，若想学习更多机器学习或数据分析项目，请关注CSDN本人的博客！如果本文章对您有帮助的话，记得点赞、收藏和分享哦！

你可能感兴趣的:(机器学习项目,数据分析,机器学习,数据挖掘,python,随机森林)

英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
Python 领域 vllm 安装与环境配置全攻略 Python编程之道 Python编程之道 python 开发语言 ai
Python领域vllm安装与环境配置全攻略关键词：Python、vllm、安装、环境配置、深度学习摘要：本文围绕Python领域中vllm的安装与环境配置展开，全面且深入地介绍了vllm的相关知识。首先阐述了背景信息，包括目的范围、预期读者、文档结构和术语表。接着详细讲解了vllm的核心概念与联系，分析其核心算法原理并给出具体操作步骤，还引入了相关数学模型和公式进行说明。通过项目实战，提供代码实
Docker跨架构部署实操油泼辣子多加算法实战 docker 架构 java
需求场景python项目，开发环境以及可供测试的环境为X86架构下的LINUX服务器，但正式环境需要部署在ARM架构下的麒麟服务器，且正式环境后续可能会长时间处于断网状态，需要一份跨架构的部署方案。解决思路在X86上打包、在ARM（麒麟Linux）上运行，最大的难点就在于二进制兼容性——X86编译出的可执行文件（无论是用PyInstaller还是其它方式）都无法直接在ARM上跑。下面分别说一下两种
Python 爬虫实战：爬取网易公开课（课程列表解析 + 视频资源批量下载） Python核芯 Python爬虫实战项目 python 爬虫音视频网易
一、引言在数字化学习蓬勃发展的当下，网易公开课作为优质在线教育平台，汇聚了海量精品课程，涵盖科技、文化、艺术等多元领域，为求知者提供了便捷的学习渠道。然而，面对丰富的内容，手动逐一浏览、下载课程视频既耗时又低效，尤其对于想要系统学习特定领域知识的用户而言，亟需更高效的解决方案。Python爬虫技术凭借其强大的自动化数据获取能力，可轻松应对这一挑战，实现网易公开课课程列表的精准解析与视频资源的批量下
Bongo-Cat-Crew:用Python打造动态音乐猫元楼
本文还有配套的精品资源，点击获取简介：在这个项目中，我们创建了一个将音乐、游戏和编程结合的创新体验，允许玩家通过动态猫声分类与节奏游戏OSU!互动。Python的使用使得音乐节奏识别、猫声分类逻辑和游戏接口交互成为可能。项目的核心包含了音乐节奏分析、游戏模式识别和猫声动画实现等技术要点，旨在为玩家提供独特的交互乐趣。1.Python在项目中的应用和角色1.1Python在IT行业中的普及Pytho
基于python的api扫描器系统的设计与实现
博主介绍：✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌温馨提示：文末有CSDN平台官方提供的老师Wechat/QQ名片:)Java精品实战案例《700套》2025最新毕业设计选题推荐：最热的500个选题o(￣▽￣)ｄ介绍在当今数字化社会，网络安全问题日益突出，为了有效识别和防范网络威胁，开发一款全面的Web应用渗透测试系统至关重要。本研究基于Py
基于小样本的高光谱图像分类任务：CMFSL方法及Python实现 pk_xz123456 仿真模型算法深度学习分类 python 人工智能深度学习机器学习
基于小样本的高光谱图像分类任务：CMFSL方法及Python实现1.引言高光谱图像分类是遥感图像处理领域的重要研究方向，它在农业监测、环境评估、军事侦察等领域有着广泛的应用。与传统RGB图像不同，高光谱图像包含数百个连续的光谱波段，能够提供丰富的光谱信息。然而，高光谱图像分类面临着维度灾难、样本获取困难等挑战，特别是在小样本条件下，传统分类方法往往表现不佳。针对这一问题，本文介绍一种基于小样本的高
ubuntu创建、删除虚拟环境 screenCui ubuntu linux
your_name是自己起的环境名字创建虚拟环境首先通过xshell等工具与服务器建立链接。然后进行以下两步：激活condasource~/.bashrc2.创建虚拟环境condacreate-nyour_namepython=3.7退出以及删除虚拟环境退出虚拟环境condadeactivate删除虚拟环境condaremove-nyour_name--all
python画图修改字体为新罗马字体
#设置字体为新罗马字体font={'family':'serif','serif':['TimesNewRoman'],'size':20,'style':'normal'}plt.rc('font',**font)plt.rc('axes',labelsize=20)如果跑出来不是新罗马字体，那是服务器没装新罗马字体的问题，切换环境到本地就可以了。（本地一般都有新罗马字体）
python序列化任意结构到dict YoungHong1992 python 开发语言
defserialize(obj:Any)->Any:"""因为Param没有序列化的接口，无法直接转为dict或json，因此编写该函数,把Param转为dict"""ifisinstance(obj,np.ndarray):returnobj.tolist()#将numpy.ndarray转换为列表elifisinstance(obj,(int,float,str,bool)):#基本数据类型
Python包版本分析工具开发：从PyPI私有源快速提取元数据 YoungHong1992 python windows 开发语言
importsubprocessimportreimportosimportsysimporttempfileimportzipfilefromemail.parserimportParserfromtypingimportList,Dict,Optional,Anyfromjinja2importEnvironmentfrompackaging.versionimportparseasparse
Python爬虫实战：使用Scrapy和Selenium高效爬取USPTO美国专利数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 开发语言 selenium 测试工具
引言在当今的知识经济时代，专利数据蕴含着巨大的商业和技术价值。美国专利商标局(USPTO)作为全球最大的专利数据库之一，收录了数百万项专利信息，这些数据对于企业竞争分析、技术趋势预测和学术研究都具有重要意义。本文将详细介绍如何使用Python构建一个高效、稳定的USPTO专利数据爬虫系统。一、USPTO专利数据库概述1.1USPTO数据库结构USPTO提供了多种访问专利数据的途径：专利全文和图像数
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
macOS运行python程序遇libiomp5.dylib库冲突错误解决方案 screenCui macos python 开发语言
用途说明在macOS系统运行某些涉及OpenMP或多线程的Python程序（如PyTorch、NumPy等科学计算库）时，可能会出现libiomp5.dylib库冲突的错误。设置os.environ['KMP_DUPLICATE_LIB_OK']='True'允许系统加载重复的动态链接库，临时解决冲突问题。典型错误场景错误信息通常包含以下内容：OMP:Error#15:Initializingli
Python项目如何读取nacos配置 Tizzy JJ 服务器 python pycharm
目录一、nacos配置示例二、python读取nacos配置一、nacos配置示例在Nacos中创建yaml格式配置（DataID:your-data-id）#Nacos配置文件(your-data-id.yaml)app:env:productionversion:1.2.3apis:deepseek:api_key:"sk-your-deepseek-key-here"timeout:30da
com本质论 pdf_如何使用PDF Arranger来对PDF文件进行编排和修改 weixin_39797780 com本质论 pdf creatprocess 操作文件 delphi fedora如何隐藏顶部状态栏 linux .bash_profile文件 linux c++编程 pdf
PDFArranger是一个十分简单的GUI应用程序，能够帮助您拆分或合并PDF文档，以及旋转，裁剪和重新编排页面。所有前面提到的任务都可以通过交互式和直观的图形界面轻松完成。Pdfarranger是pdfshuffler的fork以及pikepdf的前端。PDFArranger在许多流行的GNU/Linux操作系统和MicrosoftWindows上都能良好地运行。它是使用GTK+和Python
基于Matplotlib，在个人电脑上实现无代码、易于使用的绘图体验 wh3933 matplotlib 信息可视化
在科学研究、商业分析和学术出版等领域，数据可视化是沟通洞见、展示成果的关键环节。强大的Python绘图库Matplotlib为此提供了无限可能，但其陡峭的学习曲线和对编程能力的硬性要求，将大量非程序员的领域专家拒之门外。这些专家——包括科学家、分析师、学者和学生——虽然在各自领域具备深厚的知识，却常常因不熟悉编程而难以高效地创建高质量、可定制的图表。他们目前或受限于Excel等功能有限的软件，或需
阿里也出手了！十分钟接入Spring Cloud Alibaba AI 体验JAVA微服务AI人工智能，可接通义千问等模型， Java斌十分钟学会Java AI 人工智能 java 微服务
什么是SpringAISpringAI是从著名的Python项目LangChain和LlamaIndex中汲取灵感，它不是这些项目的直接移植，它的成立信念是，「下一波生成式人工智能应用程序将不仅适用于Python开发人员，而且将在许多编程语言中无处不在」。我们可以从SpringAI的官网描述中，总结出SpringAI的几个核心的关键词：提供抽象能力简化AI应用的开发模型与向量支持AI集成与自动配置
python----下载安装，配置环境 m0_73882020 python
1.下载老版本2.7.18参考链接：Python版本Python2.7.18|Python.org2.配置环境手动添加Python到PATH右键点击此电脑→属性→高级系统设置→环境变量；在系统变量中找到Path，点击编辑→新建，添加以下两条路径：D:\download\xz\python\D:\download\xz\python\Scripts\路径就是在你的安装Python保存后重启命令提示符
PDFArranger 1.12.0版本发布：专业PDF文档管理工具的新特性解析
PDFArranger1.12.0版本发布：专业PDF文档管理工具的新特性解析pdfarrangerSmallpython-gtkapplication,whichhelpstheusertomergeorsplitPDFdocumentsandrotate,cropandrearrangetheirpagesusinganinteractiveandintuitivegraphicalinter
Flask 框架：深入浅出理解其工作原理与机制 chilavert318 熬之滴水穿石 flask python 后端
今天写不发相关连载了，而是将我近段时间接触到的内容做次分享。这几天，使用了开源的DashGO框架，了解到了这个开源的底层是Flask框架。所以花了点时间了解一下，现在Web开发领域，各种框架层出不穷，看了一下Flask的源码，作为一款轻量级的PythonWeb框架，还是凸显了简洁、灵活的特点。今天就深入浅出地将我理解的Flask讲解出来。一、Flask是什么简单来说，Flask是一个使用Pytho
Gemma Chatbot 架构深度剖析：从 C++ 核心到多语言推理的工程实践雷羿 LexChien LLM 人工智能 python c++LLM RAG
GemmaChatbot架构深度剖析：从C++核心到多语言推理的工程实践随着大语言模型（LLM）本地化需求日益提升，如何设计一套高效、可扩展、易于维护的本地聊天系统。GemmaChatbot以C++为推理核心，结合Python前端与多语言支持，实现了高性能与灵活性的完美结合。本文将深入剖析其程序架构、模块划分、数据流设计与工程实践细节。一、总体架构设计GemmaChatbot采用“前后端分离”与“
【后端开发】Flask学习教程大雨淅淅后端开发 flask 学习 python 后端
目录一、Flask是什么？二、环境搭建，准备启航2.1安装Python2.2安装Flask库三、第一个Flask程序，初窥门径3.1导入Flask类3.2创建应用实例3.3定义路由和视图函数3.4运行应用四、深入理解Flask核心概念4.1路由系统详解4.2请求与响应处理4.3模板引擎Jinja2五、Flask扩展，增强战斗力5.1Flask-SQLAlchemy：数据库操作的得力助手5.2Fla
【后端开发】Django 大雨淅淅后端开发 sqlite 数据库后端 django
目录一、Django是什么，为何选择它？二、学习前的准备工作三、Django项目初体验四、深入Django核心概念（一）模型（Model）（二）视图（View）（三）模板（Template）（四）URL配置五、实战演练：打造一个简单博客（一）搭建博客基础框架（二）实现文章发布功能（三）展示文章列表和详情六、总结与展望一、Django是什么，为何选择它？在PythonWeb开发的广袤天地里，Djan
【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体 1989 0基础学AI 人工智能游戏 transformer 分类深度学习神经网络
本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium(原OpenAIGym)NumPyMatplotlib推荐使用JupyterNotebook进行实验前置知识Python基础编程（第1-8讲）基本数学概念（函数、导数）神经网络基础（第23讲
用python写一个hello world、把代码写下来_程序员如何利用Python写出hello world weixin_39699070 用python写一个hello world 把代码写下来
学习编程语言的第一步，让你的程序对这个世界说一声helloworld!这个程序是编程界经典中的经典，让无数编程恐惧症患者得以顺利写出第一个程序，从而走上大神的不归路！1.新建文本文档先让我们在桌面上新建一个文本文档(helloWorld.txt)2.键入代码现在我们在桌面上已经有了一个空白的文本文档helloWorld.txt，接下来我们打开helloWorld.txt键入下面这这行代码print
python基础训练day27
python基础训练day27小白打卡第27天！题目来源这里python基础训练day27第一题（循环）第二题（进制转换）第三题（又是循环）第四题（字符串连接）第一题（循环）#809*??=800*??+9*??其中??代表的两位数,809*??为四位数，8*??的结果为两位数，9*??的结果为3位数。求??代表的两位数，及809*??后的结果。经过条件判断，i在（1,13）之间变化，应用循环把它
python基础day08 树上的 python python 开发语言
1.闭包:闭包的使用场景:当函数调用完，函数内定义的变量都销毁了，但是我们有时候需要保存函数内的这个变量，每次在这个变量的基础上完成一系列的操作，比如:每次在这个变量的基础上和其它数字进行求和计算。闭包的定义:在函数嵌套的前提下，内部函数使用了外部函数的变量，并且外部函数返回了内部函数，我们把这个使用外部函数变量的内部函数称为闭包。闭包的作用:闭包可以保存函数内的变量，不会随着函数调用完而销毁。闭
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S