十年一梦实验室

【机器学习】随机森林

一、原理

集成学习

bootstrap抽样

bagging 算法

随机森林训练算法

随机森林输出变量的重要性Gini方法和置换法

二、示例代码（5个）

2.1 多种弱分类器对比

# 导入所需的库和模块
import numpy as np # 导入numpy库，用于进行科学计算
import matplotlib.pyplot as plt # 导入matplotlib库，用于进行数据可视化
from matplotlib.colors import ListedColormap # 导入ListedColormap模块，用于创建自定义的颜色映射
from sklearn.model_selection import train_test_split # 导入train_test_split模块，用于将数据集划分为训练集和测试集
from sklearn.preprocessing import StandardScaler # 导入StandardScaler模块，用于对数据进行标准化处理
from sklearn.datasets import make_moons, make_circles, make_classification # 导入make_moons, make_circles, make_classification模块，用于生成模拟的数据集
from sklearn.neighbors import KNeighborsClassifier # 导入KNeighborsClassifier模块，用于实现最近邻分类器
from sklearn.svm import SVC # 导入SVC模块，用于实现支持向量机分类器
from sklearn.tree import DecisionTreeClassifier # 导入DecisionTreeClassifier模块，用于实现决策树分类器
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier # 导入RandomForestClassifier, AdaBoostClassifier模块，用于实现随机森林和AdaBoost分类器
from sklearn.naive_bayes import GaussianNB # 导入GaussianNB模块，用于实现高斯朴素贝叶斯分类器
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA # 导入LinearDiscriminantAnalysis模块，并将其简写为LDA，用于实现线性判别分析
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis as QDA # 导入QuadraticDiscriminantAnalysis模块，并将其简写为QDA，用于实现二次判别分析


h = .02  # 设置网格的步长


# 定义分类器的名称和对象
names = ["Nearest Neighbors", "Linear SVM", "RBF SVM", "Decision Tree",
         "Random Forest", "AdaBoost", "Naive Bayes", "LDA", "QDA"]
classifiers = [
    KNeighborsClassifier(3), # 创建一个最近邻分类器，设置邻居数为3
    SVC(kernel="linear", C=0.025), # 创建一个线性核的支持向量机分类器，设置惩罚参数为0.025
    SVC(gamma=2, C=1), # 创建一个径向基核的支持向量机分类器，设置核函数参数为2，惩罚参数为1
    DecisionTreeClassifier(max_depth=5), # 创建一个决策树分类器，设置最大深度为5
    RandomForestClassifier(max_depth=5, n_estimators=10, max_features=1), # 创建一个随机森林分类器，设置最大深度为5，树的数量为10，每个树的最大特征数为1
    AdaBoostClassifier(), # 创建一个AdaBoost分类器，使用默认参数
    GaussianNB(), # 创建一个高斯朴素贝叶斯分类器，使用默认参数
    LDA(), # 创建一个线性判别分析分类器，使用默认参数
    QDA()] # 创建一个二次判别分析分类器，使用默认参数




# 生成一个具有两个特征，两个信息特征，无冗余特征，两个类别，每个类别一个簇的数据集
X, y = make_classification(n_features=2, n_redundant=0, n_informative=2,
                           random_state=1, n_clusters_per_class=1)
rng = np.random.RandomState(2) # 创建一个随机数生成器，设置随机种子为2
X += 2 * rng.uniform(size=X.shape) # 给数据集添加一些噪声
linearly_separable = (X, y) # 将数据集和标签组合成一个元组


# 定义三个数据集，分别是月亮形状的数据集，圆形状的数据集，和线性可分的数据集
datasets = [make_moons(noise=0.3, random_state=0), # 生成一个月亮形状的数据集，设置噪声为0.3，随机种子为0
            make_circles(noise=0.2, factor=0.5, random_state=1), # 生成一个圆形状的数据集，设置噪声为0.2，内外圆的半径比为0.5，随机种子为1
            linearly_separable # 使用之前生成的线性可分的数据集
            ]


# 创建一个图形对象，设置大小为27*9
figure = plt.figure(figsize=(27, 9))
i = 1 # 设置子图的索引
# 遍历数据集
for ds in datasets:
    # 预处理数据集，将其划分为训练集和测试集
    X, y = ds # 解包数据集和标签
    X = StandardScaler().fit_transform(X) # 对数据集进行标准化处理
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.4) # 将数据集划分为训练集和测试集，设置测试集的比例为0.4


    # 获取数据集的最大值和最小值，用于绘制网格
    x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
    y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
    # 根据步长和最大值最小值，生成网格
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))


    # 先绘制数据集本身
    cm = plt.cm.RdBu # 定义一个颜色映射，用于绘制决策边界
    cm_bright = ListedColormap(['#FF0000', '#0000FF']) # 定义一个颜色映射，用于绘制数据点
    ax = plt.subplot(len(datasets), len(classifiers) + 1, i) # 创建一个子图对象，设置行数为数据集的数量，列数为分类器的数量加一，索引为i
    # 绘制训练集的数据点，使用颜色映射和标签来区分不同的类别
    ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright)
    # 绘制测试集的数据点，使用颜色映射和标签来区分不同的类别，设置透明度为0.6
    ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright, alpha=0.6)
    # 设置子图的横轴和纵轴的范围
    ax.set_xlim(xx.min(), xx.max())
    ax.set_ylim(yy.min(), yy.max())
    # 设置子图的横轴和纵轴的刻度为空
    ax.set_xticks(())
    ax.set_yticks(())
    i += 1 # 更新子图的索引


    # 遍历分类器列表
    for name, clf in zip(names, classifiers):
        # 在子图中绘制当前分类器的结果
        ax = plt.subplot(len(datasets), len(classifiers) + 1, i)
        # 使用训练集拟合分类器
        clf.fit(X_train, y_train)
        # 使用测试集评估分类器的准确率
        score = clf.score(X_test, y_test)
        # 绘制决策边界。为此，我们将为网格中的每个点 [x_min, x_max]x[y_min, y_max] 分配一个颜色。
        # 如果分类器有 decision_function 方法，就使用它计算网格中每个点的决策值
        if hasattr(clf, "decision_function"):# 如果分类器有decision_function属性，说明它可以输出每个样本属于正类的置信度
            Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
        else:# 否则，使用 predict_proba 方法计算网格中每个点属于正类的概率
            Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]


        # 将结果转换为颜色图
        Z = Z.reshape(xx.shape)
        # 使用颜色图和透明度填充子图
        ax.contourf(xx, yy, Z, cmap=cm, alpha=.8)


        # 绘制训练集中的点
        ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright)
        # 绘制测试集中的点
        ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright,
                alpha=0.6)


        # 设置子图的横纵坐标范围
        ax.set_xlim(xx.min(), xx.max())
        ax.set_ylim(yy.min(), yy.max())
        # 隐藏子图的横纵坐标刻度
        ax.set_xticks(())
        ax.set_yticks(())
        # 设置子图的标题为分类器的名称
        ax.set_title(name)
        # 在子图的右下角显示分类器的准确率，保留两位小数
        ax.text(xx.max() - .3, yy.min() + .3, ('%.2f' % score).lstrip('0'),
                size=15, horizontalalignment='right')
        # 更新子图的索引
        i += 1


# 调整子图之间的间距
figure.subplots_adjust(left=.02, right=.98)
# 显示所有子图
plt.show()

2.2 scikit-learn随机森林算法对iris数据集特征重要性的计算和可视化

# 导入所需的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score


# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names
feature_names = np.array(feature_names)
# 创建随机森林分类器
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X, y)


# 计算变量的重要性（Gini方法）
importances_gini = rf.feature_importances_
# 对变量的重要性进行排序
indices_gini = np.argsort(importances_gini)[::-1]
# 打印变量的重要性和排序（Gini方法）
print("Feature ranking (Gini method):")
for i in range(X.shape[1]):
    print("%d. %s (%f)" % (i + 1, feature_names[indices_gini[i]], importances_gini[indices_gini[i]]))


# 计算变量的重要性（置换法）
importances_perm = np.zeros(X.shape[1])
# 对每个变量进行置换
for i in range(X.shape[1]):
    # 复制原始数据
    X_perm = X.copy()
    # 随机打乱第i个变量的取值
    np.random.shuffle(X_perm[:, i])
    # 用打乱后的数据来预测
    y_pred = rf.predict(X_perm)
    # 计算预测精度的变化量
    importances_perm[i] = accuracy_score(y, rf.predict(X)) - accuracy_score(y, y_pred)
# 对变量的重要性进行排序
indices_perm = np.argsort(importances_perm)[::-1]
# 打印变量的重要性和排序（置换法）
print("Feature ranking (permutation method):")
for i in range(X.shape[1]):
    print("%d. %s (%f)" % (i + 1, feature_names[indices_perm[i]], importances_perm[indices_perm[i]]))


# 绘制变量的重要性柱状图（Gini方法和置换法）
plt.figure(figsize=(10, 5))
plt.subplot(121)
plt.title("Feature importances (Gini method)")
plt.bar(range(X.shape[1]), importances_gini[indices_gini], color="r", align="center")
plt.xticks(range(X.shape[1]), feature_names[indices_gini], rotation=45)
plt.xlim([-1, X.shape[1]])
plt.subplot(122)
plt.title("Feature importances (permutation method)")
plt.bar(range(X.shape[1]), importances_perm[indices_perm], color="b", align="center")
plt.xticks(range(X.shape[1]), feature_names[indices_perm], rotation=45)
plt.xlim([-1, X.shape[1]])
plt.show()

2.3 自定义随机森林算法

# 导入numpy库，用于科学计算
import numpy as np
# 导入utils模块，用于获取随机子集
from  utils import get_random_subsets
# 导入ClassificationTree类，用于构建决策树
from supervised_learning.decision_tree import ClassificationTree




# 定义一个函数，用于获取数据的随机子集（有放回或无放回）
def get_random_subsets(X, y, n_subsets, replacements=True):
    """ Return random subsets (with replacements) of the data """
    # 获取数据的样本数量
    n_samples = np.shape(X)[0]
    # 将特征矩阵X和标签向量y拼接在一起，并进行随机打乱
    X_y = np.concatenate((X, y.reshape((1, len(y))).T), axis=1)
    np.random.shuffle(X_y)
    # 初始化一个空列表，用于存储子集
    subsets = []


    # 默认使用50%的训练样本，无放回地抽取
    subsample_size = int(n_samples // 2)
    # 如果设置为有放回地抽取，则使用100%的训练样本
    if replacements:
        subsample_size = n_samples      # 100% with replacements


    # 循环生成指定数量的子集
    for _ in range(n_subsets):
        # 随机选择指定大小的样本索引，根据replacements参数决定是否有放回
        idx = np.random.choice(
            range(n_samples),
            size=np.shape(range(subsample_size)),
            replace=replacements)
        # 根据索引，从打乱后的数据中提取特征和标签
        X = X_y[idx][:, :-1]
        y = X_y[idx][:, -1]
        # 将特征和标签作为一个列表，添加到子集列表中
        subsets.append([X, y])
    # 返回子集列表
    return subsets


# 定义RandomForest类，实现随机森林算法
class RandomForest:
    """
    The implementation of random forest algorithm.


    Attributes:
        ...
    """
    # 定义初始化方法，设置随机森林的参数和属性
    def __init__(self, n_estimators=100, max_features=None,
                 min_samples_split=2, min_gain=0, max_depth=np.inf):
        self.n_estimators = n_estimators    # 设置森林中树的数量
        self.max_features = max_features    # 设置每棵树最多使用的特征数量
        self.min_samples_split = min_samples_split    # 设置每棵树分裂节点的最小样本数量
        self.min_gain = min_gain    # 设置每棵树分裂节点的最小信息增益
        self.max_depth = max_depth    # 设置每棵树的最大深度
        # 初始化所有树的列表
        self.trees = []
        # 循环创建指定数量的决策树对象，并添加到列表中
        for _ in range(n_estimators):
            self.trees.append(
                ClassificationTree(
                    min_samples_split=self.min_samples_split,
                    min_impurity=min_gain,
                    max_depth=self.max_depth))


    # 定义拟合方法，用于训练所有的树
    def fit(self, X_train, y_train):
        """ Fit all the trees. """
        # 获取训练集的特征数量
        n_features = np.shape(X_train)[1]
        # 如果没有指定每棵树最多使用的特征数量，则使用特征数量的平方根作为默认值
        if not self.max_features:
            self.max_features = int(np.sqrt(n_features))
        # 使用自助采样法（bootstrap）获取随机子集，作为每棵树的训练集
        subsets = get_random_subsets(X_train, y_train, self.n_estimators)
        # 循环训练每棵树
        for i in range(self.n_estimators):
            # 随机选择指定数量的特征索引，作为每棵树使用的特征
            idx = np.random.choice(range(n_features), self.max_features)
            # 获取第i个子集的特征和标签
            X_subset, y_subset = subsets[i]
            # 只保留选中的特征
            X_subset = X_subset[:, idx]
            # 训练第i棵树
            self.trees[i].fit(X_subset, y_subset)
            # 保存第i棵树使用的特征索引
            self.trees[i].feature_indices = idx


    # 定义预测方法，用于对测试集进行分类
    def predict(self, X_test):
        """ Use simple voting method to determinate class. """
        # 初始化一个零矩阵，用于存储每棵树的预测结果
        y_preds = np.zeros((np.shape(X_test)[0], len(self.trees)))
        # 循环对每棵树进行预测
        for i, tree in enumerate(self.trees):
            # 对测试集的选中特征进行预测，并将结果存入矩阵的第i列
            y_preds[:, i] = tree.predict(X_test[:, tree.feature_indices])
        # 初始化一个空列表，用于存储最终的预测结果
        y_pred = []
        # 循环对每个样本的预测结果进行投票
        for one_preds in y_preds:
            # 使用简单投票法，即选择票数最多的类别作为最终结果，并添加到列表中
            y_pred.append(np.bincount(one_preds.astype(int)).argmax())
        # 返回最终的预测结果
        return y_pred




# 定义一个函数，用于获取数据的随机子集（有放回或无放回）
def get_random_subsets(X, y, n_subsets, replacements=True):
    """ Return random subsets (with replacements) of the data """
    # 获取数据的样本数量
    n_samples = np.shape(X)[0]
    # 将特征矩阵X和标签向量y拼接在一起，并进行随机打乱
    X_y = np.concatenate((X, y.reshape((1, len(y))).T), axis=1)
    np.random.shuffle(X_y)
    # 初始化一个空列表，用于存储子集
    subsets = []


    # 默认使用50%的训练样本，无放回地抽取
    subsample_size = int(n_samples // 2)
    # 如果设置为有放回地抽取，则使用100%的训练样本
    if replacements:
        subsample_size = n_samples      # 100% with replacements


    # 循环生成指定数量的子集
    for _ in range(n_subsets):
        # 随机选择指定大小的样本索引，根据replacements参数决定是否有放回
        idx = np.random.choice(
            range(n_samples),
            size=np.shape(range(subsample_size)),
            replace=replacements)
        # 根据索引，从打乱后的数据中提取特征和标签
        X = X_y[idx][:, :-1]
        y = X_y[idx][:, -1]
        # 将特征和标签作为一个列表，添加到子集列表中
        subsets.append([X, y])
    # 返回子集列表
    return subsets
    
# 如果这个模块是直接运行的，则执行以下代码
if __name__ == '__main__':
    # 这里可以写一些测试或示例代码
    pass

2.4 使用随机森林算法对一个社交网络广告数据集进行分类，预测用户是否会购买某种产品。

代码的主要步骤如下：

导入所需的库，包括numpy、matplotlib和pandas，用于科学计算、绘图和数据处理。
导入数据集，从csv文件中读取数据，将第2列和第3列作为特征，将第4列作为标签。
将数据集分为训练集和测试集，按照75%的比例划分，设置随机种子为0。
对训练集和测试集的特征进行标准化缩放，使其符合标准正态分布。
创建一个随机森林分类器对象，设置树的数量为10，划分的标准为信息熵，随机种子为0。
使用训练集的特征和标签对分类器进行拟合，学习如何分类。
使用测试集的特征对分类器进行预测，得到预测的标签。
生成混淆矩阵，用于评估分类器的性能。
可视化训练集和测试集的结果，使用不同的颜色表示不同的类别，绘制分类器的决策边界，显示图像。

# 导入所需的库
import numpy as np # 用于科学计算
import matplotlib.pyplot as plt # 用于绘图
import pandas as pd # 用于数据处理


# 导入数据集
dataset = pd.read_csv('datasets/Social_Network_Ads.csv') # 从csv文件中读取数据
X = dataset.iloc[:, [2, 3]].values # 取出数据集中的第2列和第3列作为自变量X
y = dataset.iloc[:, 4].values # 取出数据集中的第4列作为因变量y


# 将数据集分为训练集和测试集
from sklearn.model_selection import train_test_split # 导入数据集划分的工具
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0) # 将数据集按照75%的比例划分为训练集和测试集，设置随机种子为0


# 特征缩放
from sklearn.preprocessing import StandardScaler # 导入标准化缩放的工具
sc = StandardScaler() # 创建一个标准化缩放的对象
X_train = sc.fit_transform(X_train) # 对训练集的自变量进行拟合和转换，使其符合标准正态分布
X_test = sc.transform(X_test) # 对测试集的自变量进行转换，使用与训练集相同的缩放参数


# 使用随机森林对训练集进行拟合
from sklearn.ensemble import RandomForestClassifier # 导入随机森林分类器的工具
classifier = RandomForestClassifier(n_estimators = 10, criterion = 'entropy', random_state = 0) # 创建一个随机森林分类器的对象，设置树的数量为10，划分的标准为信息熵，随机种子为0
classifier.fit(X_train, y_train) # 对训练集进行拟合，学习如何分类


# 对测试集进行预测
y_pred = classifier.predict(X_test) # 使用训练好的分类器，对测试集的自变量进行预测，得到预测的因变量


# 生成混淆矩阵
from sklearn.metrics import confusion_matrix # 导入混淆矩阵的工具
cm = confusion_matrix(y_test, y_pred) # 根据测试集的真实因变量和预测的因变量，生成混淆矩阵，用于评估分类器的性能
print('混淆矩阵：\n{0}'.format(cm)) # 打印混淆矩阵
# 可视化训练集的结果
from matplotlib.colors import ListedColormap # 导入颜色列表的工具
X_set, y_set = X_train, y_train # 将训练集的自变量和因变量赋值给X_set和y_set
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01), # 生成一个网格，覆盖X_set的第0列的最小值和最大值之间的区间，步长为0.01
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01)) # 生成一个网格，覆盖X_set的第1列的最小值和最大值之间的区间，步长为0.01
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape), # 对网格中的每个点，使用分类器进行预测，然后用不同的颜色填充区域，表示不同的分类结果
             alpha = 0.75, cmap = ListedColormap(('red', 'green'))) # 设置透明度为0.75，颜色列表为红色和绿色
plt.xlim(X1.min(), X1.max()) # 设置x轴的范围为X1的最小值和最大值
plt.ylim(X2.min(), X2.max()) # 设置y轴的范围为X2的最小值和最大值
for i, j in enumerate(np.unique(y_set)): # 对于y_set中的每个唯一的值，即0和1
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1], # 绘制训练集中对应的点，用不同的颜色和标签表示不同的类别
                color = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Random Forest Classification (Training set)') # 设置标题为随机森林分类（训练集）
plt.xlabel('Age') # 设置x轴的标签为年龄
plt.ylabel('Estimated Salary') # 设置y轴的标签为估计薪水
plt.legend() # 显示图例
plt.show() # 显示图像


# 可视化测试集的结果
from matplotlib.colors import ListedColormap # 导入颜色列表的工具
X_set, y_set = X_test, y_test # 将测试集的自变量和因变量赋值给X_set和y_set
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01), # 生成一个网格，覆盖X_set的第0列的最小值和最大值之间的区间，步长为0.01
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01)) # 生成一个网格，覆盖X_set的第1列的最小值和最大值之间的区间，步长为0.01
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape), # 对网格中的每个点，使用分类器进行预测，然后用不同的颜色填充区域，表示不同的分类结果
             alpha = 0.75, cmap = ListedColormap(('red', 'green'))) # 设置透明度为0.75，颜色列表为红色和绿色
plt.xlim(X1.min(), X1.max()) # 设置x轴的范围为X1的最小值和最大值
plt.ylim(X2.min(), X2.max()) # 设置y轴的范围为X2的最小值和最大值
for i, j in enumerate(np.unique(y_set)): # 对于y_set中的每个唯一的值，即0和1
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1], # 绘制测试集中对应的点，用不同的颜色和标签表示不同的类别
                color= ListedColormap(('red', 'green'))(i), label = j)
plt.title('Random Forest Classification (Test set)') # 设置标题为随机森林分类（测试集）
plt.xlabel('Age') # 设置x轴的标签为年龄
plt.ylabel('Estimated Salary') # 设置y轴的标签为估计薪水
plt.legend() # 显示图例
plt.show() # 显示图像

2.5 使用随机森林算法对一个北京空气质量数据集进行分类，预测PM2.5的浓度

数据预处理：

导入pandas和numpy库，用于数据处理和科学计算。
读取csv文件，获取数据集，包含多个特征和目标变量（PM2.5）。
对数据集进行预处理，包括删除目标变量为空值的行，用每一列的平均值填充其他空值，删除不需要的序号列，将字符串类型的特征转换为数字类型的特征。
将数据集按照8:2的比例分为训练集和测试集，其中训练集再分为10份，进行10折交叉验证，用于评估模型的性能。
返回10折交叉验证的结果和测试集，用于后续的模型训练和预测。

# 导入pandas库，用于数据处理
import pandas as pd
# 导入numpy库，用于科学计算
import numpy as np


# 读取数据文件，从csv文件中读取北京空气质量数据
data = pd.read_csv('Bagging\PRSA_data_2010.1.1-2014.12.31.csv')


# 因为Sklearn随机森林不能处理字符串形式，因此需要将字符串的特征独热编码
# 这里没有实现独热编码，而是使用数字编码，因为对决策树而言，独热编码不那么重要




'''第一部分：缺失值的处理'''
# 因为Pm2.5是目标数据，如有缺失值直接删除这一条记录


# 定义一个函数，用于删除目标值为空值的行，其他列为缺失值则自动填充，并将目标变量放置在数据集最后一列
def DeleteTargetNan(exdata, targetstr):
    # 首先判断目标字段是否有缺失值
    if exdata[targetstr].isnull().any():
        # 首先确定缺失值的行数
        loc = exdata[targetstr][data[targetstr].isnull().values == True].index.tolist()
        # 然后删除这些行
        exdata = exdata.drop(loc)
    # 用每一列的平均值替换空值后的数据集重新赋值给exdata，覆盖原来的数据集
    exdata = exdata.fillna(exdata.mean())
    # 将目标字段至放在最后的一列
    targetnum = exdata[targetstr].copy()
    del exdata[targetstr]
    exdata[targetstr] = targetnum
    return exdata






# 定义一个函数，用于删除原始数据中不需要的字段名（序号列）
def Shanchu(exdata, aiduan=['No']):
    for ai in aiduan:
        if ai in exdata.keys():
            del exdata[ai]
    return exdata




# 定义一个函数，用于将数据中的属性值为字符串的进行数字编码
# 定义一个函数，用于将数据中的字符串类型的特征转换为数字类型的特征
def Digit(eadata):
    # 判断是字符串
    for jj in eadata: # 循环遍历数据的每一列
        try: # 尝试执行以下代码
            eadata[jj].values[0] + 1 # 取第一行的值，加上1
        except TypeError: # 如果发生类型错误，说明该列是字符串类型
            # 需要转为数字编码
            numlist = list(set(list(eadata[jj].values))) # 将该列的所有不同的值转换为一个列表
            zhuan = [numlist.index(jj) for jj in eadata[jj].values] # 将该列的每个值替换为其在列表中的索引
            eadata[jj] = zhuan # 将该列的值更新为数字编码
    return eadata # 返回转换后的数据




# 数据处理后最终的数据集


first = DeleteTargetNan(data, 'pm2.5') # 调用删除目标值为空值的函数
two = Shanchu(first) # 调用删除不需要的字段名的函数，删除不需要的序号列
third = Digit(two) # 调用数字编码的函数


# 将数据集按照8:2的比例分为训练、预测数据集。其中训练数据集再分为K份，进行K折交叉验证


# 定义一个函数，用于将数据集分为训练集和测试集，并对训练集进行K折交叉验证
def fenge(exdata, k=10, per=[0.8, 0.2]):
    # 总长度
    lent = len(exdata) # 计算数据集的总长度，即样本的数量
    alist = np.arange(lent) # 生成一个从0到总长度减1的整数数组，表示样本的索引
    np.random.shuffle(alist) # 对数组进行随机打乱，打破原来的顺序


    # 训练集
    xunlian_sign = int(lent * per[0]) # 根据训练集和测试集的比例，计算训练集的大小，即需要抽取的样本的数量
    xunlian = np.random.choice(alist, xunlian_sign, replace=False) # 从打乱后的数组中无放回地随机选择训练集的索引，即不重复地抽取指定数量的整数


    # 预测集索引
    yuce = np.array([i for i in alist if i not in xunlian]) # 从打乱后的数组中选择剩余的索引作为测试集的索引，即没有被选中的整数


    # 再将训练数据集分为K折
    # 存储字典
    save_dict = {} # 初始化一个空字典，用于存储K折交叉验证的结果，每一折包含一个训练集和一个测试集
    for jj in range(k): # 循环K次，对每一折进行以下操作
        save_dict[jj] = {} # 初始化一个空字典，用于存储第jj折的训练集和测试集
        length = len(xunlian) # 计算训练集的长度，即样本的数量
        # 随机选
        yuzhi = int(length / k) # 计算每一折的大小，即需要抽取的样本的数量，等于训练集的长度除以K
        yan = np.random.choice(xunlian, yuzhi, replace=False) # 从训练集的索引中无放回地随机选择第jj折的测试集的索引，即不重复地抽取指定数量的整数
        tt = np.array([i for i in xunlian if i not in yan]) # 从训练集的索引中选择剩余的索引作为第jj折的训练集的索引，即没有被选中的整数
        save_dict[jj]['train'] = exdata[tt] # 根据索引，从数据集中提取第jj折的训练集，作为一个二维数组
        save_dict[jj]['test'] = exdata[yan] # 根据索引，从数据集中提取第jj折的测试集，作为一个二维数组


    return save_dict, exdata[yuce] # 返回K折交叉验证的结果字典和测试集，作为一个元组




deeer = fenge(third.values) # 调用分割函数


# K折交叉的训练数据
dt_data = deeer[0] # 获取K折划分的结果
# 预测数据
predict_data = deeer[1] # 获取测试集

随机森林（random forest）算法来预测PM2.5的代码的主要内容和功能：

首先，导入了一个名为pm25_RF_Data的模块，这个模块应该是包含了PM2.5的数据和相关的函数的。
然后，导入了sklearn.ensemble中的RandomForestRegressor类，这个类是用来实现随机森林回归的。
接着，导入了sklearn.metrics中的mean_squared_error函数，这个函数是用来计算均方误差（MSE）的，MSE是一种衡量回归模型性能的指标。
然后，导入了numpy和matplotlib.pyplot两个常用的科学计算和绘图的库。
接着，定义了一些参数，比如树的个数、特征的个数等，这些参数是用来控制随机森林模型的复杂度和随机性的。
然后，定义了几个函数，分别是：
- Train函数，这个函数是用来训练随机森林模型，并给出训练数据和验证数据的预测值和MSE的。
- Zuhe函数，这个函数是用来确定最优的参数组合的，它通过遍历所有可能的参数组合，并用K折交叉验证的方法来评估每个组合的性能，最后选择MSE最小的组合作为最优参数。
- duibi函数，这个函数是用来绘制不同参数组合下MSE的对比曲线的，它可以帮助我们直观地看到不同参数组合的效果，并找出最优的参数组合。
- recspre函数，这个函数是用来绘制真实值和预测值的对比曲线的，它可以帮助我们直观地看到模型的预测效果，并评估模型的准确性和稳定性。
最后，调用了Zuhe函数来确定最优的参数组合，然后调用了duibi函数和recspre函数来绘制对比曲线，并保存到指定的路径下。

# 引入数据
import pm25_RF_Data as data # 导入pm25_RF_Data模块，该模块包含了用于训练和预测的数据


# 引入模型
from sklearn.ensemble import  RandomForestRegressor as RF # 导入随机森林回归模型，简写为RF
from sklearn.metrics import mean_squared_error as mse # 导入均方误差函数，简写为mse
import numpy as np # 导入numpy模块，用于处理数组和矩阵运算，简写为np


# 绘制不同参数下MSE的对比曲线
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['FangSong']  # 设置显示中文的字体为仿宋
mpl.rcParams['axes.unicode_minus'] = False  # 设置显示负号
import matplotlib.pyplot as plt # 导入matplotlib.pyplot模块，用于绘制图形，简写为plt


# 根据K折交叉的结果确定比较好的参数组合，然后给出预测数据真实值和预测值的对比


# 对于回归而言，主要的参数就是随机森林中树的个数和特征的个数,其他参数均使用默认值


# 树的个数
trees = [50, 500]#, 1000, 2000, 4000, 7000 # 定义一个列表，存储不同的树的个数


# 随机选择的特征个数
tezheng = ['auto']  #  回归问题一般选用所有的特征，即auto


# 训练函数
def Train(data, treecount, tezh, yanzhgdata): # 定义一个训练函数，接收四个参数：训练数据，树的个数，特征个数，验证数据
    model = RF(n_estimators=treecount, max_features=tezh) # 创建一个随机森林回归模型，设置树的个数和特征个数
    model.fit(data[:, :-1], data[:, -1]) # 使用训练数据的特征和标签，拟合模型
    # 给出训练数据的预测值
    train_out = model.predict(data[:, :-1]) # 使用模型对训练数据的特征进行预测，得到预测值
    # 计算MSE
    train_mse = mse(data[:, -1], train_out) # 使用mse函数，计算训练数据的真实值和预测值之间的均方误差


    # 给出验证数据的预测值
    add_yan = model.predict(yanzhgdata[:, :-1]) # 使用模型对验证数据的特征进行预测，得到预测值
    # 计算MSE
    add_mse = mse(yanzhgdata[:, -1], add_yan) # 使用mse函数，计算验证数据的真实值和预测值之间的均方误差
    print(train_mse, add_mse) # 打印训练数据和验证数据的均方误差
    return train_mse, add_mse # 返回训练数据和验证数据的均方误差


# 最终确定组合的函数
def Zuhe(datadict, tre=trees, tezhen=tezheng): # 定义一个函数，用于确定最优的参数组合，接收三个参数：数据字典，树的个数列表，特征个数列表
    # 存储结果的字典
    savedict = {} # 创建一个空字典，用于存储不同参数组合的均方误差的均值
    # 存储序列的字典
    sacelist = {} # 创建一个空字典，用于存储不同参数组合的均方误差的序列
    for t in tre: # 遍历树的个数列表
        for te in tezhen: # 遍历特征个数列表
            print(t, te) # 打印当前的参数组合  50 auto 
            sumlist = [] # 创建一个空列表，用于存储当前参数组合下的均方误差之和
            # 因为要展示折数，因此要按序开始
            ordelist = sorted(list(datadict.keys())) # 对数据字典的键（即折数）进行排序，得到一个有序列表
            for jj in ordelist: # 遍历有序列表
                xun, ya = Train(datadict[jj]['train'], t, te, datadict[jj]['test']) # 调用训练函数，传入对应折数的训练数据和验证数据，以及当前的参数组合，得到训练数据和验证数据的均方误差
                sumlist.append(xun + ya) # 将训练数据和验证数据的均方误差之和添加到列表中
            sacelist['%s-%s' % (t, te)] = sumlist # 以当前的参数组合为键，以每折均方误差之和的列表为值，存储到序列字典中
            savedict['%s-%s' % (t, te)] = np.mean(np.array(sumlist)) # 以当前的参数组合为键，以均方误差之和的列表的均值为值，存储到结果字典中


    # 在结果字典中选择最小的
    zuixao = sorted(savedict.items(), key=lambda fu: fu[1])[0][0] # 对结果字典按值进行排序，得到一个列表，取第一个元素的键，即最小的均方误差的均值对应的参数组合
    # 然后再选出此方法中和值最小的折数
    xiao = sacelist[zuixao].index(min(sacelist[zuixao])) # 在序列字典中，根据最优的参数组合，找到对应的均方误差之和的列表，取其中最小的元素的索引，即最优的折数
    return zuixao, xiao, sacelist # 返回最优的参数组合，最优的折数，和序列字典


# 根据字典绘制曲线
def duibi(exdict, you): # 定义一个函数，用于根据序列字典绘制不同参数组合的MSE对比曲线，接收两个参数：序列字典，最优的参数组合
    plt.figure(figsize=(11, 7)) # 创建一个图形，设置大小为11*7
    for ii in exdict: # 遍历序列字典的键（即参数组合）
        plt.plot(list(range(len(exdict[ii]))), exdict[ii], \
                 label='%s%d折MSE均值:%.3f' % (ii, len(exdict[ii]), np.mean(np.array(exdict[ii]))), lw=2) # 绘制每个参数组合下的均方误差之和的曲线，设置标签为参数组合，折数，和均方误差的均值，设置线宽为2
    plt.legend() # 显示图例
    plt.title('不同参数的组合MSE对比曲线[最优：%s]' % you) # 设置标题为不同参数的组合MSE对比曲线，显示最优的参数组合
    plt.savefig(r'C:\Users\GWT9\Desktop\method.jpg') # 保存图形到指定路径
    return '不同方法对比完毕' # 返回一个字符串，表示对比完成


# 定义一个函数，用于根据最优的参数组合绘制真实和预测值的对比曲线
def recspre(exstr, predata, datadict, zhe): # 接受四个参数：exstr是一个字符串，表示随机森林模型的参数，包括最大树数和最大特征数；predata是一个二维数组，表示要预测的数据集，最后一列是真实值；datadict是一个字典，表示不同折数的训练数据集，每个键对应一个二维数组，最后一列是标签；zhe是一个整数，表示要使用的折数。
    tree, te = exstr.split('-') # 根据'-'符号，将exstr分割为两个字符串，分别赋值给tree和te，表示最大树数和最大特征数
    model = RF(n_estimators=int(tree), max_features=te) # 创建一个随机森林回归模型对象，设置树的个数和特征个数
    model.fit(datadict[zhe]['train'][:, :-1], datadict[zhe]['train'][:, -1]) # 使用datadict[zhe]中的训练数据的特征和标签，拟合模型


    # 预测
    yucede = model.predict(predata[:, :-1]) # 使用模型对predata中的特征进行预测，得到一个一维数组yucede，表示预测值
    # 为了便于展示，选100条数据进行展示
    zongleng = np.arange(len(yucede)) # 生成一个从0到yucede的长度减1的整数数组，表示预测值的索引
    randomnum = np.random.choice(zongleng, 100, replace=False) # 从索引数组中无放回地随机选择100个元素，作为展示的索引


    yucede_se = list(np.array(yucede)[randomnum]) # 根据展示的索引，从yucede中提取对应的100个预测值，存入一个列表yucede_se


    yuce_re = list(np.array(predata[:, -1])[randomnum]) # 根据展示的索引，从predata中的真实值中提取对应的100个真实值，存入一个列表yuce_re


    # 对比
    plt.figure(figsize=(17, 9)) # 创建一个图形，设置大小为17*9
    plt.subplot(2, 1, 1) # 创建一个2行1列的子图，选择第一个位置
    plt.plot(list(range(len(yucede_se))), yucede_se, c='r', marker='*', label='预测', lw=2) # 绘制预测值的折线图，设置颜色为红色，标记为星形，标签为预测，线宽为2
    plt.plot(list(range(len(yuce_re))), yuce_re, c='b', marker='.', label='真实', lw=2) # 绘制真实值的折线图，设置颜色为蓝色，标记为点形，标签为真实，线宽为2
    plt.legend() # 显示图例
    plt.title('预测和真实值对比[最大树数%d]' % int(tree)) # 设置标题为预测和真实值对比，显示最大树数


    plt.subplot(2, 1, 2) # 创建一个2行1列的子图，选择第二个位置
    plt.plot(list(range(len(yucede_se))), np.array(yuce_re) - np.array(yucede_se), 'k--', marker='s', label='真实-预测', lw=2) # 绘制真实值和预测值的相对误差的折线图，设置颜色为黑色，线型为虚线，标记为方形，标签为真实-预测，线宽为2
    plt.legend() # 显示图例
    plt.title('预测和真实值相对误差') # 设置标题为预测和真实值相对误差


    plt.savefig(r'C:\Users\GWT9\Desktop\duibi.jpg') # 保存图形到指定的路径
    return '预测真实对比完毕' # 返回一个字符串，表示预测和真实值对比完毕


# 主函数


if __name__ == "__main__": # 如果当前模块是主模块，即直接运行而非导入
    zijian, zhehsu, xulie = Zuhe(data.dt_data) # 调用Zuhe函数，对data.dt_data数据集进行分割，得到三个返回值：zijian是一个字符串，表示随机森林模型的最优参数；zhehsu是一个整数，表示最优的折数；xulie是一个列表，表示不同参数组合的结果


    duibi(xulie, zijian) # 调用duibi函数，用xulie和zijian作为参数，绘制不同参数组合的MSE对比曲线，并显示最优参数的位置
    recspre(zijian, data.predict_data, data.dt_data, zhehsu) # 调用recspre函数，用zijian，data.predict_data，data.dt_data，zhehsu作为参数，进行预测和对比，并返回一个字符串

输出结果：（运行很慢，只取了树个数50,500）

三、随机森林应用

参考网址：

https://zhuanlan.zhihu.com/p/105941858

https://easyai.tech/

https://rstudio-pubs-static.s3.amazonaws.com/278745_60156813ccd2466ea4625725dcdf7cdd.html

https://blog.csdn.net/lenglingling/article/details/106409067

https://archive.ics.uci.edu/datasets UIC数据集

https://github.com/VaishnaviKrishna/adult-dataset/tree/master?tab=readme-ov-file#prediction-of-annual-income-using-adult-dataset

https://archive.ics.uci.edu/ml/datasets/Adult

你可能感兴趣的:(机器学习,随机森林,人工智能,算法,数据挖掘)

【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
【算法】贪心算法——柠檬水找零
题解：柠檬水找零(贪心算法)目录1.题目2.题解3.参考代码4.证明5.总结1.题目题目链接：LINK2.题解分情况讨论+贪心算法当顾客为5元时，收下当顾客为10元时，收下10元并找回5元当顾客为20元时，收下20元并找回10+5元或者5+5+5元这里仅20元时候找钱会有分歧，所以这里我们用贪心算法，即优先留下尽可能多的5元，尽快把10元扔出去。原因：5元是“万金油”，既可以给10元找零，也可以给
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
高省app没有邀请码怎么注册？高省app总部邀请码是什么？古楼
高省是正规平台吗？高省app是杭州长孚科技有限公司旗下的一款电商导购应用，为用户打造一个电商购物优惠平台，用户可以在这个App中领取主流商城的商品隐藏优惠券以及获得返利。基于第三方电商平台海量数据挖掘与分析，“高省”APP通过内容制作、分享等方式，为消费者打通吃喝玩乐购全场景全业态，让消费者省心省钱省时省力，为平台和品牌方导流创造收入，拓展了商家新的销售渠道。高省app逐渐构筑起了集各大主流电商平
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
函数对象 tal0n
函数对象是STL库提供的除了迭代器，迭代器配接器以外的另外一种概念。简单来说：函数对象提供了一种方法，将要调用的函数与准备传递给这个函数的隐藏参数捆绑在一起。即：该对象实现了operator()的同时还提供了部分执行时的上下文环境。下面我们通过例子来详细看下函数对象。例子STL中有一个find_if的算法实现，他的参数包括：一组表示范围的迭代器，一个用于生成bool类型值的判断式。例如我们需要在一
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
飞算JavaAI：力臻开发之本真，破 AI 代码之繁琐，传统项目一键生成微学AI 人工智能 java javaAI
飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成文章目录飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成一、前言二、飞算JavaAI是什么？2.1背景与实力2.2飞算JavaAI的“独门绝技”三、飞算JavaAI实战体验3.1IDEA插件安装配置3.2Main中写一个简单的梯度下降算法3.3main函数搭建一个卷积神经网络网络3.4飞算JavaAI：需求分析
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
短剧小程序的「技术革命」：从「粗放生长」到「精准运营」 weixin_lynhgworld 小程序
随着短剧行业进入「存量竞争」阶段，技术能力正成为小程序的核心竞争力。从内容推荐到用户留存，从广告变现到IP开发，每一环节都需要数据驱动和算法优化。一、智能推荐：让「用户找到剧」变成「剧找到用户」传统短剧平台依赖标签匹配，而小程序通过多维度数据实现精准推荐：「情绪图谱」分析：记录用户观看时的快进、暂停、重复播放等行为，构建情绪波动曲线；「场景化推荐」：根据时间（如深夜）、地点（如地铁）、设备（如手机
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
深入理解Mysql索引底层数据结构与算法桑翔
一.索引的本质索引是帮助MySQL高效获取数据的排好序的数据结构二.索引数据结构1.二叉树2.红黑树3.Hash表4.B-Tree1.叶节点具有相同的深度,叶节点的指针为空2.所有索引元素不重复3.节点中的数据索引从左到右递增排序B-Tree5.B+Tree1.非叶子节点不存储data,可以放更多的索引2.叶子节点包含所有索引字段3.叶子节点用指针连接,提高区间访问的性能(体现在做范围查询的时候)
GEE土地分类——利用landsat 8 和随机森林方法进行土地分类此星光明 gee土地分类专栏前端 gee 机器学习土地分类随机森林 Landsat 土地利用
目录简介代码解释代码函数ee.Classifier.smileRandomForest(numberOfTrees,variablesPerSplit,minLeafPopulation,bagFraction,maxNodes,seed)Arguments:Returns:Classifier结果简介GEE土地分类——利用landsat8和随机森林方法进行土地分类代码解释这段代码是用Google
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
使用 Python 爬取网易云音乐歌单数据（完整教程） Python爬虫项目 python 开发语言 github selenium 爬虫
一、引言随着在线音乐平台的普及，网易云音乐（NetEaseCloudMusic）凭借其个性化的推荐算法和丰富的用户互动，吸引了大量用户。网易云音乐的歌单中包含了丰富的音乐数据，包括歌曲名、歌手、专辑、播放量、评论数等信息。通过爬取这些数据，可以对音乐流行趋势进行分析，挖掘音乐推荐策略，甚至训练个性化推荐模型。本教程将使用Python构建一个爬虫，解析网易云音乐的歌单接口，获取歌曲数据并进行数据分析
c#集合排序 zls365365 c#windows 开发语言
在C#中，集合排序是一种常见的操作，它可以帮助我们对集合中的元素进行排序。C#中提供了多种集合排序方法，包括Array.Sort、List.Sort、SortedList和SortedSet等。下面分别介绍一下这些集合排序方法的用法和注意事项：1.Array.SortArray.Sort是C#中的数组排序方法，可以对数组中的元素进行排序。Array.Sort方法可以使用默认的排序算法或者自定义的排
C# 代码（`Hashtable` 和 `SortedList`）张謹礧 c#哈希算法开发语言
一、Hashtable（哈希表）1.基本概念非泛型集合：存储键值对（object类型），通过哈希算法实现快速查找。线程安全：默认非线程安全，可通过Hashtable.Synchronized创建线程安全版本。键的唯一性：键必须唯一，且不可为null（值可为null）。2.创建与初始化//创建空的HashtableHashtablehashtable=newHashtable();//创建并初始化
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不