weixin_39856208

随机森林原始论文_机器学习第一步，这是一篇手把手的随机森林入门实战

选自TowardsDataScience

作者：Alexander Cheng

机器之心编译

参与：高璇、思

到了 2020 年，我们已经能找到很多好玩的机器学习教程。本文则从最流行的随机森林出发，手把手教你构建一个模型，它的完整流程到底是什么样的。

作为数据科学家，我们可以通过很多方法来创建分类模型。最受欢迎的方法之一是随机森林。我们可以在随机森林上调整超参数来优化模型的性能。在用模型拟合之前，尝试主成分分析(PCA)也是常见的做法。但是，为什么还要增加这一步呢？难道随机森林的目的不是帮助我们更轻松地理解特征重要性吗？当我们分析随机森林模型的「特征重要性」时，PCA 会使每个「特征」的解释变得更加困难。但是 PCA 会进行降维操作，这可以减少随机森林要处理的特征数量，因此 PCA 可能有助于加快随机森林模型的训练速度。请注意，计算成本高是随机森林的最大缺点之一(运行模型可能需要很长时间)。尤其是当你使用数百甚至上千个预测特征时，PCA 就变得非常重要。因此，如果只想简单地拥有最佳性能的模型，并且可以牺牲解释特征的重要性，那么 PCA 可能会很有用。现在让我们举个例子。我们将使用 Scikit-learn 的「乳腺癌」数据集，并创建 3 个模型，比较它们的性能： 1. 随机森林 2. 具有 PCA 降维的随机森林 3. 具有 PCA 降维和超参数调整的随机森林 导入数据 首先，我们加载数据并创建一个 DataFrame。这是 Scikit-learn 预先清理的「toy」数据集，因此我们可以继续快速建模。但是，作为最佳实践，我们应该执行以下操作：

使用 df.head()查看新的 DataFrame，以确保它符合预期。
使用 df.info()可以了解每一列中的数据类型和数据量。可能需要根据需要转换数据类型。
使用 df.isna()确保没有 NaN 值。可能需要根据需要处理缺失值或删除行。
使用 df.describe()可以了解每列的最小值、最大值、均值、中位数、标准差和四分位数范围。

名为「cancer」的列是我们要使用模型预测的目标变量。「0」表示「无癌症」，「1」表示「癌症」。

import pandas as pdfrom sklearn.datasets import load_breast_cancercolumns = ['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'mean smoothness', 'mean compactness', 'mean concavity', 'mean concave points', 'mean symmetry', 'mean fractal dimension', 'radius error', 'texture error', 'perimeter error', 'area error', 'smoothness error', 'compactness error', 'concavity error', 'concave points error', 'symmetry error', 'fractal dimension error', 'worst radius', 'worst texture', 'worst perimeter', 'worst area', 'worst smoothness', 'worst compactness', 'worst concavity', 'worst concave points', 'worst symmetry', 'worst fractal dimension']dataset = load_breast_cancer()data = pd.DataFrame(dataset['data'], columns=columns)data['cancer'] = dataset['target']display(data.head())display(data.info())display(data.isna().sum())display(data.describe())

上图是乳腺癌 DataFrame 的一部分。每行是一个患者的观察结果。最后一列名为「cancer」是我们要预测的目标变量。0 表示「无癌症」，1 表示「癌症」。 训练集/测试集分割 现在，我们使用 Scikit-learn 的「train_test_split」函数拆分数据。我们想让模型有尽可能多的数据进行训练。但是，我们也要确保有足够的数据来测试模型。通常数据集中行数越多，我们可以提供给训练集的数据越多。例如，如果我们有数百万行，那么我们可以将其中的 90％用作训练，10％用作测试。但是，我们的数据集只有 569 行，数据量并不大。因此，为了匹配这种小型数据集，我们会将数据分为 50％的训练和 50％的测试。我们设置 stratify = y 以确保训练集和测试集与原始数据集的 0 和 1 的比例一致。

from sklearn.model_selection import train_test_splitX = data.drop('cancer', axis=1)  y = data['cancer'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.50, random_state = 2020, stratify=y)

规范化数据 在建模之前，我们需要先将数据「居中」和「标准化」，对不同的变量要在相同尺度进行测量。我们进行缩放以便决定预测变量的特征可以彼此「公平竞争」。我们还将「y_train」从 Pandas「Series」对象转换为 NumPy 数组，以供模型稍后接收训练数据。

import numpy as npfrom sklearn.preprocessing import StandardScalerss = StandardScaler()X_train_scaled = ss.fit_transform(X_train)X_test_scaled = ss.transform(X_test)y_train = np.array(y_train)

拟合「基线」随机森林模型 现在，我们创建一个「基线」随机森林模型。该模型使用 Scikit-learn 随机森林分类器文档中定义的所有预测特征和默认设置。首先，我们实例化模型并使用规范化的数据拟合模型。我们可以通过训练数据测量模型的准确性。

from sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import recall_scorerfc = RandomForestClassifier()rfc.fit(X_train_scaled, y_train)display(rfc.score(X_train_scaled, y_train))# 1.0

如果我们想知道哪些特征对随机森林模型预测乳腺癌最重要，我们可以通过调用「feature_importances _」方法来可视化和量化这些重要特征：

feats = {}for feature, importance in zip(data.columns, rfc_1.feature_importances_):feats[feature] = importanceimportances = pd.DataFrame.from_dict(feats, orient='index').rename(columns={
      0: 'Gini-Importance'})importances = importances.sort_values(by='Gini-Importance', ascending=False)importances = importances.reset_index()importances = importances.rename(columns={
      'index': 'Features'})sns.set(font_scale = 5)sns.set(style="whitegrid", color_codes=True, font_scale = 1.7)fig, ax = plt.subplots()fig.set_size_inches(30,15)sns.barplot(x=importances['Gini-Importance'], y=importances['Features'], data=importances, color='skyblue')plt.xlabel('Importance', fontsize=25, weight = 'bold')plt.ylabel('Features', fontsize=25, weight = 'bold')plt.title('Feature Importance', fontsize=25, weight = 'bold')display(plt.show())display(importances)

主成分分析(PCA) 现在，我们如何改进基线模型呢？使用降维，我们可以用更少的变量来拟合原始数据集，同时降低运行模型的计算花销。使用 PCA，我们可以研究这些特征的累积方差比，以了解哪些特征代表数据中的最大方差。我们实例化 PCA 函数并设置我们要考虑的成分(特征)数量。此处我们设置为 30，以查看所有生成成分的方差，并决定在何处切割。然后，我们将缩放后的 X_train 数据「拟合」到 PCA 函数中。

import matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.decomposition import PCApca_test = PCA(n_components=30)pca_test.fit(X_train_scaled)sns.set(style='whitegrid')plt.plot(np.cumsum(pca_test.explained_variance_ratio_))plt.xlabel('number of components')plt.ylabel('cumulative explained variance')plt.axvline(linewidth=4, color='r', linestyle = '--', x=10, ymin=0, ymax=1)display(plt.show())evr = pca_test.explained_variance_ratio_cvr = np.cumsum(pca_test.explained_variance_ratio_)pca_df = pd.DataFrame()pca_df['Cumulative Variance Ratio'] = cvrpca_df['Explained Variance Ratio'] = evrdisplay(pca_df.head(10))

该图显示，在超过 10 个特征之后，我们并未获得太多的解释方差。此 DataFrame 显示了累积方差比(解释了数据的总方差)和解释方差比(每个 PCA 成分说明了多少数据的总方差)。

从上面的 DataFrame 可以看出，当我们使用 PCA 将 30 个预测变量减少到 10 个分量时，我们仍然可以解释 95％以上的方差。其他 20 个分量仅解释了不到 5％的方差，因此我们可以减少他们的权重。按此逻辑，我们将使用 PCA 将 X_train 和 X_test 的成分数量从 30 个减少到 10 个。我们将这些重新创建的「降维」数据集分配给「X_train_scaled_pca」和「X_test_scaled_pca」。

pca = PCA(n_components=10)pca.fit(X_train_scaled)X_train_scaled_pca = pca.transform(X_train_scaled)X_test_scaled_pca = pca.transform(X_test_scaled)

每个分量都是原始变量和相应「权重」的线性组合。通过创建一个 DataFrame，我们可以看到每个 PCA 成分的「权重」。

pca_dims = []for x in range(0, len(pca_df)):pca_dims.append('PCA Component {}'.format(x))pca_test_df = pd.DataFrame(pca_test.components_, columns=columns, index=pca_dims)pca_test_df.head(10).T

PCA 后拟合「基线」随机森林模型 现在，我们可以将 X_train_scaled_pca 和 y_train 数据拟合到另一个「基线」随机森林模型中，测试我们对该模型的预测是否有所改进。

rfc = RandomForestClassifier()rfc.fit(X_train_scaled_pca, y_train)display(rfc.score(X_train_scaled_pca, y_train))# 1.0

第 1 轮超参数调优：RandomSearchCV 实现 PCA 之后，我们还可以通过一些超参数调优来调整我们的随机森林以获得更好的预测效果。超参数可以看作模型的「设置」。两个不同数据集的理想设置并不相同，因此我们必须「调整」模型。首先，我们可以从 RandomSearchCV 开始考虑更多的超参值。所有随机森林的超参数都可以在 Scikit-learn 随机森林分类器文档中找到。我们生成一个「param_dist」，其值的范围适用于每个超参数。实例化 RandomSearchCV，首先传入我们的随机森林模型，然后传入「param_dist」、测试迭代次数以及交叉验证次数。超参数「n_jobs」可以决定要使用多少处理器内核来运行模型。设置「n_jobs = -1」将使模型运行最快，因为它使用了所有计算机核心。我们将调整这些超参数：

n_estimators：随机森林中「树」的数量。
max_features：每个分割处的特征数。
max_depth：每棵树可以拥有的最大「分裂」数。
min_samples_split：在树的节点分裂前所需的最少观察数。
min_samples_leaf：每棵树末端的叶节点所需的最少观察数。
bootstrap：是否使用 bootstrapping 来为随机林中的每棵树提供数据。(bootstrapping 是从数据集中进行替换的随机抽样。)

from sklearn.model_selection import RandomizedSearchCVn_estimators = [int(x) for x in np.linspace(start = 100, stop = 1000, num = 10)]max_features = ['log2', 'sqrt']max_depth = [int(x) for x in np.linspace(start = 1, stop = 15, num = 15)]min_samples_split = [int(x) for x in np.linspace(start = 2, stop = 50, num = 10)]min_samples_leaf = [int(x) for x in np.linspace(start = 2, stop = 50, num = 10)]bootstrap = [True, False]param_dist = {'n_estimators': n_estimators,'max_features': max_features,'max_depth': max_depth,'min_samples_split': min_samples_split,'min_samples_leaf': min_samples_leaf,'bootstrap': bootstrap}rs = RandomizedSearchCV(rfc_2, param_dist, n_iter = 100, cv = 3, verbose = 1, n_jobs=-1, random_state=0)rs.fit(X_train_scaled_pca, y_train)rs.best_params_————————————————————————————————————————————# {'n_estimators': 700,# 'min_samples_split': 2,# 'min_samples_leaf': 2,# 'max_features': 'log2',# 'max_depth': 11,# 'bootstrap': True}

在 n_iter = 100 且 cv = 3 的情况下，我们创建了 300 个随机森林模型，对上面输入的超参数进行随机采样组合。我们可以调用「best_params」以获取性能最佳的模型参数(如上面代码框底部所示)。但是，现阶段的「best_params」可能无法为我们提供最有效的信息，以获取一系列参数来执行下一次超参数调整。为了在更大范围内进行尝试，我们可以轻松地获得 RandomSearchCV 结果的 DataFrame。

rs_df = pd.DataFrame(rs.cv_results_).sort_values('rank_test_score').reset_index(drop=True)rs_df = rs_df.drop(['mean_fit_time', 'std_fit_time', 'mean_score_time','std_score_time', 'params', 'split0_test_score', 'split1_test_score', 'split2_test_score', 'std_test_score'],axis=1)rs_df.head(10)

现在，让我们在 x 轴上创建每个超参数的柱状图，并针对每个值制作模型的平均得分，查看平均而言最优的值：

fig, axs = plt.subplots(ncols=3, nrows=2)sns.set(style="whitegrid", color_codes=True, font_scale = 2)fig.set_size_inches(30,25)sns.barplot(x='param_n_estimators', y='mean_test_score', data=rs_df, ax=axs[0,0], color='lightgrey')axs[0,0].set_ylim([.83,.93])axs[0,0].set_title(label = 'n_estimators', size=30, weight='bold')sns.barplot(x='param_min_samples_split', y='mean_test_score', data=rs_df, ax=axs[0,1], color='coral')axs[0,1].set_ylim([.85,.93])axs[0,1].set_title(label = 'min_samples_split', size=30, weight='bold')sns.barplot(x='param_min_samples_leaf', y='mean_test_score', data=rs_df, ax=axs[0,2], color='lightgreen')axs[0,2].set_ylim([.80,.93])axs[0,2].set_title(label = 'min_samples_leaf', size=30, weight='bold')sns.barplot(x='param_max_features', y='mean_test_score', data=rs_df, ax=axs[1,0], color='wheat')axs[1,0].set_ylim([.88,.92])axs[1,0].set_title(label = 'max_features', size=30, weight='bold')sns.barplot(x='param_max_depth', y='mean_test_score', data=rs_df, ax=axs[1,1], color='lightpink')axs[1,1].set_ylim([.80,.93])axs[1,1].set_title(label = 'max_depth', size=30, weight='bold')sns.barplot(x='param_bootstrap',y='mean_test_score', data=rs_df, ax=axs[1,2], color='skyblue')axs[1,2].set_ylim([.88,.92])

通过上面的图，我们可以了解每个超参数的值的平均执行情况。

n_estimators：300、500、700 的平均分数几乎最高；
min_samples_split：较小的值(如 2 和 7)得分较高。23 处得分也很高。我们可以尝试一些大于 2 的值，以及 23 附近的值；
min_samples_leaf：较小的值可能得到更高的分，我们可以尝试使用 2–7 之间的值；
max_features：「sqrt」具有最高平均分；
max_depth：没有明确的结果，但是 2、3、7、11、15 的效果很好；
bootstrap：「False」具有最高平均分。

现在我们可以利用这些结论，进入第二轮超参数调整，以进一步缩小选择范围。 第 2 轮超参数调整： GridSearchCV 使用 RandomSearchCV 之后，我们可以使用 GridSearchCV 对目前最佳超参数执行更精细的搜索。超参数是相同的，但是现在我们使用 GridSearchCV 执行更「详尽」的搜索。在 GridSearchCV 中，我们尝试每个超参数的单独组合，这比 RandomSearchCV 所需的计算力要多得多，在这里我们可以直接控制要尝试的迭代次数。例如，仅对 6 个参数搜索 10 个不同的参数值，具有 3 折交叉验证，则需要拟合模型 3,000,000 次！这就是为什么我们在使用 RandomSearchCV 之后执行 GridSearchCV，这能帮助我们首先缩小搜索范围。因此，利用我们从 RandomizedSearchCV 中学到的知识，代入每个超参数的平均最佳执行范围：

from sklearn.model_selection import GridSearchCVn_estimators = [300,500,700]max_features = ['sqrt']max_depth = [2,3,7,11,15]min_samples_split = [2,3,4,22,23,24]min_samples_leaf = [2,3,4,5,6,7]bootstrap = [False]param_grid = {'n_estimators': n_estimators,'max_features': max_features,'max_depth': max_depth,'min_samples_split': min_samples_split,'min_samples_leaf': min_samples_leaf,'bootstrap': bootstrap}gs = GridSearchCV(rfc_2, param_grid, cv = 3, verbose = 1, n_jobs=-1)gs.fit(X_train_scaled_pca, y_train)rfc_3 = gs.best_estimator_gs.best_params_————————————————————————————————————————————# {'bootstrap': False,# 'max_depth': 7,# 'max_features': 'sqrt',# 'min_samples_leaf': 3,# 'min_samples_split': 2,# 'n_estimators': 500}

在这里我们将对 3x 1 x 5x 6 x 6 x 1 = 540 个模型进行 3 折交叉验证，总共是 1,620 个模型！现在，在执行 RandomizedSearchCV 和 GridSearchCV 之后，我们可以调用「best_params_」获得一个最佳模型来预测我们的数据(如上面代码框的底部所示)。 根据测试数据评估模型的性能 现在，我们可以在测试数据上评估我们建立的模型。我们会测试 3 个模型：

基线随机森林
具有 PCA 降维的基线随机森林
具有 PCA 降维和超参数调优的基线随机森林

让我们为每个模型生成预测结果：

y_pred = rfc.predict(X_test_scaled)y_pred_pca = rfc.predict(X_test_scaled_pca)y_pred_gs = gs.best_estimator_.predict(X_test_scaled_pca)

然后，我们为每个模型创建混淆矩阵，查看每个模型对乳腺癌的预测能力：

from sklearn.metrics import confusion_matrixconf_matrix_baseline = pd.DataFrame(confusion_matrix(y_test, y_pred), index = ['actual 0', 'actual 1'], columns = ['predicted 0', 'predicted 1'])conf_matrix_baseline_pca = pd.DataFrame(confusion_matrix(y_test, y_pred_pca), index = ['actual 0', 'actual 1'], columns = ['predicted 0', 'predicted 1'])conf_matrix_tuned_pca = pd.DataFrame(confusion_matrix(y_test, y_pred_gs), index = ['actual 0', 'actual 1'], columns = ['predicted 0', 'predicted 1'])display(conf_matrix_baseline)display('Baseline Random Forest recall score', recall_score(y_test, y_pred))display(conf_matrix_baseline_pca)display('Baseline Random Forest With PCA recall score', recall_score(y_test, y_pred_pca))display(conf_matrix_tuned_pca)display('Hyperparameter Tuned Random Forest With PCA Reduced Dimensionality recall score', recall_score(y_test, y_pred_gs))

下面是预测结果：

随机森林原始论文_机器学习第一步，这是一篇手把手的随机森林入门实战_第10张图片

我们将召回率作为性能指标，因为我们处理的是癌症诊断，我们最关心的是将模型中的假阴性预测误差最小。考虑到这一点，看起来我们的基线随机森林模型表现最好，召回得分为 94.97％。根据我们的测试数据集，基线模型可以正确预测 179 名癌症患者中的 170 名。这个案例研究提出了一个重要的注意事项：有时，在 PCA 之后，甚至在进行大量的超参数调整之后，调整的模型性能可能不如普通的「原始」模型。但是尝试很重要，你不尝试，就永远都不知道哪种模型最好。在预测癌症方面，模型越好，可以挽救的生命就更多。 原文链接： https://towardsdatascience.com/machine-learning-step-by-step-6fbde95c455a 本文为机器之心编译，转载请联系本公众号获得授权。 ✄------------------------------------------------ 加入机器之心(全职记者 / 实习生)： [email protected] 投稿或寻求报道：content @jiqizhixin.com 广告 & 商务合作： [email protected]

下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
《大兴安岭猎人传说》今年最好看的东北鬼怪故事，很优秀一部电影
《大兴安岭猎人传说》是最新上映于愚人节的网剧，别看是网剧却远超出我的个人预料。该片由民俗故事改编，这点就很吸引人，因为民俗故事口口相传，比那些编造而成的鬼故事更具有了真实性，网大做的电影还不错哦，如果可以我打四星好评。大兴安岭的故事我们经常听老人提起，那里有原始大森林，物产丰富，更流传着精灵怪物的传说。什么红黄白柳灰，出马仙、人参娃娃的故事层出不穷，以大兴安岭为背景的故事真不少。可很多鬼片看到最后
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
“这才好”麻辣香锅能够增加人身体的免疫能力小补文知
我就来介绍一种香锅，那就是“这才好”麻辣香锅，它产出于著名的蜀地文化，具有悠久的历史土家风味，麻辣鲜香，健康安全。采用传统秘制麻辣香锅油辣子，还有贴心加料“孜然包”满足人们的不同口味需求，香锅底料辣椒，微辣且香，含有丰富微量元素和维生素，具有辣而不躁，味道纯正，醇厚温和。花椒采用历史悠久，被列为宫廷供品的“贡椒”的汉源花椒。我们还挑选了“川菜之魂”郫县豆瓣的鼻祖品牌豆瓣，保留最原始的郫县豆瓣味道，
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
4款毕业论文参考文献格式生成器（附加详细步骤）小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在撰写毕业论文时，参考文献的格式规范是至关重要的。为了帮助学生和学者们更高效地生成符合要求的参考文献格式，本文将详细介绍四款推荐的参考文献格式生成器，并提供详细的使用步骤。1.千笔-AIPassPaper千笔-AIPassPaper是一款先进的AI辅助论文写作工具，不仅能够自动生成大纲、开题报告，还能一键生成参考文献。AI论文，免费大纲，10分钟3万字https://www.aipaperpass
AI论文写作推荐哪个好？分享5款AI论文写作带数据图表网站小猪包333 写论文人工智能深度学习计算机视觉
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款推荐的AI论文写作工具，包括千笔-AIPassPaper。千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文写作助手，旨在帮助用户快速生成高质量的论文内容。AI论文，免费大纲，10分钟3万字https:
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
毕业论文附录一般都写什么?大学生写论文是干嘛用的写个原创论文人工智能深度学习 AI写作 chatgpt 论文阅读
毕业论文的附录通常包含一些在正文中不便于展示或详细阐述的内容，但对理解论文整体又具有重要意义的资料。具体来说，附录可能包含以下内容：AI论文，免费大纲，10分钟3万字，查重高于15%退费，支持数据图表！！AIPaperPass-AI论文写作指导平台AIPaperPass是AI原创论文写作平台，免费千字大纲，5分钟生成3万字初稿，提供答辩汇报ppt、开题报告、任务书等，40篇真实中英文知网参考文献，
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
《拖延心理学》（一）你为什么会拖延？|木盒笔记纯se蓝调
《拖延心理学》是帮助你向拖延症宣战的一本书，作者简·博克和莱诺拉·袁是全球知名的拖延症治疗专家。大概每个人或多或少总会有一点拖延症的行为。比如明天要叫论文了，今天你还没有写好，你一边在焦虑症怎么办，一边又拿着手机漫无目的的刷新闻；比如你想了很久准备减肥，但是迟迟又没有行动，想着今天晚上少吃一点吧、明天我就开始运动。今天分析的笔记来告诉你“你为什么会拖延？”，解读人杨坚。有人说拖延就像巨大的泥沼，让
2024年华为杯数学建模研赛C题思路代码+论文助攻 DS数模 2024华为杯数学建模华为 2024华为杯 2024研究生数学建模 2024研赛
2024年华为杯研究生数学建模竞赛（以下简研赛）将于9月21日上午8时正式开始。下文包含：2024研赛思路解析、研赛参赛时间及规则信息说明、好用的数模技巧及如何备战数学建模竞赛C君将会第一时间发布选题建议、所有题目的思路解析、相关代码、参考文献、参考论文等多项资料，帮助大家取得好成绩。2024年研赛将于9月21日上午8时正式开始这里有些资料，大家可以看看：【2024最全国赛研赛数模资料包】C君珍贵
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台网顺技术团队成品程序项目 java vue.js 汽车课程设计 spring boot
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台作者主页网顺技术团队欢迎点赞收藏⭐留言文末获取源码联系方式查看下方微信号获取联系方式承接各种定制系统精彩系列推荐精彩专栏推荐订阅不然下次找不到哟Java毕设项目精品实战案例《1000套》感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录基
打卡第12天 127ec88009a1
打卡第12天：打卡日期：2023年10月18日原始体重：51.3公斤目标体重：45公斤昨日饮食①早餐：小黑条，土司面包。②午餐：火烧肉米线、炒玉米，炒人工菌、白菜汤。③晚餐：小黑条，炒猪肝、炒士豆丝（少）有无偷吃：无饮水量共：大概不低于3000ml排便情况：有昨日体重：50.1公斤。今日体重：59.8公斤累计天数：12天几点睡觉：11点半
第三世界 — 来！给你一次重新投胎的机会沧的海
一、投胎系统用户可自行选择来生的方方面面，包括国度、家庭、事业、技能、容貌、寿命等等；赢利点来了：选择好的方面自然要付出一定的代价啦，比如更长的寿命、更好的容貌等等；二、生活系统投胎转世后即进入生活系统，生活系统包括：1、设施系统街头、旅游、KTV、电影院、酒吧、餐厅…世界的一开始、即原始时期是没有这些设施的，官方只提供土地资源，开放接口给第三方开发者，集众力、创世界；2、任务系统你可以在此发布或
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【JS】前端文件读取FileReader操作总结程序员-张师傅前端前端 javascript 开发语言
前端文件读取FileReader操作总结FileReader是JavaScript中的一个WebAPI，它允许web应用程序异步读取用户计算机上的文件（或原始数据缓冲区）的内容，例如读取文件以获取其内容，并在不将文件发送到服务器的情况下在客户端使用它。这对于处理图片、文本文件等非常有用，尤其是当你想要在用户界面中即时显示文件内容或进行文件预览时。创建FileReader对象首先，你需要创建一个Fi
深入理解AOP（面向切面编程）及其应用自身就是太阳 java 开发语言 spring
目录AOP的核心概念AOP的实现方式1.定义DAO接口和实现类2.定义通知类3.开启AOP注解驱动切入点表达式通配符的使用：AOP通知类型案例分析：测量业务层接口的执行效率结论概述：AOP（Aspect-OrientedProgramming，面向切面编程）是一种编程范式，主要用于将共性功能从具体的业务逻辑中分离出来，实现松耦合的代码设计。其作用是在不修改原始代码的情况下，对现有方法进行增强，广泛
Linux命令行基础——软件包管理 HHwxtx linux 运维服务器
1.软件包管理的发展初始阶段最早的软件包管理可以追溯到Unix系统的早期版本。在那时，软件通常以源代码的形式分发，并由系统管理员手动编译和安装。这种方式的管理比较原始和繁琐，因为每次安装都需要手动解决依赖关系和编译问题。软件包的引入为了简化安装过程，软件包被引入Linux，它将软件及其所有文件和资源打包在一起的集合，通常包括可执行文件、库文件、配置文件、文档和元数据（如软件名称、版本号、依赖关系等
未来的世界想象作文怎么写尚未秃头的老师
未来的世界想象作文1我睁开眼睛，发现自己正躺在一个陌生的屋子里，身边围着一群科学家。“哇，我们真的把100万年前的原始人复活啦！”一个长着长鼻子的科学家高兴地喊道。“是啊，我们终于可以得到一瓶纯净水的奖励了！”另一个长着大耳朵的科学家说。听了这些话，我不免有些诧异，便问：“为什么你们有了这么大的贡献，却只得到一瓶水的奖励？”一个又瘦又小的白头发老头说：“我带你去外面看一看，你就知道了。”来到屋外，
推荐开源项目：Zotero引用计数管理器——学术研究的智能助手蔡鸿烈Hope
推荐开源项目：Zotero引用计数管理器——学术研究的智能助手zotero-citationcountsZoteropluginforauto-fetchingcitationcountsfromvarioussources项目地址:https://gitcode.com/gh_mirrors/zo/zotero-citationcounts项目介绍在学术界，每篇论文背后都承载着学者们辛勤的研究成
老头日记.山上山下山南散人
生而平凡人生而平等。一个人听多了这样的话语耳朵能起茧，时间长了茧的肉厚了，自然就麻木起来，听见与听不见内心无有差别。如果你相信人生而平等，漠视现实世界的真实，我不想批判你，转而只想诚恳同时带点同情问你到底有几颗门牙可以磕破掉。这世界早早就把人分成三六九等，高贵低贱从来没有消失过。手里有果子的原始猿人会觉得自己比没有果子的猿人要好，因为自己不用饿肚子，这是生理本性使然；恶毒的奴隶主从来不会认为自己的
在Python应用程序中使用.env文件管理环境变量手机用户3381415902 学习 python 开发语言
原始地址：https://dev.to/jakewitcher/using-env-files-for-environment-variables-in-python-applications-55a1应用程序被部署后，在开发过程中必须考虑应用程序运行的环境以及应用程序执行任务所需的敏感或环境特定信息。环境变量是软件开发人员向应用程序提供此类信息的关键方式之一，但是如果设置这些变量在本地机器的环境
overleaf如何下载论文的pdf 风也温柔☆ overleaf pdf overleaf
用overleaf写完英文论文后，要将论文保存为PDF格式点击图片中的下载按钮然后选择一个路径保存论文的PDF格式即可。
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

随机森林原始论文_机器学习第一步，这是一篇手把手的随机森林入门实战

你可能感兴趣的:(随机森林原始论文)