编码雪人

随机森林算法

第一章分类回归树
- 1.1 分类回归树概述
- 1.2 模型训练
- - 1.2.1 递归分裂
  - 1.2.2 寻找最佳分裂
第二章随机森林
- 2.1 随机森林概述
- 2.2 模型组件
- - 2.2.1 Bootstrap
  - 2.2.2 Bagging
- 2.3 模型训练
- 2.4 Sklearn随机森林模型参数
- - 2.4.1 随机森林参数说明
第三章工程实践
- 3.1 数据收集
- - 3.1.1 数据集介绍
  - 3.1.2 数据集的下载地址
  - 3.1.3 加载数据
- 3.2 数据探索
- - 3.2.1 数据概述
- 3.3 特征工程
- - 3.3.1 整数编码
- 3.4 数据准备
- - 3.4.1 数据集划分
- 3.5 模型训练
- 3.6 模型评估
- 3.7 模型分析
参考文献

第一章分类回归树

1.1 分类回归树概述

分类回归树(classification and regression tree, CART)是一种二叉树，该模型由Breiman等人在1984年提出，是应用最广泛的决策树学习方法。CART树从根节点开始，每次只对一个特征进行判断，然后进入左子节点或右子节点，直至到达叶子节点为止。

1.2 模型训练

1.2.1 递归分裂

训练一棵决策树是一个递归分裂过程。首先创建根节点，然后递归建立左子树和右子树。假设训练样本集为D，则训练流程如下：
（1）用训练样本集D建立根节点，利用基尼指数判定规则，将样本分裂成D1和D2两个部分，同时为根节点设定判定规则；
（2）用D1递归建立左子树；
（3）用D2递归建立右子树；
（4）如果不能分裂，则将当前节点标记为叶子节点，同时为它赋值。

1.2.2 寻找最佳分裂

        训练时需要找到一个分裂规则把训练样本集分为两个子集，因此，需要确定评价标准，根据它寻找最佳分裂。对于分类问题，要确保分裂之后左右子树的样本尽可能纯，即样本类别单一。为此，需要定义不纯度指标，本文的不纯度指标为基尼指数。
        假设数据集 $D$ 有 $k$ 个类别，其样本总数为 $∣ D ∣$ ，每个类别的样本数目分别为 $|D_1|，|D_2|，\cdots，|D_k|$ ，则一个样本属于第 $i$ 类的概率为：
$p_i = \frac{|D_i|}{|D|}$
则数据集 $D$ 的基尼指数为：
$\sum_{i=1}^kp_i(1 - p_i)$
        假设数据 $D$ 被布尔特征 $A$ 切分成 $D_1$ 和 $D_2$ 两个子集，在特征 $A$ 条件下 $D$ 的基尼指数为：
$\frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2)$
其中，基尼指数越大，样本越纯。寻找最佳分裂时需要计算每个阈值对样本集进行分裂后的基尼指数，寻找最大的基尼指数对应分裂，这就是最佳分裂。

第二章随机森林

2.1 随机森林概述

随机森林由Breiman等人提出，它由多棵决策树(CART)组成，这些决策树之间没有相互联系。一旦森林生成后，当有一个新的样本输入，森林中的每棵决策树分别进行以下判断，然后投票，得票最多的类为最终的分类结果。

2.2 模型组件

2.2.1 Bootstrap

Bootstrap是一种数据抽样方法。抽样是指从一个样本数据集随机选择一些样本，形成新的数据集。这里有两个选择：有放回抽样和无放回抽样。对于前者，一个样本被抽中之后回放回去，在下次抽样时还有机会被抽中。对于后者，一个样本被抽中后就从样本集中除去，下次不参与抽样。Bootstrap使用的有放回抽样。

2.2.2 Bagging

集成学习是将多个弱学习算法通过一定的组合方式组合成一个强学习算法。目前有两类集成学习方法：Bagging和Boosting方法。


图a Bagging	图b Boosting

Bagging算法又称为袋装树，是一种并联数据集的集成算法。Bagging是对多个基学习器以相互独立的方式进行训练，在得出结果的时候，对于分类问题采用投票原则，选择最终的结果。

2.3 模型训练

        随机森林在训练时依次训练每一棵决策树，每棵树的训练样本都是从原始训练集中采用Bootstrap抽样得到。在训练决策树的每个节点时所用的特征也是随机抽样得到的，即从特征向量中随机抽取部分特征参与训练。
        正是因为有了这些随机性，随机森林才可以在一定程度上消除过拟合。如果不对样本、特征进行随机采样，每次都用完整的训练数据训练出来的多棵树是相同的。
        训练每棵决策树时都有部分样本未参与训练。可以在训练时利用这些没有选中的样本做测试，统计它们的预测误差，这称为包外误差。利用包外误差作为泛化误差的估计。对于分类问题，包外误差被定义为被错分的包外样本与总包外样本数的比值。通过包外误差可以终止随机森林训练。
$\begin{array}{ll} \hline \textbf{Algorithm 1 随机森林伪代码} \\ \hline 1. \enspace \text{For i=1:N}\\ 2. \enspace\enspace\enspace \text{利用Bootstrap自采样得到数据集} D_i ；\\ 3. \enspace\enspace\enspace\text{将} D_i \text{放到根节点}；\\ 4. \enspace\enspace\enspace\text{随机选择部分特征}；\\ 5. \enspace\enspace\enspace\text{遍历上面筛选的特征，枚举阈值，计算不同特征和阈值下基尼指数}；\\ 6. \enspace\enspace\enspace\text{选择最大基尼指数对应的特征和阈值进行分裂}；\\ 7. \enspace\enspace\enspace\text{返回步骤2，直到满足终止条件}；\\ 8. \enspace \text{End}\\ 9. \enspace\text{利用投票法选择类别}\\ \hline \end{array}$

2.4 Sklearn随机森林模型参数

class sklearn.ensemble.RandomForestClassifier(
	n_estimators=100, *, 
	criterion='gini', 
	max_depth=None, 
	min_samples_split=2, 
	min_samples_leaf=1, 
	min_weight_fraction_leaf=0.0, 
	max_features='sqrt', 
	max_leaf_nodes=None, 
	min_impurity_decrease=0.0, 
	bootstrap=True, 
	oob_score=False, 
	n_jobs=None, 
	random_state=None, 
	verbose=0, 
	warm_start=False, 
	class_weight=None, 
	ccp_alpha=0.0, 
	max_samples=None, 
	monotonic_cst=None
)

2.4.1 随机森林参数说明

表2-1 随机森林主要参数
参数说明	n_estimators：int, default=100	在森林中树的数目
	criterion：{“gini”, “entropy”, “log_loss”}, default=”gini”	分支结点的划分标准，该参数是指定的
	max_depth：int, default=None	树的深度，如果为“None”，则节点将展开到所有叶子都是纯的，或者到所有叶子包含的样本少于 min_samples_split样本。
	min_samples_split:：int or float, default=2	拆分内部节点最小的样本数目
	min_samples_leaf：int or float, default=1	min_samples_leaf指定了在每个叶节点上所需的最小样本数。在构建随机森林时，每个决策树都会考虑min_samples_leaf参数。具体而言，当进行特征划分时，在任意深度上的分割点只有在左右分支中至少有min_samples_leaf个训练样本时才会被考虑。如果分割后的任一子节点中的样本数小于min_samples_leaf，则该分割不会发生，节点成为叶节点。在回归问题中，该参数有助于平滑模型。
	min_weight_fraction_leaf：float, default=0.0	min_weight_fraction_leaf指定在决策树构建过程中，叶子节点上允许的最小样本权重总和。样本权重是在训练数据中为每个样本指定的一个值，通常用于处理不平衡数据集或带有样本权重的问题。
	max_features：{“sqrt”, “log2”, None}, int or float, default=”sqrt”	max_features用于控制每棵决策树的特征子集。它可以是字符串值 "sqrt"、"log2" 或 None，也可以是整数或浮点数，默认值为 "sqrt"。当 max_features 设定为 "sqrt" 时，每棵决策树的特征子集的大小将被设置为总特征数的平方根。当 max_features 设定为 "log2" 时，每棵决策树的特征子集的大小将被设置为总特征数的以 2 为底的对数。当 max_features 设定为 None 时，每棵决策树将使用所有特征进行训练。当max_features 是一个整数值，指定每棵决策树的特征子集的固定大小。
	max_leaf_nodes：int, default=None	max_leaf_nodes用于控制决策树最大叶节点数量。它是一个整数，默认值为None。
	min_impurity_decrease：float, default=0.0	min_impurity_decrease控制决策树节点分裂的最小不纯度减少量。它是一个浮点数，默认值为0.0。决策树在每个节点处根据某个准则（如基尼不纯度或熵）进行特征选择和分裂。min_impurity_decrease定义了节点分裂所需的最小不纯度减少量。如果分裂后的不纯度减少量小于该阈值，则节点将被视为叶节点，不再进行分裂。
	bootstrap：bool, default=True	该参数保持默认
	oob_score：bool or callable, default=False	oob_score控制是否使用袋外样本Out-of-Bag samples）来估计泛化得分的参数。默认为False。只有当bootstrap=True时，oob_score参数才可用。袋外样本是在随机森林训练过程中未被用于构建某个特定决策树的样本。由于每个决策树都是基于自助采样（bootstrap）得到的训练集构建的，因此每个决策树都有一部分样本未被使用。这些未被使用的样本可以被用来评估模型的泛化性能，而无需进行交叉验证或独立的验证集。
	n_jobs：int, default=None	n_jobs控制并行计算。它是一个整数，默认值为None。
	random_state：int or None, default=None	random_state控制bootstrapping采样的随机性，控制特征采样的随机性。
	verbose：int, default=0	verbose用于调整算法在训练过程中生成的输出信息。如果verbose为0，算法将不生成任何输出信息。如果verbose为1，算法会在训练过程中输出进度条，显示每个决策树的训练进度。如果verbose大于1，算法会输出更详细的信息，包括每个决策树的训练进度和其他相关信息。

【注1】加粗参数为重点调试参数。

第三章工程实践

3.1 数据收集

3.1.1 数据集介绍

PhiUSIIL Phishing URL数据集是一个庞大的数据集，其中包含了134850合法网站和100945钓鱼网站。在构建数据集时，我们分析的大多数URL都是最新的URL。该数据集的特征都是从网页源码和URL中提取的。像CharContinuationRate, URLTitleMatchScore, URLCharProb和TLDLegitimateProb特征是从已有特征派生出来的特征。

3.1.2 数据集的下载地址

https://archive.ics.uci.edu/static/public/967/phiusiil+phishing+url+dataset.zip

3.1.3 加载数据

# 准备数据
try:
    # 读取pkl文件
    path = r"../../数据文件/PhiUSIILPhishingURL/PhiUSIIL_Phishing_URL_Dataset.pkl"
    data = pd.read_pickle(path)
except FileNotFoundError:
    # 读取csv文件并保存为pkl文件
    path = r"../../数据文件/PhiUSIILPhishingURL/PhiUSIIL_Phishing_URL_Dataset.csv"
    data = pd.read_csv(path)
    data.to_pickle("../../数据文件/PhiUSIILPhishingURL/PhiUSIIL_Phishing_URL_Dataset.pkl", protocol=4)

【代码分析】
在大数据场景下，使用pd.read_excel()函数每次读取数据文件的速度会很慢。为了缓解该问题，可以采取以下步骤：
1）首先，使用pd.read_excel()函数将数据文件读取为一个DataFrame对象。这个函数是pandas库提供的用于读取Excel文件的函数，它会将Excel文件的内容加载到内存中，并创建一个DataFrame对象来表示数据。
2）接下来，可以使用dataframe.to_pickle(path, compression=‘infer’, protocol=5)函数将DataFrame对象保存为一个pkl文件。to_pickle()函数是pandas库提供的用于将对象序列化为pickle文件的函数。通过将DataFrame保存为pkl文件，可以以二进制格式将数据持久化到磁盘上，并在需要时快速加载。

表2-2 to_pickle()参数说明
参数说明	path：保存 pickle 文件的路径（包括文件名和扩展名）。
	compression：可选参数，指定压缩格式。默认值为 'infer'，表示自动推断压缩格式。其他可选值包括 'gzip'、'bz2'、'zip'、'xz'，或者可以是一个压缩文件扩展名。
	protocol：可选参数，指定 pickle 协议的版本。默认值为 5，表示使用最高版本的 pickle 协议。

3.2 数据探索

3.2.1 数据概述

步骤一： 通过查看数据的前几行，可以了解数据集中的特征以及它们的值是什么样的。这有助于我们对数据结构有一个直观的认识。

data = data.loc[:, "URL":"label"]
print(data.head(5))

运行结果如下：

                                  URL  URLLength  ... NoOfExternalRef  label
0    https://www.southbankmosaics.com         31  ...             124      1
1            https://www.uni-mainz.de         23  ...             217      1
2      https://www.voicefmradio.co.uk         29  ...               5      1
3         https://www.sfnmjournal.com         26  ...              31      1
4  https://www.rewildingargentina.org         33  ...              85      1

观察结果：通过运行结果可以发现，在数据集特征中含有类别特征。
步骤二： 查看数据集中的特征类型、缺失值等信息，有助于进一步了解数据的特征，并为后续的数据处理和分析做准备。

print(data.info())

运行结果如下：

RangeIndex: 235795 entries, 0 to 235794
Data columns (total 55 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   URL                         235795 non-null  object 
 1   URLLength                   235795 non-null  int64  
 2   Domain                      235795 non-null  object 
 3   DomainLength                235795 non-null  int64  
 4   IsDomainIP                  235795 non-null  int64  
 5   TLD                         235795 non-null  object 
 6   URLSimilarityIndex          235795 non-null  float64
 7   CharContinuationRate        235795 non-null  float64
 8   TLDLegitimateProb           235795 non-null  float64
 9   URLCharProb                 235795 non-null  float64
 10  TLDLength                   235795 non-null  int64  
 11  NoOfSubDomain               235795 non-null  int64  
 12  HasObfuscation              235795 non-null  int64  
 13  NoOfObfuscatedChar          235795 non-null  int64  
 14  ObfuscationRatio            235795 non-null  float64
 15  NoOfLettersInURL            235795 non-null  int64  
 16  LetterRatioInURL            235795 non-null  float64
 17  NoOfDegitsInURL             235795 non-null  int64  
 18  DegitRatioInURL             235795 non-null  float64
 19  NoOfEqualsInURL             235795 non-null  int64  
 20  NoOfQMarkInURL              235795 non-null  int64  
 21  NoOfAmpersandInURL          235795 non-null  int64  
 22  NoOfOtherSpecialCharsInURL  235795 non-null  int64  
 23  SpacialCharRatioInURL       235795 non-null  float64
 24  IsHTTPS                     235795 non-null  int64  
 25  LineOfCode                  235795 non-null  int64  
 26  LargestLineLength           235795 non-null  int64  
 27  HasTitle                    235795 non-null  int64  
 28  Title                       235795 non-null  object 
 29  DomainTitleMatchScore       235795 non-null  float64
 30  URLTitleMatchScore          235795 non-null  float64
 31  HasFavicon                  235795 non-null  int64  
 32  Robots                      235795 non-null  int64  
 33  IsResponsive                235795 non-null  int64  
 34  NoOfURLRedirect             235795 non-null  int64  
 35  NoOfSelfRedirect            235795 non-null  int64  
 36  HasDescription              235795 non-null  int64  
 37  NoOfPopup                   235795 non-null  int64  
 38  NoOfiFrame                  235795 non-null  int64  
 39  HasExternalFormSubmit       235795 non-null  int64  
 40  HasSocialNet                235795 non-null  int64  
 41  HasSubmitButton             235795 non-null  int64  
 42  HasHiddenFields             235795 non-null  int64  
 43  HasPasswordField            235795 non-null  int64  
 44  Bank                        235795 non-null  int64  
 45  Pay                         235795 non-null  int64  
 46  Crypto                      235795 non-null  int64  
 47  HasCopyrightInfo            235795 non-null  int64  
 48  NoOfImage                   235795 non-null  int64  
 49  NoOfCSS                     235795 non-null  int64  
 50  NoOfJS                      235795 non-null  int64  
 51  NoOfSelfRef                 235795 non-null  int64  
 52  NoOfEmptyRef                235795 non-null  int64  
 53  NoOfExternalRef             235795 non-null  int64  
 54  label                       235795 non-null  int64  
dtypes: float64(10), int64(41), object(4)
memory usage: 98.9+ MB
None

观察结果： 通过运行结果可以发现，该数据集含有235795条数据，每个数据有54个特征。其中，实数类型特征有10个，整数类型特征有41个，类别型特征有4个分别为：URL、Domain、TLD和Title。
步骤三： 计算数据集中每个变量的描述性统计信息，如均值、中位数、标准差、最小值和最大值等。这些统计量可以提供关于数据的集中趋势、分散程度和数据分布等方面的信息。

print(data.describe())

运行结果：

           URLLength   DomainLength  ...  NoOfExternalRef          label
count  235795.000000  235795.000000  ...    235795.000000  235795.000000
mean       34.573095      21.470396  ...        49.262516       0.571895
std        41.314153       9.150793  ...       161.027430       0.494805
min        13.000000       4.000000  ...         0.000000       0.000000
25%        23.000000      16.000000  ...         1.000000       0.000000
50%        27.000000      20.000000  ...        10.000000       1.000000
75%        34.000000      24.000000  ...        57.000000       1.000000
max      6097.000000     110.000000  ...     27516.000000       1.000000

分析结果： 例如，URLLength特征的最小值为34.573095，最大值为6097，数据标准差为41.314153，则该特征可能存在异常值，其他特征分析方法类似。
**步骤四：**查看类别数目，判断数据集是否属于不均衡数据集。

print(len(data.loc[data['label'] == 1]))
print(len(data.loc[data['label'] == 0]))

运行结果如下：

134850
100945

分析结果： 该数据集属于均衡数据集。

3.3 特征工程

3.3.1 整数编码

步骤一：选择特征数据并查看数据类型；

data = data.loc[:, "URL":"label"]
print(data.dtypes)

步骤二：选择分类特征(object)

cols = list(data.dtypes[data.dtypes == object].index)  # 筛选类别特征

步骤三：对分类特征进行整数编码，注意对于缺失值，pd.Categorical()函数会编码为-1，LabelEncoder对象会编码为最大整数并且在大数据场景下拉低程序速度，因此在使用pd.Categorical()之前，应对缺失值进行处理。

for c in cols:
    data[c] = pd.Categorical(data[c]).codes  # 对类别特征进行编码

3.4 数据准备

3.4.1 数据集划分

在数据准备阶段，需要根据数据的大小或模型的复杂程度将数据集划分为训练集和测试集或训练集、验证集和测试集。

模型训练：将训练集输入到选定的算法中进行运算以获取算法最佳超参数，即得到模型。
（1）选定算法，比如分类算法，回归算法或者聚类算法；
（2）在训练集上训练模型，获取临时模型和训练集预测结果；
（3）在验证集上运行临时模型，获得验证集预测结果；
（4）参考训练集或验证集预测结果，改进模型；
（5）反复迭代 2）-4）步，直至满足停止条件。
模型测试：将测试集输入模型中，得到预测结果，然后将预测结果与预期结果按模型质量评价指标进行比较，最后根据指标结果来衡量当前模型的质量。

注意：
一般而言，这三种数据集均是从同一份标注数据中随机选取的。三者的比例是训练集：验证集：测试集=8：1：1，也可以是训练集：验证集：测试集：7：1：2。如果数据量不大，模型相对简单时，可划分为训练集：测试集=8：2或者训练集：测试集=7：3。

train_data, test_data = train_test_split(data, train_size=0.7, random_state=200, shuffle=True)

3.5 模型训练

步骤一：建立分类模型；

rf = RandomForestClassifier(criterion='gini', verbose=2)  # 创建模型

步骤二：利用随机搜索算法寻找最佳参数并保存最佳模型。

params = {
    'n_estimators': list(range(10, 100)),
    'max_features': list(range(0, train_data.shape[1] + 1))
}
rsv = RandomizedSearchCV(rf, param_distributions=params, cv=5)  # 模型调参
rsv.fit(train_data.loc[:, "URL":"NoOfExternalRef"], train_data["label"])
opt_model = rsv.best_estimator_  # 最优模型
joblib.dump(opt_model, "ppu_model.joblib")

3.6 模型评估

步骤一：加载已经训练好的模型；

opt_model = joblib.load("./ppu_model.joblib")

步骤二：对新数据进行预测；

y_hat = opt_model.predict(test_data.loc[:, "URL":"NoOfExternalRef"])

步骤三：选择评价指标对模型进行评价。

score = f1_score(test_data["label"], y_hat)
print(score)

运行结果如下：

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=1)]: Done  91 out of  91 | elapsed:    0.1s finished
F1分数为:1.0

3.7 模型分析

在模型训练和评价完成后，我们通常希望通过与其他模型进行比较来选择最优和最简单的模型作为基础模型。这个过程可以通过以下步骤来实现：

多模型比较：通过将已训练的模型与其他备选模型进行比较，可以评估它们在同一任务上的性能差异。这可以涉及使用相同的评价指标来比较模型在验证集或交叉验证上的性能。
评价函数的选择：在选择评价函数时，我们需要考虑不同评价函数的优点和缺点。每个评价函数都有其特定的关注点和应用场景。常见的评价函数包括准确率、精确率、召回率、F1分数、AUC-ROC曲线下面积等。根据任务需求，选择适当的评价函数来评估模型的性能。
多指标评估：由于每个评价函数都有其局限性，使用多个评价函数可以提供更全面的模型评估。通过综合多个评价指标的结果，我们可以得到更全面的模型性能分析。这可以帮助我们更好地理解模型在不同方面的表现。

综合考虑：在选择最优和最简单的模型时，我们需要综合考虑多个因素，包括模型性能、复杂度、解释性、计算效率和实际应用需求。最终选择的模型应该是在多个评价函数下表现较好，同时具有适当的复杂度和计算效率，并满足实际应用需求。

参考文献

[1] 安德烈 $\cdot$ 布克夫. 机器学习精讲[M]. 北京: 人民邮电出版社, 2020:105-108.

心理健康语音分析AI模型：开启心理评估新时代 AI大模型应用实战人工智能语音识别 ai
心理健康语音分析AI模型：开启心理评估新时代关键词：心理健康评估、语音信号处理、情感计算、AI模型、多模态融合摘要：传统心理评估依赖量表问卷和人工观察，存在主观性强、效率低、难以实时监测等局限。本文将带您走进“心理健康语音分析AI模型”的世界，从基础概念到核心技术，从算法原理到实战案例，揭秘AI如何通过“听声音”读懂心理状态，开启心理评估的智能化新时代。背景介绍目的和范围心理健康问题已成为全球公共
MySQL存储结构深度解析：Buffer Pool与Page管理 hdzw20 mysql复习 mysql 数据库
MySQL存储结构解析：BufferPool与Page管理在MySQL的InnoDB存储引擎中，BufferPool是其核心组件之一，它极大地提升了数据库的性能。理解BufferPool的内部结构和工作机制，对于优化MySQL数据库至关重要。本文将讨论BufferPool的结构、三大链表、改进型LRU算法以及ChangeBuffer机制。1.BufferPool结构：控制块与缓存页BufferPo
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
Hanbit便携式GIS局部放电检测仪中PRPD图的绘制方法研究
Hanbit便携式GIS局部放电检测仪中PRPD图的绘制方法研究摘要本报告详细阐述了韩国HanbitPoDAS便携式GIS局部放电检测仪软件中相分辨局部放电（PRPD）图的生成方法。报告旨在阐明其技术原理、数据采集、信号处理以及分析功能，这些功能共同实现了对气体绝缘开关设备（GIS）绝缘状态的精确评估。HanbitPoDAS系统利用超高频（UHF）传感器和智能软件算法来捕获、处理并显示PRPD模式
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
基于FPGA的快速傅里叶变换（FFT）设计在嵌入式系统中的应用风吹麦很 fpga开发嵌入式
基于FPGA的快速傅里叶变换（FFT）设计在嵌入式系统中的应用快速傅里叶变换（FastFourierTransform，FFT）是一种重要的信号处理算法，在许多领域中都得到广泛的应用，例如通信系统、雷达技术、图像处理等。为了提高FFT的计算性能和实时性，将其设计为硬件加速器常常是一个明智的选择。本文将介绍基于现场可编程门阵列（Field-ProgrammableGateArray，FPGA）的FF
AI人工智能领域中AI作画的技术优势 AI大模型应用之禅人工智能 AI作画 ai
AI人工智能领域中AI作画的技术优势关键词：AI作画、技术优势、人工智能、艺术创作、图像生成摘要：本文深入探讨了AI人工智能领域中AI作画的技术优势。从背景介绍出发，阐述了AI作画的起源与发展，明确了文章的目的、范围、预期读者以及文档结构。接着详细分析了AI作画的核心概念，包括其原理和架构，并通过Mermaid流程图进行直观展示。对核心算法原理进行了深入剖析，结合Python代码示例进行讲解。同时
让 Python 代码飙升330倍：从入门到精通的四种性能优化实践 python
花下猫语：性能优化是每个程序员的必修课，但你是否想过，除了更换算法，还有哪些“大招”？这篇文章堪称典范，它将一个普通的函数，通过四套组合拳，硬生生把性能提升了330倍！作者不仅展示了“术”，更传授了“道”。让我们一起跟随作者的思路，体验一次酣畅淋漓的优化之旅。PS.本文选自最新一期Python潮流周刊，如果你对优质文章感兴趣，诚心推荐你订阅我们的专栏。作者：ItamarTurner-Traurin
2025B卷 - 华为OD机试七日集训第5期 - 按算法分类，由易到难，循序渐进，玩转OD 哪吒搬砖工逆袭Java架构师华为od 算法华为OD机试 2025B卷 java
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第5期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、逻辑分析第3天、逻辑分析第4天、字符串处理第5天、正则表达式第6天、深度优先搜索dfs第7天、深度优先搜索dfs六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605
2025B卷 - 华为OD机试七日集训第4期 - 按算法分类，由易到难，循序渐进，玩转OD（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od 算法 python 华为OD机试 2025B卷
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第4期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、逻辑分析第3天、逻辑分析第4天、贪心算法第5天、二分查找第6天、字符串处理第7天、字符串处理六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605、ClaudeSon
2025B卷 - 华为OD机试七日集训第2期 - 按算法分类，由易到难，循序渐进，玩转OD（Python/JS/C/C++）
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第2期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、数组第3天、双指针第4天、贪心算法第5天、字符串处理第6天、深度优先搜索DFS第7天、动态规划六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605、ClaudeSo
华为OD机试专栏--1.3 算法基础：1.3.3 动态规划入门 xiaoheshang_123 华为OD机试真题题库解析华为od 面试职场和发展算法
目录1.3算法基础1.3.3动态规划入门一、动态规划的核心思想1.1什么是动态规划？1.2动态规划的特点二、动态规划的基本步骤三、经典动态规划问题3.1斐波那契数列（FibonacciSequence）问题描述动态规划解法代码实现（Python）3.2背包问题（KnapsackProblem）问题描述动态规划解法代码实现（Python）3.3最长公共子序列（LongestCommonSubsequ
前端面试专栏-算法篇：20. 贪心算法与动态规划入门
欢迎来到前端面试通关指南专栏！从js精讲到框架到实战，渐进系统化学习，坚持解锁新技能，祝你轻松拿下心仪offer。前端面试通关指南专栏主页前端面试专栏规划详情贪心算法与动态规划入门在计算机科学领域，算法是解决问题的核心工具。而贪心算法与动态规划作为两种重要的算法设计策略，广泛应用于优化问题中。本文将深入浅出地介绍这两种算法的基本概念、适用场景、实现方法，并通过经典案例帮助读者理解和掌握它们的核心思
基于大模型的急性出血坏死性胰腺炎预测技术方案 LCG元人工智能 python
目录一、算法实现伪代码1.数据预处理与特征工程2.大模型训练（以Transformer为例）3.实时预测与动态调整二、模块流程图1.术前预测流程2.术中动态决策流程3.术后护理流程三、系统集成方案1.系统架构图2.核心模块交互流程四、系统部署拓扑图1.物理部署拓扑2.部署说明五、技术验证方案1.交叉验证流程2.实验验证设计六、健康教育模块示例一、算法实现伪代码1.数据预处理与特征工程#数据清洗与归
告别重复订单！分布式ID生成核心方案全揭秘山海上的风分布式 java
《告别重复订单！分布式ID生成核心方案全揭秘》你可能用过UUID，却饱受索引性能折磨；你尝试过数据库自增ID，却在分库分表时束手无策；你研究过雪花算法，却被时钟回拨问题困扰……分布式订单ID生成究竟有没有完美方案？本文将为你一一拆解，并给出企业级最优解！一、为什么订单ID如此关键？（示意图：分布式订单系统）需求维度技术指标灾难案例全局唯一零冲突概率重复订单导致财务对账崩溃高性能10万+TPS秒杀活
NCCL 核心集体通信操作深度解析：从原理到优化实践清风 001 AI大模型底层建设 gpu算力 ai
目录引言：NCCL——分布式训练的通信引擎一、NCCL基础：GPU通信的“加速器”1.1NCCL与MPI的协同1.2集体通信的价值二、NCCL核心操作深度解析2.1AllGather：全局数据聚合2.1.1定义与目标2.1.2算法原理2.1.3性能影响因素2.1.4测试方法（nccl-tests）2.2AllReduce：梯度聚合的核心2.2.1定义与目标2.2.2算法原理2.2.3性能影响因素2
蓝桥杯C++组算法知识点整理 · 考前突击（上）【小白适用】南星六月雪 C++学习笔记南星六月雪的手札 c++蓝桥杯开发语言算法数据结构
【背景说明】本文的作者是一名算法竞赛小白，在第一次参加蓝桥杯之前希望整理一下自己会了哪些算法，于是有了本文的诞生。分享在这里也希望与众多学子共勉。如果时间允许的话，这一系列会分为上中下三部分和大家见面，祝大家竞赛顺利！【文风说明】本文主要会用代码＋注释的方式来解释内容。相信学过编程的人都会发现程序比长篇大论更易理解！目录一、语言基础1.1编程基础1.2竞赛常用库函数1.2.1sort函数1.2.2
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
冒泡排序与插入排序 PiCriN 排序算法 javascript
一、冒泡排序1.定义：：冒泡排序是一种非常容易理解的排序算法，在排序中按照要求从小到大排序或者从大到小排序，不断比较数组中相邻两个元素的值，较小或者较大的元素前移2.动图演示过程3.代码演示过程二、插入排序1.定义：一个已经有序的数据序列，要求在这个已经排好的数据序列中插入一个数，但要求插入后此数据序列仍然有序，这个时候就要用到一种新的排序方法2.动图演示过程3.代码实现过程三、两个排序的区别1.
10、量子神经网络：从理论到实践安检量子神经网络 PennyLane Qiskit
量子神经网络：从理论到实践1.量子神经网络简介量子神经网络（QuantumNeuralNetworks,QNNs）是量子计算与经典机器学习相
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
不可逆算法（md5实例）
步骤1：导入hashlib模块importhashlib作用：Python内置的哈希算法库，支持MD5、SHA1、SHA256等加密算法。步骤2：创建MD5哈希对象md5=hashlib.md5()作用：初始化一个MD5哈希计算器。底层机制：调用hashlib.md5()会创建一个空的哈希对象。该对象内部维护一个128位（16字节）的哈希状态。步骤3：将字符串编码为字节（关键步骤）md5.upda
深入浅出二分法：从实际问题看“最小化最大值”问题的求解之道余厌厌厌算法数据结构 go
在算法学习中，二分法是一种高效且应用广泛的查找策略。它不仅能用于有序数组的元素查找，更在“最小化最大值”“最大化最小值”等优化问题中发挥着关键作用。本文将结合两道典型例题，从问题分析、思路推导到代码实现，带你深入理解二分法在这类问题中的应用，并总结常见错误与避坑指南。一、二分法的核心思想：利用单调性高效收缩范围二分法的本质是通过不断将搜索范围减半，快速定位目标值。在“最小化最大值”问题中，其核心逻
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

随机森林算法

目录

第一章 分类回归树

1.1 分类回归树概述

1.2 模型训练

1.2.1 递归分裂

1.2.2 寻找最佳分裂

第二章 随机森林

2.1 随机森林概述

2.2 模型组件

2.2.1 Bootstrap

2.2.2 Bagging

2.3 模型训练

2.4 Sklearn随机森林模型参数

2.4.1 随机森林参数说明

第三章 工程实践

3.1 数据收集

3.1.1 数据集介绍

3.1.2 数据集的下载地址

3.1.3 加载数据

3.2 数据探索

3.2.1 数据概述

3.3 特征工程

3.3.1 整数编码

3.4 数据准备

3.4.1 数据集划分

3.5 模型训练

3.6 模型评估

3.7 模型分析

参考文献

你可能感兴趣的:(机器学习,算法,随机森林,机器学习)

第一章分类回归树

第二章随机森林

第三章工程实践