卡卡南安

机器学习&深度学习面试笔记

机器学习
- Q. 在线性回归中，如果自变量之间存在多重共线性，会导致什么问题？如何检测和处理多重共线性？
- Q. 什么是岭回归(Ridge Regression)和Lasso回归(Lasso Regression)？它们与普通线性回归之间的区别？
- Q. 逻辑回归与线性回归有什么区别？
- Q. 什么是逻辑回归的目标函数(损失函数)？
- Q. 如何处理多分类问题？
- Q. L1和L2正则化有什么区别？
- Q. 分类模型的评估指标：准确率、精准率、召回率、F1-Score、AP
- Q. 什么是ROC曲线和AUC值？它们用来评估逻辑回归模型的哪些性能？
- Q. 什么是决策树，它是如何工作的？简要描述其基本原理。
- Q. 决策树的构建过程中有哪些常用的划分准则？如何选择最佳划分准则？
- Q. 在决策树中如何避免过拟合？
- Q. 什么是随机森林，以及它是如何⼯作的？
- Q. 在随机森林中，袋外误差(Out-of-Bag Error)有什么作用，以及如何使用它来评估模型性能？
- Q. 随机森林如何评估特征的重要性？它们的计算方法是什么？
- Q. 随机森林的局限性
- Q. 什么是支持向量机？
- Q. 支持向量机如何应用在回归任务？
- Q. 在SVM中，如何处理⾮线性可分的数据？核函数(Kernel Function)的作用和常用类型。
- Q. SVM与逻辑回归(Logistic Regression)之间有哪些相似之处和差异？
- Q. 朴素贝叶斯是什么？它的基本原理是什么？
- Q. 什么是K近邻算法？
- Q. 什么是K均值聚类？它的主要目标是什么？
- Q. K均值聚类的优点和局限性是什么？
- Q. K均值聚类和层次聚类之间有哪些区别和相似之处？它们分别适用于什么类型的数据和应用场景？
- Q. 什么是集成学习，以及它的基本思想是什么？
- Q. 集成学习中的Bagging和Boosting有什么区别？
- Q. 对比Stacking和Blending两种融合方法的优劣势？
- Q. AdaBoost算法是如何改进弱分类器的性能的？它的基本原理是什么？
- Q. 什么是Gradient Boosting
- Q. 梯度提升与梯度下降的区别和联系是什么？
- Q. 基于Gradient Boosting的方法有哪些？(GDBT, XGBoost, LightGBM, CatBoost)
- Q. 什么是袋外误差(Out-of-Bag Error)和交叉验证(Cross-Validation)在集成学习中的作用？
- Q. 集成学习在哪些领域和任务中表现出色？它有什么局限性？
深度学习
- Q. BN和LN的区别
- Q. 梯度消失和梯度爆炸产生的原因和解决办法
- Q. RNN、LSTM和GRU的区别
- Q. 深度学习常用的优化算法
- Q. 什么是互信息？它如何用于特征选择和降维问题？
- Q. 归一化/标准化的作用
- Q. 特征选择和特征抽取的区别，以及它们在数据预处理中的作用
- Q. 什么是无监督学习？举例说明无监督学习任务
- Q. 常用的激活函数及优缺点
- Q. 正则化为什么可以提高模型泛化能力

机器学习

Q. 在线性回归中，如果自变量之间存在多重共线性，会导致什么问题？如何检测和处理多重共线性？

在线性回归中，多重共线性是指⾃变量之间存在⾼度相关性或线性依赖关系的情况。
多重共线性可能会导致以下问题：

不稳定的估计：多重共线性会导致回归系数估计变得不稳定。这意味着⼩的数据变动或微⼩的变量选择变化都可能导致回归系数的⼤幅度变化，使得参数估计不可靠；
难以解释效果：多重共线性使得很难分离各⾃⾃变量对因变量的独⽴效应，因为它们之间的效应不再明确，这会降低模型的解释能⼒；
统计检验不准确：多重共线性会导致回归模型的统计检验不准确，如t检验和F检验，这可能会导致错误的结论，例如错误地认为某些⾃变量对因变量没有显著影响；
过度拟合：多重共线性可以导致过度拟合，因为模型可能会在⾃变量之间寻找微⼩的变化，从⽽试图解释由于共线性引起的噪声。

为了检测和处理多重共线性，可以采取以下⽅法：

相关系数分析：通过计算自变量之间的相关系数矩阵，可以初步了解⾃变量之间是否存在⾼度相关性，相关系数接近于1表示⾼度相关；
方差膨胀因子(VIF) ： VIF⽤于衡量每个⾃变量与其他⾃变量的相关性程度。 VIF越⼤，表示共线性越严重。通常， VIF⼤于10或更⾼的⾃变量可能需要考虑去除或合并；
主成分分析(PCA) ： PCA可以将相关的⾃变量合并成新的⽆关⾃变量，从⽽减少共线性的影响，但这会导致模型的解释变得更加复杂；
逐步回归：逐步回归⽅法允许逐渐添加或删除⾃变量，以找到最佳模型。在逐步回归中，会考虑每个⾃变量的贡献，从⽽减少共线性引起的问题；
合并自变量：如果多个⾃变量之间⾼度相关，可以考虑将它们合并成⼀个新的⾃变量或使⽤其平均值来代替，这样可以减少模型中的共线性。

处理多重共线性是线性回归建模中的⼀个重要挑战，因为它可以显著影响模型的可靠性和解释性。选择合适的⽅法来检测和处理多重共线性取决于数据和领域背景

Q. 什么是岭回归(Ridge Regression)和Lasso回归(Lasso Regression)？它们与普通线性回归之间的区别？

岭回归(Ridge Regression)是⼀种线性回归的正则化⽅法，⽤于处理多重共线性问题。它通过在目标函数中引⼊L2正则化项来限制模型的系数⼤⼩，以减⼩过拟合⻛险。

Lasso回归(Least Absolute Shrinkage and Selection Operator Regression)是⼀种线性回归的正则化⽅法，⽤于处理多重共线性问题并进⾏特征选择。它通过在⽬标函数中引⼊L1正则化项来约束模型的系数，并促使⼀些系数变为零，从⽽实现自动特征选择。

Q. 逻辑回归与线性回归有什么区别？

逻辑回归(Logistic Regression)与线性回归(Linear Regression)是两种不同的回归⽅法，主要⽤于不同类型的
问题，具有不同的模型和目标。

它们之间的主要区别，这里通过概念和公式进⾏对比：

1.应用领域：

线性回归通常⽤于解决回归问题，其中⽬标是预测⼀个连续数值输出(如房价、销售量等)。线性回归试图建⽴⼀个线性关系，以最⼩化观测值与模型预测值之间的差异;
逻辑回归通常⽤于解决分类问题，其中⽬标是将输⼊数据分为两个或多个类别。逻辑回归使⽤Sigmoid函数将线性组合的输⼊映射到概率输出。

2.输出：

线性回归的输出是⼀个连续的数值，可以是任意实数；
逻辑回归的输出是⼀个介于0和1之间的概率值。

3.目标

线性回归的⽬标是找到⼀条最佳拟合线，以最⼩化实际观测值与预测值之间的误差平⽅和；
逻辑回归的⽬标是找到最佳参数，以最⼤化观测数据属于正类别或负类别的概率，从⽽能够进⾏分类。

Q. 什么是逻辑回归的目标函数(损失函数)？

逻辑回归的⽬标函数，通常也称为损失函数或代价函数，⽤于衡量模型的预测与实际观测值之间的差异。逻辑回归通常⽤于⼆分类问题，其⽬标是最⼤化观测数据属于正类别或负类别的概率，从⽽能够进⾏分类。逻辑回归的⽬标函数通常使⽤交叉熵损失函数(Cross-Entropy Loss Function)或对数损失函数(Log Loss Function)，这两者通常是等价的。

这个损失函数的⽬标是最⼩化观测数据的负对数似然(negative log-likelihood)，从⽽最⼤化观测数据属于正类别或负类别的概率。对于多分类问题，逻辑回归的损失函数可以使⽤多分类的交叉熵损失函数，如softmax交叉熵损失函数。通常采用梯度下降(Gradient Descent)或其变种来最⼩化损失函数并更新模型的参数(权重和截距)。

Q. 如何处理多分类问题？

核心方法包括三种，分别是OvO(one vs one)、OvR(one vs rest)和MvM(multi vs multi)。其中OvO具备性能优势，而MvM则具备判断效力优势。

OVO的基本过程是将每个类别对应数据集单独拆分成一个子数据集，然后令其两两组合，再来进行模型训练；
OVR的策略则是每次将一类的样例作为正例、其他所有数据作为反例来进行数据集拆分；
MVM要求同时将若干类化为正类、其他类化为负类，并且要求多次划分，再进行集成。

还有一种Softmax回归方法，将多个类别之间的关系建模为⼀个多类别概率分布。它使⽤Softmax函数来将线性组合的输⼊映射到K个类别的概率分布，其中K是类别的数量。训练Softmax回归模型时，通常使⽤交叉熵损失函数。

Q. L1和L2正则化有什么区别？

L1正则化通过向损失函数添加参数的绝对值之和来惩罚模型中的⼤参数，从⽽促使⼀些参数变为零。
这实现了特征选择，可以使模型更加稀疏，剔除不重要的特征，提⾼模型的泛化能⼒。

L2正则化通过向损失函数添加参数的平⽅和来惩罚模型中的⼤参数，但不会使参数变为零，它只是压
缩参数的值。 L2正则化有助于减轻多重共线性问题，稳定模型的估计。

总的来说， L1和L2正则化都有助于控制模型的复杂度，防⽌过拟合。它们的主要区别在于：

L1 正则化倾向于产⽣稀疏模型，即⼀些参数变为零，实现了特征选择；
L2 正则化不会使参数变为零，⽽是对参数进⾏缩⼩，有助于减轻多重共线性问题。

Q. 分类模型的评估指标：准确率、精准率、召回率、F1-Score、AP

假设有以下混淆矩阵：

准确率(Accuracy) ：预测正确的结果占总样本的百分比，(TP+TN)/(TP+TN+FP+FN)
精确率(Precision)：所有被预测为正的样本中实际为正的样本的概率，强调降低误报率，TP/(TP+FP)
召回率(Recall)：实际为正的样本中被预测为正样本的概率，强调“宁可错杀，不可放过”，TP/(TP+FN)
F1-Score：平衡精确率和召回率，(2×Precision×Recall)/(Precision+Recall)
AP(Average Precision)：衡量模型在不同阈值下的精度变化。它计算了模型在不同召回率下的精确率，并取平均值，即：
AP = 平均精确率。

Q. 什么是ROC曲线和AUC值？它们用来评估逻辑回归模型的哪些性能？

ROC曲线是⼀种图形化⼯具，⽤于可视化⼆分类模型的性能。它以假正例率(False Positive Rate)(FP/(FP+TN))为横轴，以真正例率(True Positive Rate，也称为召回率)(TP/(TP+FN))为纵轴，绘制出模型在不同阈值下的性能表现。ROC曲线图中的每个点对应于不同的分类阈值，根据阈值的变化(从大到小)，计算真正例率和假正例率，然后绘制出曲线。 ROC曲线越靠近左上⻆，模型性能越好。ROC曲线的优点是不受类别不平衡问题的影响，能够展示模型在各种不同阈值下的性能表现。

AUC是ROC曲线下⽅的⾯积，被称为"Area Under the ROC Curve"。 AUC值的范围通常在0.5和1之间，其中
0.5表示模型的性能等同于随机猜测， 1表示完美分类器。

Q. 什么是决策树，它是如何工作的？简要描述其基本原理。

决策树(Decision Tree)是⼀种⽤于分类和回归问题的机器学习模型。它是⼀个树状结构，其中每个节点代表⼀个特征，每个分⽀代表⼀个特征值，每个叶⼦节点代表⼀个类别或回归值(该节点中所有训练样本的⽬标变量值的平均值)。决策树的基本原理是根据输⼊特征逐步分割数据集，以便最终能够根据特征的值来预测⽬标变量的类别或值。

基本⼯作原理：

根节点：开始时，整个数据集视为⼀个根节点。在根节点上，选择⼀个特征，将数据集分割成多个⼦集。选择的特征是基于某种度量标准，通常是根据信息增益(Entropy)、基尼不纯度(Gini Impurity)或均⽅误差(Mean Squared Error)等来进⾏选择；
分支节点：接下来，每个⼦集都被视为⼀个分⽀节点，并在分⽀节点上选择另⼀个特征，再次将数据集分割成更⼩的⼦集。这个过程递归地进⾏下去，直到达到某个停⽌条件，如达到最⼤深度、节点中的样本数⼩于阈值，或者节点的不纯度低于阈值；
叶子节点：当不再进⾏分割时，节点被标记为叶⼦节点，叶⼦节点中包含⼀个最终的类别标签(对于分类问题)或回归值(对于回归问题)。这个值是根据该节点上的数据集的主要类别(对于分类问题)或平均⽬标值(对于回归问题)来确定的；
预测：⼀旦构建了决策树，对新的未⻅样本进⾏预测时，从根节点开始根据特征的值遍历树的分⽀，直到达到叶⼦节点。然后，将叶⼦节点的类别标签或回归值作为预测结果。

决策树的优点包括易于理解和解释，能够处理数值和分类特征，对异常值不敏感。然⽽，它也容易过拟合，因此需要进⾏剪枝等正则化操作以提⾼泛化能⼒。

Q. 决策树的构建过程中有哪些常用的划分准则？如何选择最佳划分准则？

决策树的构建过程中常⽤的划分准则有三种：

信息增益(Information Gain)：信息熵可以理解为表示给定随机变量的平均信息量。如果随机变量的分布接近均匀分布，每个取值的概率相等，那么每个取值所包含的信息量较大，信息熵越高表示不确定性越高。信息增益是⽤于分类问题的常⻅划分准则，它基于信息论的概念。在每个节点上，根据特征的取值将数据集分成多个⼦集，然后计算每个⼦集的熵(Entropy)，然后计算信息增益，它是⽗节点熵与⼦节点熵之差。信息增益高表示使用该特征进行分裂后，整体熵的减少较大，即带来的信息量增加较多，因此该特征对于分类具有更大的贡献。在决策树算法中，选择信息增益最大的特征作为节点分裂的依据，以最大程度地减少不确定性，提高分类效果。信息增益的问题是它偏向于选择具有较多取值的特征。
基尼不纯度(Gini Impurity)：基尼不纯度是另⼀种⽤于分类问题的划分准则。在每个节点上，根据特征的取值将数据集分成多个⼦集，然后计算每个⼦集的基尼不纯度，它表示从该⼦集中随机选择两个样本，它们的类别标签不⼀致的概率。基尼不纯度越低，表示⼦节点的纯度越⾼。选择基尼不纯度最低的特征作为划分特征。基尼不纯度相对于信息增益更加偏好选择取值较少的特征，因此在某些情况下，它可能会对多分类问题更有利；
均⽅误差(Mean Squared Error)：均⽅误差是⽤于回归问题的划分准则。在每个节点上，根据特征的取值将数据集分成多个⼦集，然后计算每个⼦集中⽬标变量的均⽅误差。均⽅误差越低，表示⼦节点的⽬标变量值更接近于均值，模型对数据的拟合越好。

为了选择最佳特征和划分，决策树算法会尝试所有可能的特征和取值组合，并选择最优的划分⽅式，这个过程通常称为"贪心"⽅法。需要注意的是，在决策树构建过程中，还可以应⽤剪枝(pruning)等技术来避免过拟合，提⾼模型的泛化性能。选择合适的划分准则和适当的剪枝策略对于构建⾼性能的决策树模型⾮常重要。

Q. 在决策树中如何避免过拟合？

在决策树中避免过拟合的⽅法：

剪枝(Pruning)：剪枝是⼀种减⼩树的复杂度的⽅法，它通过移除⼀些叶⼦节点或将⼀些⼦树替换为叶⼦节点来降低模型的复杂度。这有助于减少模型对训练数据的拟合程度，提⾼模型的泛化能⼒。剪枝的关键是确定何时停⽌分裂节点以及如何选择要剪枝的节点。常⽤的剪枝策略包括预剪枝和后剪枝。
限制树的深度(Max Depth)：限制树的深度是⼀种简单⽽有效的⽅法，通过设置树的最⼤深度可以控制树的复杂度。树的深度过⼤会增加过拟合的⻛险，因此限制树的深度有助于提⾼模型的泛化性能。
增加最⼩样本数(Min Samples) ：通过设置每个叶⼦节点的最⼩样本数，可以控制叶⼦节点的数量。增加最⼩样本数可以防⽌⽣成过于细分的叶⼦节点，从⽽减少模型的过拟合⻛险。
限制叶⼦节点的最⼩样本数(Min Samples per Leaf)：与上⼀点类似，但是是限制每个叶⼦节点的最⼩样本数。这有助于确保叶⼦节点中的样本数量不会太少，从⽽减少过拟合。
降低信息增益阈值：信息增益⽤于选择划分特征，降低信息增益的阈值可以使模型更加保守，减少过度划分的可能性。
随机森林(Random Forest)：随机森林是⼀种基于决策树的集成⽅法，通过随机选择特征⼦集和样本⼦集来构建多棵树，并将它们组合起来进⾏预测。随机森林通常能够降低过拟合⻛险，提⾼模型的泛化性能。

避免过拟合是决策树模型中的⼀个关键问题，需要根据具体问题和数据集选择适当的⽅法来控制模型的复杂度。通常，通过组合多种策略，可以有效地减轻过拟合问题，使决策树模型更加稳健。

Q. 什么是随机森林，以及它是如何⼯作的？

随机森林(Random Forest)是⼀种集成学习算法，⽤于解决分类和回归问题。它基于决策树(Decision Trees)构建，并通过组合多个决策树来提⾼模型的性能和稳定性。随机森林的主要思想是通过随机选择样本和特征来构建多棵决策树，然后综合它们的预测结果来进⾏分类或回归。

随机森林的⼯作原理：

随机选择样本：从训练数据集中随机选择⼀定数量的样本(有放回抽样)，这个过程称为"Bootstrap"抽样。这意味着每棵决策树的训练数据都是随机抽取的，可能包含重复的样本；
随机选择特征：在每个决策树的节点上，随机选择⼀部分特征⼦集来进⾏分裂。这确保了每棵树都不会过度依赖于某些特征；
构建多棵决策树：根据以上两个步骤，构建多棵决策树。每棵树都会根据样本和特征的随机选择来学习数据的
不同⽅⾯；
综合预测结果：对于分类问题，随机森林会采⽤多数投票的⽅式来确定最终的分类结果。对于回归问题，随机森林会取多棵树的平均预测值。

这种随机性和多棵树的组合使随机森林具有很强的泛化能⼒和抗过拟合能⼒，因此通常表现出⾊于单个决策树。

Q. 在随机森林中，袋外误差(Out-of-Bag Error)有什么作用，以及如何使用它来评估模型性能？

袋外误差是随机森林中⼀种重要的性能评估指标，主要有3⽅⾯作⽤：

⽆需额外验证集： OOB误差提供了⼀种在不使⽤额外验证集的情况下评估模型性能的⽅法。这对于⼩数据集或数据不⾜以划分出独⽴的验证集的情况⾮常有⽤；
评估模型泛化性能： OOB误差是⼀种对模型泛化性能的估计。它通过在训练过程中未被抽样到的数据(OOB样本)上进⾏评估来衡量模型的性能，这使得它可以提供⼀个较好的模型性能估计；
帮助选择超参数： OOB误差可以⽤于调整随机森林的超参数，例如树的数量、最⼤深度等。通过观察OOB误差在不同超参数设置下的变化，可以选择最佳的超参数配置。

Q. 随机森林如何评估特征的重要性？它们的计算方法是什么？

随机森林可以通过不同⽅法来评估特征的重要性，它们通常基于每个特征在模型中的使⽤频率和重要性来计算。

以下是评估随机森林中特征重要性的两种常⻅⽅法：

1.基于基尼不纯度或熵的特征重要性

在每棵决策树的构建过程中，随机森林可以测量每个特征对于减少不纯度(例如，基尼不纯度或熵)的贡献。这个贡献可以⽤来估计特征的重要性。

特征重要性的计算通常遵循以下步骤：

对于每个特征，在每次分裂节点时，测量该特征的分裂贡献，即通过该特征分裂后的不纯度减少程度。这可以通过基尼不纯度或熵的减少量来衡量；
对于每个特征，将所有分裂贡献的平均值或加权平均值汇总起来，以得到该特征的总体重要性得分；
最后，将所有特征的重要性得分标准化，使它们的总和等于1。

这种⽅法衡量了每个特征在模型中的贡献，对于减少不纯度的特征具有较⾼的重要性分数。

2.基于Out-of-Bag (OOB)误差的特征重要性

随机森林可以利⽤Out-of-Bag(OOB)样本来估计特征重要性。 OOB样本是在Bootstrap抽样过程中未被选择的样本。特征重要性的计算步骤如下：

对于每个特征，记录训练模型时使⽤该特征的树的OOB样本的预测误差；
对于每个特征，计算它对应的OOB误差的增加(或减少)。这是通过将特征的值随机排列来破坏特征与⽬标变量之间的关系，然后重新计算OOB误差来实现的；
特征重要性分数是通过⽐较原始OOB误差和破坏特征后的OOB误差来计算的。如果特征重要性分数增加了，那么该特征对模型的性能具有重要影响。

这两种⽅法都可以⽤来估计特征的相对重要性，但它们的计算⽅式略有不同。

Q. 随机森林的局限性

计算资源需求较⼤：随机森林由多个决策树组成，因此需要较多的计算资源和内存来训练和存储模型，对于⼤规模数据集可能不太适⽤；
模型解释性较弱：随机森林是集成模型，因此模型的解释性相对较弱，不如单⼀决策树直观；
可能不适⽤于稀疏数据：随机森林通常对于稀疏数据的处理效果不如线性模型或其他模型；
随机性导致结果不确定：随机森林的随机性机制导致不同运⾏时模型结果可能不完全⼀致，这在⼀些场景下可能不可接受；
对于平滑决策边界的问题表现较差：随机森林的决策边界通常是锯⻮状的，不适⽤于对平滑决策边界的问题。

Q. 什么是支持向量机？

⽀持向量机(Support Vector Machine， SVM)是⼀种强⼤的监督学习算法，主要⽤于分类和回归问题。 SVM的核⼼思想是寻找⼀个最优的超平⾯或决策边界，以最⼤化不同类别数据点之间的间隔，并尽量避免误分类。

⽀持向量是训练数据中距离超平⾯最近的数据点。它们是⽤于定义分类间隔(Margin)的关键元素。分类间隔是指超平⾯与最近的⽀持向量之间的距离，SVM 的关键⽬标是找到⼀个超平⾯，使得分类间隔最⼤化。

SVM也可以应⽤于⾮线性分类问题，通过引⼊核函数来将数据映射到⾼维特征空间，从⽽在⾼维空间中找到线性可分的超平⾯。常⻅的核函数包括线性核、多项式核和径向基函数(RBF)核。

Q. 支持向量机如何应用在回归任务？

在回归任务中

SVM回归的⽬标是找到⼀个超平⾯，使得数据点尽量接近超平⾯，同时在⼀定容忍度内；
在回归问题中， SVM的⽬标是最⼩化⼀个损失函数，损失函数衡量了数据点离超平⾯的距离以及容忍度的违规情况；
容忍度(Tolerance)是⼀个控制在训练期间允许数据点距离超平⾯的程度的参数。

Q. 在SVM中，如何处理⾮线性可分的数据？核函数(Kernel Function)的作用和常用类型。

在SVM中处理⾮线性可分的数据时，通常使⽤核函数(Kernel Function)来将数据映射到⼀个⾼维特征空间，使得数据在这个⾼维空间中变得线性可分。

核函数的作⽤是计算两个数据点之间的相似度或内积，⽽不需要显式地将数据映射到⾼维空间。以下是⼀些常⽤的核函数及其作⽤：

线性核函数(Linear Kernel)：这是SVM的默认核函数，它在原始特征空间中计算数据点之间的线性关系，适⽤于线性可分的数据；
多项式核函数(Polynomial Kernel)：多项式核函数通过引⼊多项式项将数据映射到⾼维空间，使其变得更容易分离。它有⼀个参数d，表示多项式的阶数；
高斯径向基核函数(Gaussian Radial Basis Function Kernel)：⾼斯核函数通过计算数据点之间的相似度来将数据映射到⽆限维的⾼维空间。它有⼀个参数σ，控制了特征映射的“宽度”；
Sigmoid核函数(Sigmoid Kernel)：Sigmoid核函数将数据映射到⾼维空间，类似于神经⽹络的激活函数。它在某些特定应⽤中有⽤，但不如⾼斯核函数和多项式核函数常⽤。

Q. SVM与逻辑回归(Logistic Regression)之间有哪些相似之处和差异？

相似之处：

⽤途：SVM和逻辑回归都可以⽤于⼆元分类问题，也可以扩展到多类别分类；
线性模型：SVM和逻辑回归都是线性模型，它们尝试在特征空间中找到⼀个线性决策边界来分离不同类别的数据点。

差异：
3. 损失函数：逻辑回归使⽤对数损失函数，⽽SVM使⽤合⻚损失函数(Hinge Loss)。这导致了它们在优化和预测时的不同⾏为。
4. 决策边界：SVM的⽬标是找到离决策边界最近的数据点(⽀持向量)，⽽逻辑回归的⽬标是找到最⼤似然估计下的决策边界。因此， SVM更加关注⽀持向量，⽽逻辑回归更加关注整体数据点的概率分布。
5. 鲁棒性：SVM通常对异常值更加鲁棒，因为它最⼤化了离决策边界最近的数据点的间隔。逻辑回归对异常值更加敏感，因为它使⽤了对数损失函数。
6. 参数调整：SVM的性能⾼度依赖于核函数的选择，⽽逻辑回归相对较少需要参数调整。

Q. 朴素贝叶斯是什么？它的基本原理是什么？

朴素⻉叶斯(Naive Bayes)是⼀种基于⻉叶斯定理的概率统计分类算法，常⽤于⽂本分类和多类别分类问题。它的基本原理是基于特征之间的条件独⽴性假设，因此称为"朴素"⻉叶斯。该算法通过计算给定类别的特征条件概率来进⾏分类。下⾯是朴素⻉叶斯的基本原理：

给定⼀个分类任务，我们希望找到⼀个类别标签(或类别的概率分布)，使得给定特征数据集X的条件下，该类别标签的概率最⼤。

该方法忽略了特征相关性，且不适用于回归问题。

Q. 什么是K近邻算法？

K近邻(K-Nearest Neighbors，简称KNN)算法是⼀种基本的机器学习算法，常⽤于分类和回归问题。⼯作原理很简单，概括为以下步骤：

训练阶段：在训练阶段，算法会存储所有的训练样本数据及其所属的类别或标签；
测试阶段：在测试阶段，对于待分类或回归的样本，算法会找出与该样本最近的K个训练样本；
分类：对于分类问题， KNN算法使⽤这K个最近的训练样本中最常⻅的类别来预测待分类样本的类别。例如，如果K=3，这三个最近的训练样本分别属于类别A、 B、 B，那么待分类样本将被预测为类别B；
回归：对于回归问题， KNN算法使⽤这K个最近的训练样本的平均值或加权平均值来预测待回归样本的输出。例如，如果K=3，这三个最近的训练样本的⽬标值分别为5、 6、 7，那么待回归样本的输出将被预测为它们的平均值或加权平均值。

计算距离的方法通常有欧⽒距离、曼哈顿距离等。KNN算法需要计算新样本与所有训练样本之间的距离，随着训练集的规模增加，计算成本会显著增加。

Q. 什么是K均值聚类？它的主要目标是什么？

K均值聚类(K-means clustering)是⼀种常⽤的⽆监督学习算法，⽤于将数据集划分为K个不同的簇。该算法通过最⼩化簇内样本之间的平⽅误差和最⼤化簇间的距离来确定簇的位置。K均值聚类的步骤如下：

随机选择K个初始质⼼作为簇的中⼼点；
对每个样本计算其与各个质⼼之间的距离，并将样本分配给与其最近的质⼼所代表的簇；
更新每个簇的质⼼为该簇的所有样本的平均值；
重复步骤2和3，直到质⼼不再变化或达到预定义的停⽌条件。

Q. K均值聚类的优点和局限性是什么？

K均值聚类是一种常用的无监督学习算法，用于将数据集划分为K个不同的簇。它具有以下优点和缺点：

优点：

简单而有效：K均值聚类是一种简单而直观的算法，易于实现和理解。它的计算复杂度相对较低，适用于大规模数据集；
可扩展性：K均值聚类可以轻松地扩展到大规模数据集，因为它的计算复杂度是线性的；
聚类结果可解释性强：K均值聚类的结果相对容易解释，每个簇都由其质心（簇中心）和对应的数据点组成。

缺点：

需要指定簇的数量：K均值聚类需要预先指定聚类的数量K，但在实际应用中，我们通常无法事先确定最佳的簇数。选择不合适的K值可能导致聚类结果不准确；
对初始质心敏感：K均值聚类对初始质心的选择非常敏感。不同的初始质心可能导致不同的聚类结果。这意味着算法可能会陷入局部最小值，并且无法找到全局最优解；
受异常值和噪声影响：K均值聚类对异常值和噪声数据非常敏感。异常值可能会导致质心偏离正常聚类，而噪声数据可能会形成自己的簇；
仅适用于凸形簇：K均值聚类假设簇是凸形的，这意味着它无法很好地处理非凸形簇、嵌套簇或具有复杂形状的簇；
不适用于处理数据不平衡的情况：如果数据集的各个簇的大小差异很大，K均值聚类可能无法准确地捕捉到小簇中的数据点。

Q. K均值聚类和层次聚类之间有哪些区别和相似之处？它们分别适用于什么类型的数据和应用场景？

区别：

⽅法：
K均值聚类： K均值聚类是⼀种划分聚类⽅法，它将数据划分为K个不重叠的簇，每个数据点属于其中⼀个簇。该算法通过迭代更新簇的中⼼点和重新分配数据点来实现聚类。
层次聚类：层次聚类是⼀种层次性聚类⽅法，它创建⼀个层次结构的簇，从单个数据点开始，逐渐合并为越来越⼤的簇，最终形成⼀个包含所有数据点的单⼀簇或树状结构。
簇的数⽬：
K均值聚类需要事先指定簇的数量K。
层次聚类不需要指定簇的数量，它⽣成⼀个层次性的聚类结构，可以根据需要在不同层次上选择聚类。
结果表示：
K均值聚类的结果是每个数据点属于哪个簇的分配。
层次聚类的结果可以以树状结构(树状图或树状热图)的形式表示，也可以通过剪枝来获得不同数量的簇。

相似之处：
4. 距离度量： K均值聚类和层次聚类都使⽤距离度量来度量数据点之间的相似性或距离，例如欧⽒距离、曼哈顿距离等。
5. ⽆监督学习：它们都是⽆监督学习⽅法，不需要事先标记的类别信息。

适⽤场景：
6. K均值聚类适⽤于：数据点分布近似均匀，簇的形状⼤致相似，簇内的数据点具有相似的⼤⼩和⽅差。你事先知道要分成多少个簇。对计算资源要求有限的情况，因为K均值计算较快。
7. 层次聚类适⽤于：数据点的分布具有层次性或嵌套结构，可以使⽤不同的聚类级别。不确定需要分成多少个簇，希望通过可视化和剪枝选择聚类数。对计算资源要求相对较⾼，因为构建层次结构可能需要更多的计算资源。

K均值聚类更适⽤于简单的聚类问题，⽽层次聚类更适⽤于复杂的聚类问题，尤其是当你希望获得层次性聚类结果时。选择哪种⽅法应该取决于数据的特性以及问题的需求。

Q. 什么是集成学习，以及它的基本思想是什么？

集成学习(Ensemble Learning)是⼀种机器学习⽅法，其基本思想是通过组合多个学习算法或模型的预测来提⾼整体性能和泛化能⼒。它的核⼼思想是通过汇总多个模型的意⻅，以减⼩单个模型的偏差和⽅差，从⽽提⾼模型的鲁棒性和准确性。

Q. 集成学习中的Bagging和Boosting有什么区别？

Bagging(Bootstrap Aggregating)：

⼯作原理： Bagging通过随机有放回地从训练数据集中抽取多个⼦样本(Bootstrap样本)，然后使⽤这些⼦样本来训练多个基本模型，每个基本模型都是在不同的数据⼦集上训练的；
模型训练：每个基本模型都独⽴地学习训练数据的不同⼦集，因此它们之间相对独⽴，可以并⾏训练。这些模型通常使⽤相同的学习算法；
集成策略： Bagging的集成策略是通过平均(对于回归问题)或投票(对于分类问题)来集成基本模型的预测结果，以获得最终的集成模型。

Boosting：
4. ⼯作原理： Boosting通过迭代地训练⼀系列基本模型，每个基本模型都试图修正前⼀个模型的错误。它会给每个样本分配⼀个权重，使前⼀个模型错误分类的样本在下⼀轮训练中获得更⾼的权重。
5. 模型训练： Boosting的基本模型是依次训练的，每个模型都在前⼀个模型的基础上进⾏学习，尝试减⼩前⼀个模型的错误。
6. 集成策略： Boosting的集成策略是通过加权平均基本模型的预测结果来获得最终的集成模型。权重通常是根据模型性能分配的，性能更好的模型通常有更⾼的权重。

总之， Bagging的基本思想是通过并⾏训练多个相对独⽴的基本模型，然后将它们的预测结果平均化，以减⼩⽅差；⽽Boosting的基本思想是通过迭代训练⼀系列基本模型，每个模型都试图纠正前⼀个模型的错误，以提⾼整体性能。 Boosting通常在模型性能上更强⼤，但也更容易过拟合。

Q. 对比Stacking和Blending两种融合方法的优劣势？

Stacking(堆叠)方法：

数据划分：将原始训练数据划分为多个不相交的子集，通常是将数据划分为K个折(K-fold)；
基本学习器训练：对于每个子集，使用不同的基本学习算法或模型进行训练，得到K个不同的基本学习器；
基本学习器预测：对于每个基本学习器，使用剩余的未使用子集进行预测，并将预测结果保存下来；
元学习器训练：将预测结果作为新的特征输入，再加上相应的标签，训练一个元学习器(也称为组合器或者元分类器)进行最终的预测；
元学习器预测：使用测试数据集对元学习器进行预测。

Blending(混合)方法：

数据划分：将原始训练数据划分为两个不相交的部分，通常是将数据划分为训练集和验证集；
基本学习器训练：使用训练集训练多个不同的基本学习器，得到多个基本学习器；
基本学习器预测：对于每个基本学习器，使用验证集进行预测，并将预测结果保存下来；
元学习器训练：将预测结果作为新的特征输入，再加上相应的标签，训练一个元学习器进行最终的预测；
元学习器预测：使用测试数据集对元学习器进行预测。

主要差别：

数据划分方式：Stacking将数据划分为多个折，每个折都用于基本学习器的训练和预测；而Blending只划分为训练集和验证集，验证集用于基本学习器的预测；
预测数据来源：Stacking中，基本学习器的预测结果来自于剩余的未使用子集；而Blending中，基本学习器的预测结果来自于验证集；
元学习器的训练数据：Stacking中，元学习器的训练数据是基本学习器的预测结果和相应的标签；Blending中，元学习器的训练数据是基本学习器的预测结果和验证集的标签；
预测阶段：在预测阶段，Stacking使用元学习器对测试集进行预测；Blending也使用元学习器对测试集进行预测。

总的来说，Stacking和Blending的差异在于数据划分方式、基本学习器预测数据来源和元学习器的训练数据。Stacking使用K-fold交叉验证来训练基本学习器并生成预测数据，而Blending只使用训练集和验证集来训练基本学习器并生成预测数据。

Q. AdaBoost算法是如何改进弱分类器的性能的？它的基本原理是什么？

AdaBoost(Adaptive Boosting)是⼀种集成学习⽅法，旨在通过组合多个弱分类器来提⾼整体性能。它的基本原理是通过逐步改进训练样本的权重分布，使得难以分类的样本逐渐得到更多的关注。下⾯是AdaBoost算法的基本原理：

初始化样本权重：开始时，将每个训练样本的权重初始化为相等值，通常为1/n，其中n是样本数量；
迭代训练弱分类器：对于每次迭代， AdaBoost选择⼀个弱分类器并进⾏训练。弱分类器的选择通常基于其分类误差率，即它在当前样本权重下的分类准确度。分类误差率较低的弱分类器将具有更⼤的权重；
更新样本权重：根据弱分类器的分类结果，更新每个训练样本的权重。被错误分类的样本将获得更⾼的权重，⽽正确分类的样本则获得较低的权重。这样⼀来，被错误分类的样本将在后续的迭代中得到更多的关注；
组合弱分类器：根据弱分类器的分类准确度，给予每个弱分类器⼀个权重。分类准确度较⾼的弱分类器将获得更⾼的权重；
集成强分类器：将所有加权的弱分类器组合成⼀个强分类器。在预测过程中，每个弱分类器的输出结果会根据其权重进⾏加权求和，得到最终的预测结果。

通过这种迭代的⽅式， AdaBoost能够逐步提⾼整体分类准确度。它善于处理复杂问题，尤其适⽤于⼆元分类任务。弱分类器可以是任何具有略优于随机猜测性能的分类器，如决策树桩(仅有⼀个分裂节点的决策树)。

Q. 什么是Gradient Boosting

梯度提升方法(Gradient Boosting)是一种集成学习算法，通过串行训练一系列弱学习器(通常是决策树)，逐步减小损失函数的梯度来提升整体模型的性能。

梯度提升方法的基本原理是以迭代的方式构建一个强大的预测模型，每一轮迭代都会训练一个新的弱学习器，并将其加入到模型中，以减小之前模型的预测误差。在每一轮迭代中，梯度提升方法会计算损失函数相对于当前模型的负梯度，然后用这个负梯度拟合一个新的弱学习器，使得新学习器能够更好地拟合损失函数的残差。

具体来说，梯度提升方法的步骤如下：

初始化模型，通常使用一个常数作为初始预测值。
对于每一轮迭代：
a. 计算损失函数相对于当前模型的负梯度(残差)。
b. 使用当前模型拟合这个负梯度，得到一个新的弱学习器。
c. 更新模型，将新的弱学习器加入到模型中。
重复步骤2，直到达到预设的迭代次数或满足停止条件。

梯度提升方法的一个重要特点是可以通过优化不同的损失函数来适应不同的问题，比如平方损失函数用于回归问题，交叉熵损失函数用于分类问题。另外，梯度提升方法还可以通过正则化技术(如学习率、子采样)来提高模型的泛化能力，防止过拟合。

Q. 梯度提升与梯度下降的区别和联系是什么？

两者都是在每一轮迭代中，利用损失函数相对于模型的负梯度方向的信息来对当前模型进行更新，只不过在梯度下降中，模型是以参数化形式表示，从而模型的更新等价于参数的更新。而在梯度提升中，模型并不需要进行参数化表示，而是直接定义在函数空间中，从而大大扩展了可以使用的模型种类。

Q. 基于Gradient Boosting的方法有哪些？(GDBT, XGBoost, LightGBM, CatBoost)

梯度提升树(Gradient Boosting Trees)：梯度提升树是最早和最经典的基于Gradient Boosting的方法之一。它使用决策树作为弱学习器，通过迭代地拟合损失函数的负梯度来逐步提升模型性能。每一棵树都是在之前所有树的预测值的基础上构建的，以减小模型的残差。梯度提升树的核心思想是通过不断添加树来逼近真实的梯度值，从而逐步减小模型的偏差和方差。
XGBoost(eXtreme Gradient Boosting)：XGBoost是梯度提升树的一种优化实现，它在梯度提升树的基础上引入了一些创新的技术，如自定义损失函数、正则化项、列抽样等，以提高模型的性能和泛化能力。XGBoost的主要原理是通过近似的贪婪算法来构建树模型，同时利用二阶梯度信息进行分裂点的选择，从而更准确地拟合目标函数。
LightGBM(Light Gradient Boosting Machine)：LightGBM是另一种基于梯度提升树的算法，它在XGBoost的基础上进行了改进。LightGBM采用了基于直方图的决策树算法，通过对特征值进行离散化处理，以加快训练速度。此外，LightGBM还引入了互斥特征捆绑技术和直方图偏差修正方法，以进一步提高性能。
CatBoost(Categorical Boosting)：CatBoost是一种专门针对具有类别特征的数据集的梯度提升方法，无需手动进行特征编码。它通过使用特殊的处理技术来处理类别特征，并利用对称树和排序算法来提高模型性能。CatBoost还具有自动处理缺失值和稀疏数据的能力，并且支持多种损失函数和评估指标。

Q. 什么是袋外误差(Out-of-Bag Error)和交叉验证(Cross-Validation)在集成学习中的作用？

袋外误差(Out-of-Bag Error)和交叉验证(Cross-Validation)是⽤于评估集成学习模型性能和选择最佳参数的重要⼯具。

袋外误差：在基于⾃助采样(Bootstrap)的集成学习⽅法中，每个基础学习器在构建过程中只使⽤了部分训练样本。因此，未被选中的样本可以⽤于评估模型性能，这些样本称为袋外样本。袋外误差衡量了模型在未⻅过的样本上的预测能⼒。通过计算基础学习器在袋外样本上的误差平均值，可以得到整个集成模型的袋外误差估计。袋外误差提供了⼀种⽆偏估计集成模型的泛化性能的⽅法，可以帮助评估模型的准确度。
交叉验证：交叉验证是⼀种常⽤的模型选择和参数调优⽅法，可⽤于选择最佳的基础学习器、确定集成模型的规模或权重等。它包括将训练数据集划分为多个互斥的⼦集(通常称为折)，然后在其中⼀部分作为验证集，其余部分作为训练集。重复进⾏交叉验证，并评估模型在各个验证集上的性能。最常⽤的交叉验证⽅法是k折交叉验证，其中将数据集划分为k个⼦集，每次选择⼀个作为验证集，剩余k-1个作为训练集。通过对各个验证集的性能进⾏平均或加权平均，可以得到对模型性能的估计。交叉验证可以帮助选择最佳的基础学习器、调整模型参数、评估模型性能，并避免了对单个训练/验证集的过度依赖。

袋外误差和交叉验证都是集成学习中常⽤的评估⼿段，它们提供了⼀种⽆偏估计模型性能的⽅法，有助于选择合适的模型和优化集成模型的参数。

Q. 集成学习在哪些领域和任务中表现出色？它有什么局限性？

集成学习在许多领域和任务中都表现出⾊，特别适⽤于以下情况：

分类问题：集成学习在分类问题中表现出⾊，尤其是在处理复杂的、⾼维度的数据集时。它能够通过组合多个弱分类器来提⾼整体分类准确度；
⼤规模数据集：当有⼤量数据可⽤时，集成学习能够有效地利⽤这些数据，从⽽提⾼模型的泛化性能；
不平衡数据集：当数据集中的类别分布不均衡时，集成学习可以通过调整样本权重或基础学习器的权重来处理这种情况，并提⾼少数类别的分类准确度；
噪声数据：集成学习对于噪声数据具有鲁棒性，通过组合多个基础学习器的输出，可以降低噪声对最终预测结果的影响。

然⽽，集成学习也有⼀些局限性：

训练时间：由于需要构建和训练多个基础学习器，集成学习的训练时间通常⽐单个基础学习器更⻓；
内存消耗：将多个基础学习器组合成集成模型需要占⽤更多的内存空间；
解释性：当集成模型的复杂度增加时，模型的解释性会降低。这是由于集成模型通常由多个基础学习器组成，并且其预测结果可能更难以解释；
⾼度依赖基础学习器：集成学习的性能取决于所选择的基础学习器。如果基础学习器性能较差，整个集成模型的性能可能⽆法达到期望；
过拟合⻛险：在构建过程中，集成学习可能⾯临过拟合问题。当集成模型过于复杂或基础学习器过度拟合训练数据时，模型在未⻅过的数据上的泛化性能可能下降。

尽管存在⼀些局限性，但集成学习仍然是⼀种强⼤的机器学习技术，在很多实际应⽤中取得了显著的成功。

深度学习

Q. BN和LN的区别

Batch Normalization(BN)是在每个特征上单独做标准化。假设我们有10行3列的数据，即batchsize = 10，每一行数据有三个特征，假设这三个特征是身高、体重、年龄，那么BN是针对每一列(特征)进行缩放。相反Layer Normalization(LN)是在每个样本上做标准化，即针对每一行(样本)进行缩放。

BN是为了克服神经网络加深导致难以训练而诞生的，随着神经网络深度加深，训练起来就会越来越困难，收敛速度回很慢，常常会导致梯度弥散问题(Vanishing Gradient Problem)。BN一般用在非线性映射(激活函数)之前，让每一层的输入有一个稳定的分布会有利于网络的训练。

BN的优点：

加大搜索的步长，加快收敛的速度；
更容易跳出局部最小值；
破坏原来的数据分布，一定程度上缓解了过拟合；
提高梯度流动，BN通过将数据归一化到均值为0、方差为1的分布，有助于缓解梯度消失和爆炸的问题，使得梯度能够更好地传播。

BN的缺点：

BN是在batch size样本上各个维度做标准化的，所以size越大肯定越能得出合理的μ和σ来做标准化，因此BN比较依赖size的大小；
BN需要计算每个批次的均值和方差，增加了计算的复杂性。

然而在NLP领域中LN更合适，这是因为BN的操作方向是对每个位置的词在batch维度进行操作。但语言文本的复杂性是很高的，任何一个词都有可能放在初始位置，而且每个句子长度不一，且词序可能并不影响我们对句子的理解。而BN是针对每个位置进行缩放，这不符合NLP的规律。而LN则是针对一句话进行缩放的，且LN一般用在第三维度，如[batchsize, seq_len, dims]中的dims，一般为词向量的维度，或者是RNN的输出维度等等，这一维度各个特征的量纲应该相同，因此也不会遇到上面因为特征的量纲不同而导致的缩放问题。

LN的优点：

LN是每个样本内部做标准化，跟size没关系，不受其影响；
LN对网络深度的变化比较鲁棒，适用于较深的网络结构；

LN的缺点：

比较容易受到输入维度的影响，LN是在特征维度上进行归一化的，因此对于输入维度较大的情况，可能会受到特征之间关系的影响。

BN 和 LN 都可以比较好的抑制梯度消失和梯度爆炸的情况。BN不适合RNN、transformer等序列网络，不适合文本长度不定和batchsize较小的情况，适合于CV中的CNN等网络；而LN适合用于NLP中的RNN、transformer等网络，因为sequence的长度可能是不一致的。

Q. 梯度消失和梯度爆炸产生的原因和解决办法

当前神经网络依靠反向传播来更新参数，反向传播算法可以说是梯度下降在链式法则中的应用，而链式法则是一个连乘的形式，所以当层数越深的时候，梯度将以指数形式传播。梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。在根据损失函数计算的误差通过梯度反向传播的方式对深度网络权值进行更新时，得到的梯度值接近0或特别大，也就是梯度消失或爆炸。梯度消失或梯度爆炸在本质原理上其实是一样的。

【梯度消失】产生的原因有：一是在深层网络中，二是采用了不合适的损失函数，比如sigmoid。当梯度消失发生时，接近于输出层的隐藏层由于其梯度相对正常，所以权值更新时也就相对正常，但是当越靠近输入层时，由于梯度消失现象，会导致靠近输入层的隐藏层权值更新缓慢或者更新停滞。这就导致在训练时，只等价于后面几层的浅层网络的学习。

【梯度爆炸】一般出现在深层网络和权值初始化值太大的情况下。在深层神经网络或循环神经网络中，误差的梯度可在更新中累积相乘。如果网络层之间的梯度值大于 1.0，那么重复相乘会导致梯度呈指数级增长，梯度变的非常大，然后导致网络权重的大幅更新，并因此使网络变得不稳定。

解决办法：

梯度剪裁：通过设置一个阈值，限制梯度的最大值，防止梯度超过阈值，用于解决梯度爆炸问题；
权重正则化：正则化主要是通过对网络权重做正则来限制过拟合。如果发生梯度爆炸，那么权值就会变的非常大，反过来，通过正则化项来限制权重的大小，也可以在一定程度上防止梯度爆炸的发生；
激活函数：选择ReLU等梯度大部分落在常数上的激活函数，ReLU函数的导数在正数部分是恒等于1的，因此在深层网络中使用ReLU激活函数就不会导致梯度消失和爆炸的问题；
Batch Normalization：BN就是通过对每一层的输出规范为均值和方差一致的方法，消除了权重参数放大缩小带来的影响，进而解决梯度消失和爆炸的问题，或者可以理解为BN将输出从饱和区拉倒了非饱和区；
残差结构：残差网络反向传播时，错误信号可以不经过任何中间权重矩阵变换直接传播到低层，一定程度上可以缓解梯度弥散问题。计算梯度时因为有“1”的存在，高层的梯度可以直接传递到低层，有效防止了梯度消失的情况；
LSTM的“门”结构：LSTM的结构设计可以改善RNN中的梯度消失的问题，主要原因在于LSTM内部复杂的“门”，记忆细胞允许梯度在时间上保持更长的路径，而门控机制允许选择性地更新和传递信息，从而改善了梯度的传播和稳定性。

Q. RNN、LSTM和GRU的区别

RNN(循环神经网络)，LSTM(长短期记忆网络)和GRU(门控循环单元)是用于处理序列数据的神经网络模型，它们在结构和功能上有一些区别：

RNN（循环神经网络）：

RNN是最基本的循环神经网络模型，通过在网络中引入循环连接，使得网络可以处理序列数据；
RNN的隐藏状态在每个时间步被更新，并传递到下一个时间步，以捕捉序列中的上下文信息；
然而，标准RNN存在梯度消失和梯度爆炸的问题，难以处理长期依赖关系。

LSTM(长短期记忆网络)：

LSTM是一种特殊类型的循环神经网络，旨在解决RNN中的梯度消失和梯度爆炸问题；
LSTM引入了记忆细胞(memory cell)和门控机制(如遗忘门、输入门和输出门)来控制信息的流动和存储。记忆细胞允许梯度在时间上保持更长的路径，而门控机制允许选择性地遗忘、更新和输出信息，减轻梯度消失和梯度爆炸的问题。

GRU(门控循环单元)：

GRU是LSTM的一种简化变体，旨在减少LSTM的复杂性并降低计算成本；
GRU合并了LSTM中的遗忘门和输入门，只使用了一个更新门和一个复位门；更新门决定了过去信息和当前输入的权重，复位门决定了如何将过去信息与当前输入相结合；
GRU的参数比LSTM更少，计算效率更高，但在某些情况下可能性能稍逊于LSTM。

总的来说，LSTM和GRU是对标准RNN进行改进的模型，解决了梯度消失和梯度爆炸的问题。LSTM通过引入记忆细胞和门控机制，而GRU通过合并门控单元来简化网络结构。选择使用哪种模型取决于具体的任务需求和性能要求。

Q. 深度学习常用的优化算法

梯度下降(Gradient Descent)：是最基本的优化算法之一，通过计算目标函数的梯度，并沿着负梯度方向更新参数值，以逐步逼近最优解；
随机梯度下降法(Stochastic Gradient Descent，SGD）：是梯度下降算法的一种变体，每次迭代只使用一个样本或一小批样本计算梯度和更新参数，以降低计算成本和内存需求。但是该方法会导致准确度下降，由于即使在目标函数为强凸函数的情况下，SGD仍旧无法做到线性收敛，此外可能会收敛到局部最优，由于单个样本并不能代表全体样本的趋势；
Mini-Batch SGD(Mini-Batch Stochastic Gradient Descent)：是梯度下降算法的一种变体，它在每次迭代中使用一小批(mini-batch)的样本来计算梯度和更新参数。相比于传统的梯度下降算法和随机梯度下降算法，Mini-Batch SGD综合了两者的优点，既减少了计算成本，又保持了一定的随机性；
AdaGrad(Adaptive Gradient)：是梯度下降法的改进算法，其优点是可以自适应学习率。该优化算法在较为平缓处学习速率大，有比较高的学习效率，在陡峭处学习率小，在一定程度上可以避免越过极小值点。但是AdaGrad算法过于依赖之前的梯度，在梯度突然变化无法快速响应；
RMSProp(Root Mean Square Propagation)：为了解决Adagrad的问题，在AdaGrad的基础上添加了衰减速率参数。也就是说在当前梯度与之前梯度之间添加了权重，如果当前梯度的权重较大，那么响应速度也就更快；
AdaDelta：AdaDelta是对RMSprop的改进，它消除了学习率的设置，并引入了一个适应性学习率的更新规则，使得学习率的调整更加平滑。AdaDelta的主要目标是解决学习率衰减的问题，使得学习率的调整更加平滑，不需要手动设置学习率；
动量优化(Momentum)：用于加速模型的收敛和减少震荡，避免陷入局部最优。它引入了一种动量项，通过累积过去梯度的指数加权平均，并将其与当前的梯度相结合，以更新模型参数。Momentum的作用是在参数更新时增加一个惯性项，这样可以使得参数在梯度方向上累积动量，从而加速收敛过程。其实vi就是之前所有的gradient的加权总和，越久远的gradient对现在产生的影响越小；
Adam(Adaptive Moment Estimation)：结合了Momentum和RMSprop的优点。它使用了动量项和自适应学习率，并且能够在训练初期迅速收敛，同时在后期能够更精确地调整参数。

Q. 什么是互信息？它如何用于特征选择和降维问题？

互信息(Mutual Information)是⼀种⽤于度量两个随机变量之间的相关性或依赖关系的概念。互信息衡量了⼀个随机变量中的信息对另⼀个随机变量的预测能力，即⼀个随机变量中的信息是否提供了关于另⼀个随机变量的额外信息。

其中，是p(x,y)联合概率分布，p(x)和p(y)分别是边缘概率分布。互信息可以⽤于特征选择和降维问题：

特征选择：互信息可⽤于评估⼀个特征与⽬标变量之间的相关性。通过计算每个特征与⽬标变量的互信息，可以选择具有⾼互信息值的特征作为重要的特征进⾏建模和预测；
降维：在降维问题中，互信息可⽤于度量原始特征与新⽣成的降维特征之间的相关性。通过选择具有⾼互信息值的特征或特征组合，可以保留最具信息量的特征，从⽽实现维度的减少。

注意，互信息在计算特征之间的相关性时不考虑它们的线性关系。在某些情况下，互信息可能⽆法捕捉到⾮线性相关性。因此，在实际应⽤中，需要结合其他⽅法和技术来综合考虑特征选择和降维的需求。

Q. 归一化/标准化的作用

消除特征之间的量纲差异：不同的特征往往具有不同的数值范围，归一化或标准化可以使得特征之间的数值范围统一，避免由于数值范围差异带来的偏差；
提高模型收敛速度：归一化或标准化可以加快模型的收敛速度，尤其是对于使用基于梯度的优化算法(如梯度下降)的模型。这是因为特征值的范围统一可以使得更新的步长更加一致和稳定；
有效地利用特征信息：归一化或标准化可以确保特征的分布形状和方差尽可能一致，这有助于避免某些特征对模型的影响过大，从而更好地利用特征信息；
提⾼特征的可解释性：在某些情况下，归⼀化或标准化可以提⾼特征的可解释性，使得不同特征的权重
更容易⽐较

⼀般来说，如果特征值的分布范围未知，或者特征值分布接近正态分布，标准化是⼀个不错的选择。如果特征有已知的上下界或者需要将特征映射到⼀定范围内，那么归⼀化可能更合适。有时候，也可以同时使⽤两者，根据具体情况对不同特征进⾏不同的处理。

Q. 特征选择和特征抽取的区别，以及它们在数据预处理中的作用

特征选择(Feature Selection)：

特征选择是从原始特征集合中选择⼀部分重要的特征，保留它们，⽽丢弃不相关或冗余的特征；
特征选择的⽬的是降低维度、减少计算成本、提⾼模型的解释性、减少过拟合的⻛险，并且可能改善模型的性能；
特征选择⽅法包括过滤⽅法、包装⽅法和嵌⼊⽅法等。过滤⽅法独⽴于模型，基于统计或信息论等度量进⾏特征选择，如相关性、互信息等。包装⽅法通过模型的性能来评估特征的重要性，例如递归特征消除(Recursive Feature Elimination， RFE)。嵌⼊⽅法将特征选择与模型训练过程结合在⼀起，例如L1正则化的线性回归。

特征抽取(Feature Extraction)：

特征抽取是通过将原始特征转换为新的特征集合来降低维度。这些新特征通常是原始特征的线性或⾮线性组合；
特征抽取的⽬的是发现数据中的潜在结构、减少冗余信息、降低维度、提⾼模型性能，并且可以⽤于降维和可视化；
常⻅的特征抽取技术包括主成分分析(Principal Component Analysis，PCA)和独⽴成分分析(Independent Component Analysis，ICA)，以及⾮线性降维技术如t-SNE(t-Distributed Stochastic Neighbor Embedding)等。

区别：

主要区别在于特征选择保留了原始特征，⽽特征抽取创建了新的特征。特征选择是从现有特征中挑选出最有价值的特征，⽽特征抽取是通过线性或⾮线性变换创建新的特征；
特征选择通常更容易解释，因为它仅仅是选择原始特征中的⼀个⼦集，⽽特征抽取可能创建的新特征不直接对应原始特征；
特征选择更适⽤于数据维度较低，⽽特征抽取通常⽤于⾼维数据或在需要减少冗余信息的情况下。

在实际应⽤中，选择特征选择还是特征抽取取决于问题的性质、数据的维度和机器学习模型的要求。在某些情况下，这两种⽅法也可以结合使⽤，先进⾏特征抽取，然后再进⾏特征选择，以达到更好的特征⼯程效果。

Q. 什么是无监督学习？举例说明无监督学习任务

⽆监督学习(Unsupervised Learning)是机器学习的⼀种分⽀，其特点是在训练数据中没有明确的标签或⽬标输出。在⽆监督学习中，模型的任务是从数据中发现隐藏的结构、模式或关系，⽽不需要预先知道⽬标变量或标签。⽆监督学习任务通常可以分为两类：

聚类(Clustering)：聚类任务的⽬标是将数据分成不同的组或簇，使得同⼀组内的数据点相似，⽽不同组之间的数据点差异较⼤；
降维(Dimensionality Reduction)：降维任务的⽬标是减少数据的维度，保留尽可能多的信息，同时降低冗余性。降维可以帮助简化数据，减少噪声，并提⾼计算效率。

⽆监督学习通常⽤于发现数据的内在结构和关联，因此在数据挖掘、特征⼯程和可视化等领域有⼴泛的应⽤。与监督学习不同，⽆监督学习不需要事先标记的训练数据，因此更适⽤于探索性分析和数据探索。

Q. 常用的激活函数及优缺点

常用的激活函数有以下几种：

Sigmoid函数：

优点：Sigmoid函数将输入映射到0到1之间的连续输出，适用于二分类问题和输出概率的情况。
缺点：Sigmoid函数存在梯度饱和问题，当输入较大或较小时，梯度接近于0，导致反向传播时梯度消失的问题；输出不是以0为中心，可能导致神经元的输出偏移。

双曲正切函数(Tanh函数)：

优点：Tanh函数将输入映射到-1到1之间的连续输出，相比于Sigmoid函数，Tanh函数的输出以0为中心，更适用于神经网络的隐藏层。
缺点：Tanh函数同样存在梯度饱和问题，当输入较大或较小时，梯度接近于0，导致反向传播时梯度消失的问题。

ReLU函数：

优点：ReLU函数将负数映射为0，正数保持不变，解决了Sigmoid和Tanh函数的梯度饱和问题，使得神经网络的训练更加快速和稳定；计算简单，减少了计算复杂性。
缺点：ReLU函数存在一个问题称为“神经元死亡”，当输入小于0时，梯度为0，导致该神经元无法更新权重，因此在训练过程中可能会出现某些神经元始终不被激活的情况。

Leaky ReLU函数：

优点：Leaky ReLU函数在负数部分引入一个小的斜率，解决了ReLU函数的“神经元死亡”问题，允许负数部分有小的梯度，使得神经元在训练过程中能够更新权重。
缺点：Leaky ReLU函数在实践中并没有被广泛证明比ReLU函数效果更好，斜率的选择可能会影响模型的性能。

Softmax函数：

优点：Softmax函数常用于多分类问题，将输入映射到0到1之间的概率分布，并且所有类别的概率之和为1。
缺点：Softmax函数的输出受到输入中最大值的影响，当输入较大时，Softmax函数的输出梯度接近于0，可能导致梯度消失的问题。

每种激活函数都有其适用的场景和局限性，选择适合特定任务和网络结构的激活函数是神经网络设计中的重要考虑因素。

Q. 正则化为什么可以提高模型泛化能力

正则化可以增加模型的泛化能力，主要基于以下两个原因：

减少过拟合：正则化通过限制模型的复杂性，防止模型对训练数据的过拟合。过拟合指的是模型过度拟合训练数据，导致在新的未见过的数据上表现不佳。正则化方法(如L1正则化、L2正则化)通过在损失函数中引入正则化项，惩罚模型的复杂性，使得模型倾向于选择简单的解决方案。这样可以防止模型过于依赖于训练数据中的噪声或不相关的特征，从而提高在新数据上的泛化能力。
特征选择和权重衰减：正则化方法可以促使模型选择重要的特征并减少对不相关或冗余特征的依赖。例如，L1正则化倾向于产生稀疏权重向量，将一些特征的权重推向零，相当于进行特征选择，只保留对目标变量有更强预测能力的特征。而L2正则化通过权重衰减减小权重的幅度，使得每个特征对模型的影响更加均衡。这样可以提高模型对特征的鲁棒性，减少对特定样本的过度敏感性，进而提高泛化能力。

通过正则化方法，模型能够在学习过程中在准确性和复杂性之间进行权衡，更好地适应未见过的数据。正则化可以看作是一种对模型的约束，帮助模型学习到更一般化的规律，减少对训练数据的过度拟合，从而提高模型的泛化能力。

你可能感兴趣的:(机器学习,机器学习,深度学习,笔记)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
两台pc如何高速度传输大文件费城之鹰其他两台电脑高速传输文件局域网不适用U盘传输资料网线直连两台电脑传资料
今天笔记本跑一个大一点的项目，8G的内存直接100%，i5的CPU直接75%并且在超频工作了，原本1.6Ghz的频率直接飙到了3.8Ghz，由于项目性质原因，采用的是公司配的笔记本，但是年初采购的联想E480，还在三包时间段内，公司不允许拆机增加内存，只能换一台新的台式机，听起来挺爽，有新设备，但是办公区域不准使用U盘这一类的存储设备，这就蛋疼了，大半年了项目代码，资料全在这个不够用的笔记本里，问
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
玩转Docker | 使用Docker部署NotepadMX笔记应用程序心随_风动玩转Docker docker 笔记 eureka
玩转Docker|使用Docker部署NotepadMX笔记应用程序前言一、NotepadMX介绍工具简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署NotepadMX服务下载NotepadMX镜像编辑部署文件创建容器检查容器状态检查服务端口安全设置四、访问NotepadMX服务访问NotepadMX首页设置访问验证编辑笔记总结前言在如今快节奏的工作与学习中，一
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【前端】异步任务风控验证与轮询机制技术方案（通用笔记版）
一、背景场景在某类生成任务中，例如用户点击“执行任务”按钮后触发一个较耗时的后端操作（如生成报告、渲染图像、转码视频等），由于其调用了模型、渲染服务或需要较长处理时间，为了防止接口被频繁恶意调用，系统需要加入风控验证机制。此外，因任务处理为异步，前端无法立即获得最终结果，因此需通过轮询方式定期查询任务状态，等待任务完成后展示结果。二、整体流程说明1.用户点击“执行任务”按钮：前端调用风控接口/ap
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc