回想sy

机器学习常见问题

机器学习一些常见问题

特征工程是什么？

特征工程（Feature Engineering）特征工程是将原始数据转化成更好的表达问题本质的特征的过程，使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。

特征工程简单讲就是发现对因变量y有明显影响作用的特征，通常称自变量x为特征，特征工程的目的是发现重要特征。

如何能够分解和聚合原始数据，以更好的表达问题的本质？这是做特征工程的目的。

特征工程是数据挖掘模型开发中最耗时、最重要的一步。

深度了解特征工程 - 知乎 (zhihu.com)

类别特征编码方式有哪些？如何解决 target encoding 的 target leakage？count encoding 有个缺点：测试集和训练集分布不同，导致特征频率不一样怎么办？

类别特征的编码方式有：LabelEncoder、OneHotEncoder、二值化编码、基于统计的类别编码、直方图编码与计数编码(count)、target encoding 目标编码、meaning code，catboost encode

直方图编码与计数编码(count)

假设类别特征f1=【A，A，B，B，B，C，C】，对应的二分类标签为【0，1，0，1，1，0，0】，则我们是这样来计算类别特征f1中对应的类别的编码值的：

以A为例，类别特征f1的值为A的样本有两个，这两个样本的标签分别为【0，1】，则A被直方图编码为【1/2,1/2】=【0.5，0.5】（A的样本一共有2个所以分母为2，其中一个样本标签为1，一个样本标签为0），实际上就是计算取值为A的样本中，不同类别样本的比例，然后用这个比例来替换原始的类别标签，这里需要强调的是，无论是直方图编码还是我们后面要介绍的target encoding，本质上都是用类别特征的统计量来代替原来的类别值的，没什么神秘的地方，很好理解。

如法炮制，我们来对B进行类别编码，f1值为B的一共3个样本，其中一个样本标签为0，两个样本标签为1，所以B被编码为【1/3,2/3】，很好理解了。同样对于C，一共两个样本，并且两个样本标签均为0，则编码为【2/2,0】。

直方图编码存在以下问题：

1、没有考虑到类别特征中不同类别的数量的影响，举个例子，假设样本的某个类别特征为【A,A,A,A,A,A,B】，对应的标签为【0，0，0，1，1，1，0】，则根据直方图编码的公式得到的结果为A：【1/2,1/2】，B：【1,0】，然而这实际上对于A来说是很不公平的，因为B的样本数量太少，计算出来的结果根本不能算是明显的统计特征，而很可能是一种噪音，这实际上是一种非常“过拟合”的计算方式，因为一旦测试集中的样本有多个B之后，B的直方图编码的结果很可能发生非常大的变化；

2、假设没有1中出现的情况，所有的类别A，B的数量都比较均匀，直方图编码还是存在着一个潜在的隐患，直方图编码的计算非常依赖于训练集中的样本标签的分布情况，以f1特征的那个例子为例，实际上直方图这么计算的隐含的假设是潜在的所有的数据的在类别f1上的每一个类别计算出来的结果可以用训练集的结果来近似代替，简单说比如我在训练集中算出来A的直方图编码为【1/2,1/2】，即类别为A的样本中有一半标签0的样本，一半标签1的样本，那么一旦测试集的分布情况发生改变，或者是训练集本身的采样过程就是有偏的，则直方图编码的结果就是完全错误的，（比如全样本中，类别为A的样本其实只有10%是标签为0的，90%标签为1的，则这个时候A的直方图编码为【1/10,9/10】，训练集的产生可能是有偏的）；

计数编码：就是根据每一个类别特征的类别对二分类标签进行sum求和得到每个类别中样本标签为1的总数。

target encode: 对于C分类问题,目标编码（target encode）后只需要增加C−1个属性列,如果C远远小于N,则相对one-hot-encoding可以节省很多内存. 其出发点是用概率P(y=yi|x=xi)代替属性值x, 其中x表示属性值,y表示类别值. 但实际问题中,经常会遇到x=xi对应的样本数目比较少,导致对P(y=yi|x=xi)的计算不准确. 所以后来的改进结果是引入先验概率P(y=yi),公式转换成：

细心一点就可以发现，如果上述不引入先验概率P以及 $\lambda$ 项，其实就是我们前面提到的直方图编码。直方图编码是target encode和mean encode的前辈了。

其中j∈[0,C),ni是训练集中xi的样本个数,λ(ni)∈[0,1]负责计算两个概率值的可靠性,针对应用有不同的定义方法,如下是一个例子：

(我们的category_encoders库使用的就是上面这个例子的计算方式，其中参数k和f分别是我们的 min_sample_leaf和smoothing参数), 二者都是一个可调参数,当x在训练集中出现次数n=k时,λ(n)=0.5,两个概率的可靠性相等,随者n的增大,先验概率P(y=yi)的可靠性逐渐降低。

对于回归问题：回归问题同样可以使用均值编码,只需要把概率换成均值

target encode是针对高基数类别特征进行处理手段的最好的选择之一。但它也有缺点，就是容易过拟合，因为所有的统计计算都是基于训练集来的，所以一旦新数据集的分布发生变化，就会产生类似于过拟合所产生的不良的训练效果。

mean code: 为了解决target encode的过拟合问题，引入了交叉验证的方法

count encoding 有个缺点：测试集和训练集分布不同，导致特征频率不一样怎么办？ 可以取 log 减少过拟合程度

项目中如何做交叉特征，为什么这样交叉，基于业务意义？

特征交叉本质上是一个笛卡尔积，两个特征列进行笛卡尔积。笛卡尔积中，如果同时满足两者的条件，则结果为1；否则为0，因此这种方式更加适合离散型的数据特征。一般来说，先把数据进行分档处理，再把分档的结果进行特征交叉，此时可以获得更好的数据特征，分档处理可以对数据降维，从而极大地简化计算量。

如何进行特征选择？

特征选择是特征工程里的一个重要问题，其目标是 寻找最优特征子集 。特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征，从而达到减少特征个数， 提高模型精确度，减少运行时间的目的 。

特征选择的一般过程：

生成子集：搜索特征子集，为评价函数提供特征子集

评价函数：评价特征子集的好坏

停止准则：与评价函数相关，一般是阈值，评价函数达到一定标准后就可停止搜索

验证过程：在验证数据集上验证选出来的特征子集的有效性

但是，当特征数量很大的时候，这个搜索空间会很大，如何找最优特征还是需要一些经验结论。

https://zhuanlan.zhihu.com/p/74198735

常用的有：

Filter(过滤法)：按照发散性或相关性对各个特征进行评分，设定阈值或者待选择特征的个数进行筛选
Wrapper(包装法)：根据目标函数（往往是预测效果评分），每次选择若干特征，或者排除若干特征
Embedded(嵌入法)：先使用某些机器学习的模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征（类似于Filter，只不过系数是通过训练得来的）

过滤法

基本想法是：分别对每个特征 $x_i$ ，计算 $x_i$ 相对于类别标签 $y$ 的信息量 $S (i)$ ，得到 $n$ 个结果。然后将 $n$ 个 $S (i)$ 按照从大到小排序，输出前 $k$ 个特征。显然，这样复杂度大大降低。那么关键的问题就是使用什么样的方法来度量 $S (i)$ ，我们的目标是选取与 $y$ 关联最密切的一些特征 $x_i$ 。

Pearson相关系数
卡方验证
互信息和最大信息系数
距离相关系数
方差选择法

Pearson 相关系数：公式为： $Y)=\frac{\sum_{i=1}^{n}(X_i-\overline{X})(Y_i-\overline{Y})}{\sqrt{\sum_{i=1}^{n}(X_i-\overline{X})^2\sum_{i=1}^{n}(Y_i-\overline{Y})^2}}$ , 由公式可知，Pearson 相关系数是用协方差除以两个变量的标准差得到的，虽然协方差能反映两个随机变量的相关程度（协方差大于0的时候表示两者正相关，小于0的时候表示两者负相关），但其数值上受量纲的影响很大，不能简单地从协方差的数值大小给出变量相关程度的判断。为了消除这种量纲的影响，于是就有了相关系数的概念。当两个变量的方差都不为零时，相关系数才有意义，相关系数的取值范围为[-1,1]。Scipy的pearsonr方法能够同时计算相关系数和p-value

卡方验证：经典的卡方检验是检验类别型变量对类别型变量的相关性。假设自变量有N种取值，因变量有M种取值，考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距，构建统计量： $\chi^2=\sum\frac{(A-E)^2}{E}$ 不难发现，这个统计量的含义简而言之就是自变量对因变量的相关性。

包装法

基本思想：基于hold-out方法，对于每一个待选的特征子集，都在训练集上训练一遍模型，然后在测试集上根据误差大小选择出特征子集。需要先选定特定算法，通常选用普遍效果较好的算法，例如Random Forest， SVM， kNN等等。

为什么需要计算特征重要性，计算特征重要性的方法有哪些？

特征重要性评分是一种为输入特征评分的手段，其依据是输入特征在预测目标变量过程中的有用程度。

特征重要性有许多类型和来源，尽管有许多比较常见，比如说统计相关性得分，线性模型的部分系数，基于决策树的特征重要性和经过随机排序得到重要性得分。可以

更好地理解数据
更好地理解模型
减少输入特征的数量

有三种方法获得特征重要性排序：

从模型系数得知的特征重要性。
决策树中的特征重要性。
随机排序检验中的特征重要性。

1、从模型系数得知的特征重要性。

如用线性模型去拟合线性数据集中，拟合得到的函数为 $y=f(x)=w_1x_1+w_2x_2+w_3x_3+\cdots$ 其中 $w_1,w_2,w_3\cdots$ 就为各个特征的重要性。

2、决策树中的特征重要性。

决策树算法，比如说classification and regression trees（CART）根据Gini系数或熵的减少来提供重要性得分。这个方法也可用于随机森林和梯度提升算法。

对于在scikit-learn中实现的特征重要性，我们可以将CART算法用于DecisionTreeRegressor和DecisionTreeClassifier类

拟合后，模型提供feature_importances_属性，可以访问该属性以检索每个输入特征的相对重要性得分。

3、随机排序检验中的特征重要性。

随机排序特征重要性（Permutation feature importance）可以计算相对重要性，与所使用的模型无关。

首先，在数据集中拟合出一个模型，比如说一个不支持本地特征重要性评分的模型。然后，尽管对数据集中的特征值进行了干扰，但仍可以使用该模型进行预测。对数据集中的每个特征进行此操作。然后，再将整个流程重新操作3、5、10或更多次。我们得到每个输入特征的平均重要性得分（以及在重复的情况下得分的分布）。

此方法可以用于回归或分类，要求选择性能指标作为重要性得分的基础，例如回归中的均方误差和分类中的准确性。

可以通过permutation_importance()函数（以模型和数据集为参数）和评分函数进行随机排序特性选择。我的理解为若将一个特征置为随机数，模型效果下降很多，说明该特征比较重要；反之则不是。

答案来源文章

连续特征怎么分箱，如何判断分箱的结果是好是坏？

数据分箱：数据分箱（也称为离散分箱或分段）是一种数据预处理技术，用于减少次要观察误差的影响，是一种将多个连续值分组为较少数量的“分箱”的方法。

一般在建立分类模型时，需要对连续变量离散化，特征离散化后，模型会更稳定，降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化，离散化通常采用分箱法。分箱的有以下重要性及其优势：

离散特征的增加和减少都很容易，易于模型的快速迭代；

稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；

离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。4. 如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；

逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单6. 独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；

离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；

特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问；

特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。

可以将缺失作为独立的一类带入模型。

将所有变量变换到相似的尺度上。

分箱方法介绍

https://www.jianshu.com/p/0805f185ecdf

重点：决策树分箱

特征平滑方法有哪些?

图像处理中取各种滤波，取log、指数平滑等平滑求平均（时间序列数据的操作）

怎么处理长尾问题，从样本，模型的角度来看，从优化器的角度来看？

长尾问题：在实际的视觉相关问题中，数据都存在长尾分布：少量类别占据绝大多数样本，大量的类别仅有少量的样本，比如open-images,ImageNet等。

解决长尾问题嘚方案一般分为4种：

1，Re-sampling:主要是在训练集上实现样本平衡，如对tail中的类别样本进行过采样，或者对head类别样本进行欠采样；

2，Re-weighting：主要在训练loss中，给不同的类别的loss设置不同的权重，对tail类别loss设置更大的权重;
3，Learning strategy（阶段训练）：有专门为解决少样本问题涉及的学习方法可以借鉴，如：meta-learning、metric learning、transfer learing。另外，还可以调整训练策略，将训练过程分为两步：第一步不区分head样本和tail样本，对模型正常训练；第二步，设置小的学习率，对第一步的模型使用各种样本平衡的策略进行finetune。

4，综合使用以上策略

(Long-Tail(长尾)问题的解决方案_龙海L的博客-CSDN博客_long tail)

什么样的 ID 经过 Embedding 后可能有效，如何筛选有效的 ID。有些 ID 数量级很大，怎么处理?

神经网络如何跳出局部最优?

通俗了解神经网络如何避免陷入局部最优_weixin_43167121的博客-CSDN博客_神经网络陷入局部最优

动量法、自适应梯度下降法

神经网络如何缓解过拟合，讲一下 dropout，dropout 训练和预测的时候有什么不同， dropout 操作类似于机器学习中的什么操作？

1.增加样本数据量
2.数据增强，人为扩展数据量
3.正则化
4.Dropout
5.early stopping
6.batch normalization

Dropout可以认为是一种极端的Bagging，每一个模型都在单独的数据上训练，同时，通过和其他模型对应参数的共享，从而实现模型参数的高度正则化。

dropout 在测试的时候网络权重需要乘以dropout的比率 $p$ ，或者在训练的时候对输入向量缩放——乘以 $\frac{1}{1-p}$

Dropout 的步骤：

1）随机删除网络中的一些隐藏神经元，保持输入输出神经元不变；

2）将输入通过修改后的网络进行前向传播，然后将误差通过修改后的网络进行反向传播；

3）对于另外一批的训练样本，重复上述操作。

Bagging、Boosting、Stacking

Bagging：独立的集成多个模型，每个模型有一定的差异，最终综合有差异的模型的结果，获得学习的最终的结果；

Boosting（增强集成学习）：集成多个模型，每个模型都在尝试增强（Boosting）整体的效果；

Stacking（堆叠）：集成 k 个模型，得到 k 个预测结果，将 k 个预测结果再传给一个新的算法，得到的结果为集成系统最终的预测结果；

Bagging和Boosting的区别：

1）样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。

Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2）样例权重：

Bagging：使用均匀取样，每个样例的权重相等

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

3）预测函数：

Bagging：所有预测函数的权重相等。

Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

4）并行计算：

Bagging：各个预测函数可以并行生成

Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

5）bagging是减少variance，而boosting是减少bias

batch normalization 和 layer normalization 区别，写一下 bn 公式？

batch normalization

batch normalization是对一批样本的同一纬度特征做归一化,一般放在全连接层和激活函数中间

BN特点：强行将数据转为均值为0，方差为1的正态分布，使得数据分布一致，并且避免梯度消失。而 梯度变大意味着学习收敛速度快，能够提高训练速度 。

设batch_size为m，网络在向前传播时，网络中每个神经元都有m个输出，BN就是将每个神经元的m个输出进行归一化处理，看到BN原论文中的伪代码：

即有两个步骤：

标准化：求得均值为0，方差为1的标准正态分布 $\overline{x_i}$
尺度变换和偏移：获得新的分布 $y_i$ 。均值为 $\beta$ , 方差为 $\gamma$ 。(其中偏移 $\beta$ 和尺度变换 $\gamma$ 为需要学习的参数)。该过程有利于数据分布和权重的互相协调。这个 scale 和 shift ，它们的主要作用就是找到一个 线性和非线性的平衡点 ，既能享受非线性较强的表达能力，有可以避免非线性饱和导致网络收敛变慢问题。

特别的，令 $\gamma$ = 1， $\beta$ = 0 等价于只有标准化过程；令 $\gamma$ = $\sigma$ ， $\beta$ = $\mu$ 等价于没有添加BN层

Batch Normalization 超详细解读（训练、测试、优点、缺点）（算法面试几乎必考）_苏学算法的博客-CSDN博客_batch normalization训练和测试

深度学习之解密Batch Normalization - 箐茗 - 博客园 (cnblogs.com)

Layer normalization

由于Batch Normalization使用mini-batch的均值和标准差对深度神经网络的隐藏层输入进行标准化 ，可有效地提升训练速度。对于前向神经网络应用Batch Norm，使用简单SGD优化器，训练速度也能有较大提升。

BN的效果受制于batch的大小，小batch未必能取得预期效果；

对于前向神经网络可以很直接地应用BN，因为其每一层具有固定的神经元数量，可直接地存储每层网络各神经元的均值、方差统计信息以应用于模型预测，但在RNNs网络中，不同的mini-batch可能具有不同的输入序列长度（深度），计算统计信息比较困难，而且测试序列长度不能大于最大训练序列长度；

Batch Normalization也很难应用于在线学习模型，以及小mini-batch的分布式模型；

层标准化详解（Layer Normalization）_十里清风的博客-CSDN博客_layer normalization

优化器了解哪些，adam 相对 sgd 的改进？

1、SGD

2、momentum

SGD下降方法的缺点是参数更新方向只依赖于当前batch计算出的梯度，因此十分的不稳定。为了抑制SGD的震荡，动量认为梯度下降的过程中可以加入惯性。动量梯度下降法运行速度总是快于标准的梯度下降法，其基本思想是在SGD的基础上引入了一阶动量：

$\hat{g} \leftarrow +\frac{1}{m}\bigtriangledown_\theta \sum_{i}L(f(x_i;\theta), y_i) \\ v \leftarrow \alpha v - \epsilon \hat{g} \\ \theta \leftarrow \theta + v$

一阶动量指的是各个时刻梯度的指数加权平均，约等于 $\frac{1}{1-\beta_1}$ 个历史时刻的梯度向量和的平均值，也就是t时刻的下降方向，不仅由当前点的梯度方向决定，还由此前的累积的梯度来决定， $\beta$ 的经验值一般为0.9，也就是意味着下降方向主要是此前累积的下降方向，并略微偏向当前时刻的下降方向。并利用当前batch微调最终的更新方向。如果当前梯度方向与历史梯度一致，会增强该方向的梯度。如果不一致，能够减少更新。
优点：

增加了稳定性；
收敛速度更快；
还有一定摆脱局部最优的能力。

3、Nesterov Momentum

具体实现:
需要:学习速率 $\epsilon$ , 初始参数 $\theta$ , 初始速率 $v$ , 动量衰减参数 $\alpha$
每步迭代过程:

从训练集中的随机抽取一批容量为m的样本 ${x_1,\cdot, x_m}$ ,以及相关的输出 $y_i$
计算梯度和误差,并更新速度 v 和参数 $\theta$ :

$\hat{g} \leftarrow +\frac{1}{m}\bigtriangledown_\theta \sum_{i}L(f(x_i;\theta+\alpha v), y_i) \\ v \leftarrow \alpha v - \epsilon \hat{g} \\ \theta \leftarrow \theta + v$

注意求梯度时时用 $f(x_i;\theta+\alpha v)$ , 而不是 $\theta$ .

4、AdaGrad

具体实现:
需要:全局学习速率 $\epsilon$ , 初始参数 $r$ , 数值稳定量 $\delta$
中间变量: 梯度累计量r(初始化为0)
每步迭代过程:

从训练集中的随机抽取一批容量为m的样本,以及相关的输出
计算梯度和误差,更新r,再根据r和梯度计算参数更新量

$\hat{g} \leftarrow +\frac{1}{m}\bigtriangledown_\theta \sum_{i}L(f(x_i;\theta), y_i) \\ r \leftarrow r + \hat{g} \odot \hat{g} \\ \Delta \theta \leftarrow -\frac{\epsilon}{\delta+\sqrt{r}}\odot \hat{g} \\ \theta \leftarrow \theta + \Delta \theta \\$

优点:
能够实现学习率的自动更改。如果这次梯度大,那么学习速率衰减的就快一些;如果这次梯度小,那么学习速率衰减的就满一些。

缺点:
任然要设置一个变量
经验表明，在普通算法中也许效果不错，但在深度学习中，深度过深时会造成训练提前结束。可能梯度平方和累加过大，梯度消失

5、RMSProp

RMSProp通过引入一个衰减系数，让r每回合都衰减一定比例，类似于Momentum中的做法。

具体实现:
需要:全局学习速率 $\epsilon$ 初始参数 $r$ , 数值稳定量 $\delta$ ，衰减速率 $\rho$
中间变量: 梯度累计量r(初始化为0)
每步迭代过程:

从训练集中的随机抽取一批容量为m的样本,以及相关的输出
计算梯度和误差,更新r,再根据r和梯度计算参数更新量

$\hat{g} \leftarrow +\frac{1}{m}\bigtriangledown_\theta \sum_{i}L(f(x_i;\theta), y_i) \\ r \leftarrow \rho r + (1-\rho)\hat{g} \odot \hat{g} \\ \Delta \theta \leftarrow -\frac{\epsilon}{\delta+\sqrt{r}}\odot \hat{g} \\ \theta \leftarrow \theta + \Delta \theta \\$

6、RMSProp with Nesterov Momentum

具体实现:
需要:全局学习速率 , 初始参数 , 初始速率v，动量衰减系数, 梯度累计量衰减速率
中间变量: 梯度累计量r(初始化为0)
每步迭代过程:

从训练集中的随机抽取一批容量为m的样本,以及相关的输出
计算梯度和误差,更新r,再根据r和梯度计算参数更新量

$\tilde{\theta} \leftarrow \theta + \alpha v \\ \hat{g} \leftarrow +\frac{1}{m}\bigtriangledown_\theta \sum_{i}L(f(x_i;\theta), y_i) \\ r \leftarrow \rho r + (1-\rho)\hat{g} \odot \hat{g} \\ v \leftarrow \alpha v - \frac{\epsilon}{\sqrt{r}}\odot \hat{g} \\ \theta \leftarrow \theta + v \\$

7.AdaDelta

AdaDelta基本思想是用一阶的方法，近似模拟二阶牛顿法。不仅对分母添加了衰减系数，对分子也改动了一下

8.Adam

Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。

具体实现:
需要:步进值 , 初始参数 , 数值稳定量，一阶动量衰减系数, 二阶动量衰减系数
其中几个取值一般为：
中间变量：一阶动量s，二阶动量r,都初始化为0
每步迭代过程:

从训练集中的随机抽取一批容量为m的样本,以及相关的输出
计算梯度和误差,更新r和s,再根据r和s以及梯度计算参数更新量

$\hat{g} \leftarrow +\frac{1}{m}\bigtriangledown_\theta \sum_{i}L(f(x_i;\theta), y_i) \\ s \leftarrow \rho_1 s + (1-\rho_1) g \\ r \leftarrow \rho_2 + (1-\rho_2)g \odot g \\ \hat{s} \leftarrow \frac{s}{1-\rho_1} \\ \hat{r} \leftarrow \frac{r}{1-\rho_2} \\ \Delta \theta = - \epsilon \frac{\hat{s}}{\sqrt{\hat{r}}+\delta} \\ \theta \leftarrow \theta + v \\$

激活函数的作用，各个激活函数的优缺点？

网上很多这里就不贴了

图神经网络相关？

如何缓解 RNN 的梯度消失？

梯度消失：
由于0-1范围内的导数累乘，会发现累乘会导致激活函数导数的累乘，如果取tanh或sigmoid函数作为激活函数的话，那么必然是一堆小数在做乘法，结果就是越乘越小。随着时间序列的不断深入，小数的累乘就会导致梯度越来越小直到接近于0，这就是“梯度消失“现象。

解决

选取更好的激活函数，如Relu激活函数。ReLU函数的左侧导数为0，右侧导数恒为1，这就避免了“梯度消失“的发生。但恒为1的导数容易导致“梯度爆炸“，但设定合适的阈值可以解决这个问题。
加入LN层，其优点包括可加速收敛、控制过拟合，可以少用或不用Dropout和正则、降低网络对初始化权重不敏感，且能允许使用较大的学习率等
改变传播结构，如换成LSTM

讲一下 LSTM。LSTM 为啥能缓解梯度爆炸和梯度消失？LSTM 激活函数可以使用 relu 吗？

RNN 的梯度消失问题 - 知乎 (zhihu.com)

最好不要用relu 因为lstm中的两个激活函数一个sigmoid用于生成遗忘门、输出门、输入门的值（0-1），另一个函数tanh用来输出状态和输出向量，如果用relu会造成数据分布偏移，因为relu不是关于原点中心对称的。

CNN 和 RNN 在实际使用中有哪些优缺点？NLP 中，什么情况下使用 CNN，什么情况下使用 RNN？

CNN 与 RNN

相同点：
2.1. 传统神经网络的扩展；
2.2. 前向计算产生结果，反向计算模型更新；
2.3. 每层神经网络横向可以多个神经元共存，纵向可以有多层神经网络连接。

不同点：
3.1. CNN空间扩展，神经元与特征卷积；RNN时间扩展，神经元与多个时间输出计算；
3.2. RNN可以用于描述时间上连续状态的输出，有记忆功能，CNN用于静态输出；
3.3. CNN高级100+深度，RNN深度有限。

神经网络权重全 0 初始化会有什么问题？应该怎样初始化？讲讲 Xavier 初始化？神经网络的初始化。

不良的初始化，极易造成梯度消失or梯度爆炸

啃一啃神经网络——权重初始化 - 知乎 (zhihu.com)

深度学习之参数初始化（一）——Xavier初始化_Vic时代的博客-CSDN博客_xavier初始化

树模型怎么处理连续特征？

c4.5 用来解决 ID3 什么问题？

ID3 的缺点：

ID3 没有剪枝策略，容易过拟合；
信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于 1；
只能用于处理离散分布的特征；
没有考虑缺失值。

C4.5 相对于 ID3 的缺点对应有以下改进方式：

引入悲观剪枝策略进行后剪枝；
引入信息增益率作为划分标准；
将连续特征离散化，假设 n 个样本的连续特征 A 有 m 个取值，C4.5 将其排序并取相邻两样本值的平均数共 m-1 个划分点，分别计算以该划分点作为二元分类点时的信息增益，并选择信息增益最大的点作为该连续特征的二元离散分类点；
对于缺失值的处理可以分为两个子问题：
问题一：在特征值缺失的情况下进行划分特征的选择？（即如何计算特征的信息增益率）
问题二：选定该划分特征，对于缺失该特征值的样本如何处理？（即到底把这个样本划分到哪个结点里）
针对问题一，C4.5 的做法是：对于具有缺失值特征，用没有缺失的样本子集所占比重来折算；
针对问题二，C4.5 的做法是：将样本同时划分到所有子节点，不过要调整样本的权重值，其实也就是以不同概率划分到不同节点中。

gbdt 和 rf 分别是集成的什么思想，解决什么误差?

gbdt boosting思想解决偏差 rf 是bagging思想解决方差

GBDT 怎么生成一个新的树，怎么确定叶子节点的权重？

随机森林和 xgboost 那个树的深度更深?

随机森林的较深。

随机森林，GBDT，XGBoost的对比_QueenieK的博客-CSDN博客_xgboost和随机森林的区别

对于Bagging算法来说，由于我们会并行地训练很多不同的分类器的目的就是降低这个方差(variance),因为采用了相互独立的基分类器多了以后，我们想要的值自然就会靠近期望.所以对于每个基分类器来说，目标就是如何降低这个偏差（bias),所以我们会采用深度很深甚至不剪枝的决策树。

对于Boosting来说，每一步我们都会在上一轮的基础上更加拟合原数据，所以可以保证偏差（bias）,所以对于每个基分类器来说，问题就在于如何选择variance更小的分类器，即更简单的分类器，所以我们选择了深度很浅的决策树。

XGBoost 和 GBDT 分裂叶子节点的不同之处，写一下 XGBoost 计算节点分裂收益的公式？

GBDT是利用函数的一阶导作为残差，xgb 利用了二阶导

对于基分类器 $f(x)=w_{q(x)}$ 其中 $w_{q(x)}$ 为树的叶节点的权重（得分）。

对于 xgb 中的损失函数中的一项为

$L(y_i, f_{t-1}(x_i)+f(x_i)) \approx L(y_i, f_{t-1}(x_i)) + L'(y_i, f_{t-1}(x_i))f(x_i)+\frac{1}{2}L''(y_i, f_{t-1}(x_i))f^2(x_i) \\ =L(y_i, f_{t-1}(x_i)) + g(x_i)f(x_i) + \frac{1}{2}h(x_i)f^2(x_i)$

所以我们要优化的目标函数为（添加正则项）（精髓）

$Obj^{(t)} = \sum_{i}L(y_i, f_{t-1}(x_i)+f(x_i)) + \Omega(T) = \sum_{i}L(y_i, f_{t-1}(x_i)+w_{q(x_i)})+\gamma T + \lambda\sum_{j=1}^T w_j^2 \\ \underset{=}{(舍去常数项)}\sum_{j}^T((\sum_{i \in w_j}g_i)w_j+\frac{1}{2}(\sum_{i\in w_j}h_i+\lambda)w_j^2)+\gamma T \\ =\sum_{j}^T(G_jw_j+\frac{1}{2}(H_j+\lambda)w_j^2)+\gamma T$

求导求其最小值

$w_j^* = -\frac{G_j}{H_j+\lambda} \\ Obj^{*} = -\frac{1}{2}\sum_{j}^T(\frac{G_j^2}{H_j+\lambda}) + \gamma T$

所以每次都要寻找使 $\frac{1}{2}[\frac{G_R^2}{H_R+\lambda}+\frac{G_L^2}{H_L+\lambda}-\frac{G_L^2+G_R^2}{H_L+H_R+\lambda}]-\lambda$ 最大的分割点。

XGBoost 如果损失函数没有二阶导，该怎么办？

关于树模型的问题

gbdt的目标函数与xgboost区别就是带不带 正则项 (算法内容上)。gbdt对损失函数的优化是直接使用了损失函数的负梯度，沿着梯度下降的方向来减小损失，其是也就是一阶泰勒展开。而xgboost在这里使用了 二阶泰勒展开 ，因为包含了损失函数的二阶信息，其优化的速度大大加快。但如果loss没有二阶导数，就使用一阶导数优化

GBDT 和 XGBoost 用什么基分类器，如何分裂叶子节点，处理分类问题和回归问题有啥不同？

xgb 是 gbdt 算法的实现，都是用的 cart 基分类器。对于xgb用上述方式分裂叶节点，对于 gbdt 则采用cart拟合残差的方法分裂叶节点。对于 xgb 将其损失函数设置为交叉熵损失函数即可。

GBDT 做分类任务有些特殊:深入理解GBDT二分类算法_Microstrong0305的博客-CSDN博客_gbdt二分类

为什么梯度提升方法倾向于选择决策树（通常是CART树）作为基学习器呢?

这与决策树算法自身的优点有很大的关系。决策树可以认为是if-then规则的集合，易于理解， 可解释性强，预测速度快 。同时，决策树算法相比于其他的算法需要 更少的特征工程 ，比如可 以不用做特征标准化，可以很好的处理字段缺失的数据，也可以不用关心特征间是否相互依赖等 。决策树能够自动组合多个特征，它可以毫无压力地处理特征间的交互关系并且是非参数化的，因此你不必担心异常值或者数据是否线性可分（举个例子，决策树能轻松处理好类别A在某个特征维度x的末端，类别B在中间，然后类别A又出现在特征维度x前端的情况）不过， 单独使用决策树算法时，有容易过拟合缺点 。所幸的是，通过各种方法， 抑制决策树的复杂性，降低单颗决策树的拟合能力，再通过梯度提升的方法集成多个决策树，最终能够很好的解决过拟合的问题 。由此可见，梯度提升方法和决策树学习算法可以互相取长补短，是一对完美的搭档。

至于抑制单颗决策树的复杂度的方法有很多，比如 限制树的最大深度 、 限制叶子节点的最少样本数量 、 限制节点分裂时的最少样本数量 、吸收bagging的思想对训练样本采样（subsample）， 在学习单颗决策树时只使用一部分训练样本 、借鉴随机森林的思路在学习单颗决策树时只采样一部分特征、在目标函数中添加正则项惩罚复杂的树结构等。现在主流的GBDT算法实现中这些方法基本上都有实现，因此GBDT算法的超参数还是比较多的，应用过程中需要精心调参，并用交叉验证的方法选择最佳参数。

20道XGBoost面试题

个例子，决策树能轻松处理好类别A在某个特征维度x的末端，类别B在中间，然后类别A又出现在特征维度x前端的情况）不过， 单独使用决策树算法时，有容易过拟合缺点 。所幸的是，通过各种方法， 抑制决策树的复杂性，降低单颗决策树的拟合能力，再通过梯度提升的方法集成多个决策树，最终能够很好的解决过拟合的问题 。由此可见，梯度提升方法和决策树学习算法可以互相取长补短，是一对完美的搭档。

20道XGBoost面试题

你可能感兴趣的:(机器学习,机器学习)

LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
「日拱一码」020 机器学习——数据处理胖达不服输「日拱一码」机器学习人工智能数据处理 python
目录数据清洗缺失值处理删除缺失值：填充缺失值：重复值处理检测重复值处理重复值异常值处理Z-score方法IQR方法（四分位距）数据一致性检查数据转换规范化（归一化）Min-Max归一化MaxAbsScaler标准化离散化等宽离散化等频离散化数据清洗数据清洗是数据处理的第一步，目的是去除噪声数据、处理缺失值和异常值，使数据更加干净、可用缺失值处理删除缺失值：如果数据集中缺失值较少，可以直接删除包含缺
机器学习每周挑战——二手车车辆信息&交易售价数据梦想成为一名机器学习高手机器学习 python 人工智能
这是数据集的截图目录背景描述数据说明车型对照：燃料类型对照：老规矩，第一步先导入用到的库第二步，读入数据：第三步，数据预处理第四步：对数据的分析第五步：模型建立前的准备工作第六步：多元线性回归模型的建立第七步：随机森林模型的建立问题：背景描述本数据爬取自印度最大的二手车交易平台CARS24，包含8000+该平台上交易车辆的关键评估信息。CARS24成立于2015年，总部位于印度古尔冈，是一个在印度
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

机器学习常见问题

机器学习一些常见问题

特征工程是什么？

类别特征编码方式有哪些？如何解决 target encoding 的 target leakage？count encoding 有个缺点：测试集和训练集分布不同，导致特征频率不一样怎么办？

项目中如何做交叉特征，为什么这样交叉，基于业务意义？

如何进行特征选择？

为什么需要计算特征重要性，计算特征重要性的方法有哪些？

连续特征怎么分箱，如何判断分箱的结果是好是坏？

特征平滑方法有哪些?

怎么处理长尾问题，从样本，模型的角度来看，从优化器的角度来看？

什么样的 ID 经过 Embedding 后可能有效，如何筛选有效的 ID。有些 ID 数量级很大，怎么处理?

神经网络如何跳出局部最优?

神经网络如何缓解过拟合， 讲一下 dropout，dropout 训练和预测的时候有什么不同， dropout 操作类似于机器学习中的什么操作？

Bagging、Boosting、Stacking

batch normalization 和 layer normalization 区别，写一下 bn 公式？

batch normalization

Layer normalization

优化器了解哪些，adam 相对 sgd 的改进？

激活函数的作用，各个激活函数的优缺点？

图神经网络相关？

如何缓解 RNN 的梯度消失？

讲一下 LSTM。LSTM 为啥能缓解梯度爆炸和梯度消失？LSTM 激活函数可以使用 relu 吗？

CNN 和 RNN 在实际使用中有哪些优缺点？NLP 中，什么情况下使用 CNN，什么情况下使用 RNN？

神经网络权重全 0 初始化会有什么问题？应该怎样初始化？讲讲 Xavier 初始化？ 神经网络的初始化。

树模型怎么处理连续特征？

c4.5 用来解决 ID3 什么问题？

gbdt 和 rf 分别是集成的什么思想，解决什么误差?

GBDT 怎么生成一个新的树，怎么确定叶子节点的权重？

随机森林和 xgboost 那个树的深度更深?

XGBoost 和 GBDT 分裂叶子节点的不同之处，写一下 XGBoost 计算节点分裂收益的公式？

XGBoost 如果损失函数没有二阶导，该怎么办？

GBDT 和 XGBoost 用什么基分类器，如何分裂叶子节点，处理分类问题和回归问题有啥不同？

为什么梯度提升方法倾向于选择决策树（通常是CART树）作为基学习器呢?

20道XGBoost面试题

20道XGBoost面试题

你可能感兴趣的:(机器学习,机器学习)

神经网络如何缓解过拟合，讲一下 dropout，dropout 训练和预测的时候有什么不同， dropout 操作类似于机器学习中的什么操作？

神经网络权重全 0 初始化会有什么问题？应该怎样初始化？讲讲 Xavier 初始化？神经网络的初始化。