长相忆兮长相忆

【机器学习】推荐系统、机器学习面试题整理

1、排序模型为什么一般都是从LR到GBDT再到DNN进行迭代的？

在业务开始阶段，数据量和特征量都比较少，通常会采用LR模型。随着算法的迭代，数据量和特征规模越来越多的时候，基于XGBOOST或者LightGBM构建GBDT模型是业务成长期快速拿到收益的好的选择。当数据量越来越大的时候，需要基于DNN的框架来把个性化模型做的更细。

在LR里，决策边界函数是线性的。

模型的优点：可以通过模型的权重大小，解释特征的重要性；同时LR支持增量更新；在引入大规模离散特征的情况下，业界在LR时代的经典做法是对LR加L1正则并通过OWLQN或者 Coordinate Descent的方式进行优化，也可以通过FTRL算法让模型稀疏避免过拟合。

模型的缺点：线性决策边界这个假设太强，会让模型的精度受到限制；另外，模型的可扩展性程度低。

GBDT

在GBDT中，决策边界是非线性的；模型通过将样本空间分而治之的方式，来提高模型精度。

模型的优点：树模型可以计算每个特征的重要性程度，来获得一些可解释性；同时模型比LR有更高的精度。

模型的缺点：不支持大规模的离散特征，不支持增量更新；模型可扩展性程度低。

我们在酒店推荐场景中，尝试了pointwise loss和pairwise loss，每次尝试都获得了不少的提升。

在DNN中，决策边界是高度非线性的。我们知道计算机通过与或非这种简单的逻辑，可以表达各种复杂的对象：音频，视频，网页等。而DNN每一层网络比与或非更加复杂，DNN通过多层神经元叠加，成为一个万能函数逼近器。在理想情况下，只要有足够的数据量，不论我们实际的决策边界如何复杂，我们都可以通过DNN来表达。

同时DNN，支持增量更新，支持根据业务场景进行灵活定制各种网络结构，支持大规模离散DNN，在离散模型中学习出来的Embedding向量还可以用在向量相似召回里面。正因为有这么多的好处，DNN正在成为业界推荐算法的标配。

这个模型的缺点是：特征经过不同层交叉，交互耦合关系过于复杂，而导致可解释性不好；工程复杂度在我们用不同结构的时候所有不同。

2、分类问题为什么大都使用交叉熵作为损失函数而不是MSE？

假设给定输入为x，label为y，其中y的取值为0或者1，是一个分类问题。我们要训练一个最简单的Logistic Regression来学习一个函数f(x)使得它能较好的拟合label，如下图所示：

可知，我们要学的函数为： $a(x)=\sigma (w*x+b)$ ，目标为使a(x)与label y越逼近越好。

我们可以回忆下交叉熵Loss和均方差Loss定义是什么：

我们想衡量模型输出a和label y的逼近程度，其实这两个Loss都可以。但是为什么Logistic Regression采用的是交叉熵作为损失函数呢？看下这两个Loss function对w的导数，也就是SGD梯度下降时，w的梯度。

sigmoid函数 $\sigma (z)$ 如下图所示，可知的导数sigmoid ${\sigma }'(z)$ 在输出接近 0 和 1 的时候是非常小的，故导致在使用最小均方差Loss时，模型参数w会学习的非常慢。而使用交叉熵Loss则没有这个问题。为了更快的学习速度，分类问题一般采用交叉熵损失函数。

补充说明：

MSE求w和b的导数分别为：

从以上公式可以看出，w和b的梯度跟激活函数的梯度成正比，激活函数的梯度越大，w和b的大小调整得越快，训练收敛得就越快。

在上图的绿色部分，初始值是0.98，红色部分初始值是0.82，假如真实值是0。直观来看那么0.82下降的速度明显高于0.98，但是明明0.98的误差更大，这就导致了神经网络不能像人一样，误差越大，学习的越快。也就是说，MSE损失函数并不是误差越大学习的越快。

反观交叉熵：

可以看出梯度中不再含有sigmoid的导数，有的是sigmoid的值和实际值之间的差，也就满足了我们之前所说的错误越大，下降的越快。也就是说，交叉熵损失函数能够做到误差越大，下降的越快。

总结：

神经网络中如果预测值与实际值的误差越大，那么在反向传播训练的过程中，各种参数调整的幅度就要更大，从而使训练更快收敛，如果预测值与实际值的误差小，各种参数调整的幅度就要小，从而减少震荡。
使用平方误差损失函数，误差增大参数的梯度会增大，但是当误差很大时，参数的梯度就会又减小了。
使用交叉熵损失是函数，误差越大参数的梯度也越大，能够快速收敛。

为什么分类问题的损失函数采用交叉熵而不是均方误差MSE？

知乎：简单的交叉熵，你真的懂了吗？

CSDN：分类问题为什么要使用交叉熵损失函数而不是均方误差

3、过拟合与欠拟合

什么是拟合？拟合是指你逼近目标函数的远近程度。机器学习中的拟合，可以分为过拟合和欠拟合两种。

图1（回归问题的三种拟合状态）：欠拟合--正常拟合--过拟合

过拟合over-fitting

所谓过拟合，其实就是训练的模型在训练样本中表现得过于优越，近乎完美的预测/区分了所有的数据，但是在验证数据集以及测试数据集中表现不佳。在性能的角度上讲，过拟合就是协方差过大（variance is large），同样在测试集上的损失函数（cost function）会表现得很大。

过拟合会使模型变得复杂，并尽可能拟合训练集，造成在训练集上的准确率特别高，这里就会有一个问题就是：训练集是不靠谱的，其中有容错的数据。直接点，训练集中特别是十几万的数据，会有脏数据，这些脏数据也成为负样本，会造成模型训练有误差，模型在训练的时候并不清楚那些是脏数据，它只会不停的去拟合这些数据，所以过拟合的模型在训练集上准确率特别高，但训练集其实只是整个数据集中的一部分，其包含两部分特征，一部分是整个数据集共有的特征，一部分是训练集自身共有的特征，当过拟合时，模型学到的是这两部分的特征，此时拿模型去在测试集上测试时，因为测试集不包含训练集自身共有的特征，所以测试集在模型上就不会取得很好的效果。

欠拟合under-fitting

相对于过拟合，欠拟合稍微比较和理解一些。所谓欠拟合，其实就是模型的拟合程度不够，泛化性能差，在训练集上表现效果差，没有充分的利用数据，预测的准确度低。欠拟合在训练集上的准确率不高，同时在测试集上的准确率也不高，这样如何训练出来的模型也得不到较好的效果。

如何判断过拟合还是欠拟合

可以通过绘制损失函数随数据集增加的学习曲线来判断过拟合还是欠拟合。

模型欠拟合（高偏差），是指拥有足够的训练样本时，训练误差和测试误差都很高，并且训练误差约等于测试误差。

模型过拟合（高方差），是指随着训练样本的增加，训练误差在增加，测试误差在减少，但训练误差远远小于测试误差。

注：准备几个不同时间窗口、不同范围的训练集和测试集，然后在不同数据集里分别对模型进行交叉验证，这是工业界判断模型欠拟合或过拟合的最常用方法。

如何防止过拟合

过拟合问题的根本原因是特征维度过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果则较差。

解决过拟合的方法：

减少特征维度，可以人工选择保留的特征，或者模型选择算法。
正则化：正则化是指在优化目标函数或代价函数是，在目标函数后面加上一个正则项。通过正则项来影响模型的复杂度。
数据集扩增：即需要得到更多的符合要求的数据，让训练集中的噪音数据占比越来越小，这样噪音对模型的影响就较小，可以防止模型过拟合。
模型选择：挑选相对简单的模型进行训练，对模型中的参数、训练层数等做限制。
Dropout：在神经网络的训练过程中,对于神经单元按一定的概率将其随机从网络中丢弃,从而达到对于每个mini-batch都是在训练不同网络的效果,防止过拟合。

深度学习防止过拟合的几种方法

如何解决欠拟合

欠拟合的问题比较好理解，根本的原因是特征维度过少，导致拟合的函数无法满足训练集，误差较大。

解决欠拟合的方法：

增加训练数据：让模型学习的更充分一些。
增加特征维度：即添加新特征，从业务思路上构造新特征是最重要的优化措施。优化算法：提升模型复杂度。

4、梯度与学习率

什么是梯度？

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。简单的说，梯度不是一个实数，而是一个向量，即有大小又有方向。

在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式表示出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂y)T。对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)T，或者▽f(x0,y0)。如果是3个参数的向量梯度，就是(∂f/∂x, ∂f/∂y，∂f/∂z)T，以此类推。

梯度的几何意义

梯度向量的意义从几何意义上讲，就是函数变化增加最快的地方。具体来说，对于函数f(x,y)，在点(x0,y0)，沿着梯度向量的方向就是(∂f/∂x0, ∂f/∂y0)T的方向是f(x,y)增加最快的地方。或者说，沿着梯度向量的方向，更加容易找到函数的最大值。反过来说，沿着梯度向量相反的方向，也就是 -(∂f/∂x0, ∂f/∂y0)T的方向，梯度减少最快，也就是更加容易找到函数的最小值。

梯度下降法及相关概念

在机器学习算法中，在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数，和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。

梯度下降法和梯度上升法是可以互相转化的。比如我们需要求解损失函数f(θ)的最小值，这时我们需要用梯度下降法来迭L1正则化、L2正则化梯度与学习率代求解。但是实际上，我们可以反过来求解损失函数 -f(θ)的最大值，这时梯度上升法就派上用场了。

监督式学习通过定义一个模型，并根据训练集上的数据估计最优参数。梯度下降法是一个广泛被用来最小化模型误差的参数优化算法。梯度下降法通过多次迭代，并在每一步中最小化成本函数（cost function）来估计模型的参数（weights）。

步长（Learning rate）：步长也叫学习率，决定了在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度。学习率决定了参数移动到最优值的速度快慢。如果学习率过大，那么参数更新的幅度就非常大，很可能会越过最优值，导致网络收敛到局部最优点；如果学习率过小，会导致网络loss下降非常慢，优化的效率可能过低，长时间算法无法收敛。

学习率的选择策略在网络的训练过程中是不断在变化的，在刚开始的时候，参数比较随机，所以我们应该选择相对较大的学习率，这样loss下降更快；当训练一段时间之后，参数的更新就应该有更小的幅度，所以学习率一般会做衰减，衰减的方式也非常多，比如到一定的步数将学习率乘上0.1，也有指数衰减等。

梯度下降算法中使用学习率更新参数向量：

$\theta =\theta -\eta \cdot \frac{\partial L(\theta )}{\partial \theta }$

特征（feature）：特征指的是样本中输入部分，与特征对应的是样本的label，以二分类为例，正样本label=1，负样本label=0。

假设函数（hypothesis function）：在监督学习中，为了拟合输入样本，而使用的假设函数，记为ℎ?(?)。比如对于单个特征的m个样本（?(?),?(?)）(?=1,2,...?)，可以采用拟合函数如下： ℎ?(?)=?0+?1?hθ(x)=θ0+θ1x。

损失函数（loss function）：为了评估模型拟合的好坏，通常用损失函数来度量拟合的程度。损失函数极小化，意味着拟合程度最好，对应的模型参数即为最优参数。

关于梯度下降法的具体细节，可以参考这篇博客：梯度下降小结

5、L1正则化、L2正则化

机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1-norm和ℓ2-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。

L1正则化和L2正则化的定义：

假设w表示特征的系数：

L1正则化是指权值向量w中各个元素的绝对值之和，通常表示为 $\left \|w \right \|_{1}$ 。
L2正则化是指权值向量w中各个元素的平方和然后再求平方根，通常表示为 $\left \|w \right \|_{2}$ 。

L1正则化和L2正则化的作用：

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择。

L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合。

机器学习中正则化项L1和L2的直观理解

6、word2vec优化方法的层次softmax和负采样

传统的神经网络语言模型下的CBOW与SkipGram

以上图为例进行说明。

CBOW：根据上下文预测中心词。

假设CBOW的输入是8个词向量，输出是所有词的softmax概率（训练的目标是期望训练样本特定词对应的softmax概率最大），对应的CBOW神经网络模型输入层有8个神经元，输出层有词汇表大小个神经元。隐藏层的神经元个数我们可以自己指定。通过DNN的反向传播算法，我们可以求出DNN模型的参数，同时得到所有的词对应的词向量。这样当我们有新的需求，要求出某8个词对应的最可能的输出中心词时，我们可以通过一次DNN前向传播算法并通过softmax激活函数找到概率最大的词对应的神经元即可。

SkipGram：根据中心词预测上下文。

SkipGram模型和CBOW的思路是反着来的，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。还是上面的例子，我们的上下文大小取值为4，特定的这个词"Learning"是我们的输入，而这8个上下文词是我们的输出。

SkipGram的输入是特定词，输出是softmax概率排前8的8个词，对应的SkipGram神经网络模型输入层有1个神经元，输出层有词汇表大小个神经元。隐藏层的神经元个数我们可以自己指定。通过DNN的反向传播算法，我们可以求出DNN模型的参数，同时得到所有的词对应的词向量。这样当我们有新的需求，要求出某1个词对应的最可能的8个上下文词时，我们可以通过一次DNN前向传播算法得到概率大小排前8的softmax概率对应的神经元所对应的词即可。

以上就是神经网络语言模型中如何用CBOW与SkipGram来训练模型与得到词向量的大概过程。但是这和word2vec中用CBOW与SkipGram来训练模型与得到词向量的过程有很多的不同。由于神经网络语言模型的输出层需要进行softmax计算各个词的输出概率的的计算量很大，所以word2vec在此进行了优化。

一句话简述传统的神经网络方法得到词向量的语言模型存在的问题：从隐藏层到输出的softmax层的计算量很大，因为要计算所有词的softmax概率，再去找概率最大的值。word2vec使用层次softmax和负采样两种方法解决这个问题。

word2vec为什么使用霍夫曼树

word2vec的优化使用的数据结构是用霍夫曼树来代替隐藏层和输出层的神经元，霍夫曼树的叶子节点起到输出层神经元的作用，叶子节点的个数即为词汇表的小大。而内部节点则起到隐藏层神经元的作用。

霍夫曼树的好处：一般得到霍夫曼树后我们会对叶子节点进行霍夫曼编码，由于权重高的叶子节点越靠近根节点，而权重低的叶子节点会远离根节点，这样我们的高权重节点编码值较短，而低权重值编码值较长。这保证的树的带权路径最短，也符合我们的信息论，即我们希望越常用的词拥有更短的编码。对于一个霍夫曼树的节点（根节点除外），可以约定左子树编码为0，右子树编码为1。但是，在word2vec中，约定编码方式和上面的例子相反，word2vec约定左子树编码为1，右子树编码为0，同时约定左子树的权重不小于右子树的权重。

word2vec对传统神经网络语言模型的改进：从隐藏层到输出的softmax层这里的计算量进行了改进。为了避免要计算所有词的softmax概率，word2vec采样了霍夫曼树来代替从隐藏层到输出softmax层的映射。

和之前的神经网络语言模型相比，霍夫曼树的所有内部节点就类似之前神经网络隐藏层的神经元。其中，根节点的词向量对应我们的投影后的词向量，而所有叶子节点就类似于之前神经网络softmax输出层的神经元，叶子节点的个数就是词汇表的大小。在霍夫曼树中，隐藏层到输出层的softmax映射不是一下子完成的，而是沿着霍夫曼树一步步完成的，因此这种softmax取名为"Hierarchical Softmax"。

层次softmax对输出层进行优化的策略，输出层从原始模型利用softmax计算概率值改为利用Huffman树计算概率值。

使用霍夫曼树有什么好处呢？首先，由于是二叉树，之前计算量为,现在变成了2。第二，由于使用霍夫曼树是高频的词靠近树根，这样高频词需要更少的时间会被找到，这符合我们的贪心优化思想。

如何用层次softmax计算概率

根据单词出现频率构建好的huffman树，沿着路径从根节点到对应的叶子节点，一层一层的利用sigmoid函数做二分类，判断向左还是向右走，规定沿着左子树走，那么就是负类(霍夫曼树编码1)，沿着右子树走，那么就是正类(霍夫曼树编码0)。一路上的概率连乘，最终得到某个单词的输出概率。

为什么要用负采样或者层次softmax

最大的问题在于从隐藏层到输出softmax层的计算量很大，因为要计算所有词的softmax概率，再去找概率最大的值作为当前输入的网络输出。并且在隐层到输出层的权重更新时，每一个样本迭代时，都会更新矩阵的所有元素。可以看softmax的计算公式， f(x) = e^x / sum( e^x_i ) ，需要对所有的词e^x求和，复杂度O(V)。当V非常大的时候，计算量庞大。

Hierarchical Softmax的的缺点及负采样的优势

使用霍夫曼树来代替传统的神经网络，可以提高模型训练的效率。但是如果我们的训练样本里的中心词是一个很生僻的词，那么就得在霍夫曼树中辛苦的向下走很久了。

也就是说，分层softmax在每次循环迭代过程中依然要处理大量节点上的更新运算，而负采样技术只需更新“输出向量”的一部分。

负抽样的目的是为了最终输出的上下文单词（正样本）在采样过程中应该保留下来并更新，同时也需要采集部分负样本（非上下文单词）。通过负采样，在更新隐层到输出层的权重时，只需更负采样的单词，而不用更新词汇表所有单词，从而节省巨大计算量。

7、XGBOOST与GBDT

GBDT概述

GBDT使用了前向分布算法进行迭代，弱学习器限定了只能使用CART回归树模型。

在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是 $f_{t-1}(x)$ ，损失函数是(, −1())，我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ℎ()，让本轮的损失函数(,())=(,−1()+ℎ())最小。也就是说，本轮迭代是为了找到一棵CART决策树，要让样本的损失尽量变得更小。GBDT用损失函数的负梯度来拟合本轮损失的近似值，进而拟合一个CART回归树。不难，基本就是

XGBOOST概述

XGBoost的核心算法思想：

不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数f(x)，去拟合上次预测的残差。
当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数
最后只需要将每棵树对应的分数加起来就是该样本的预测值。

GBDT的优缺点

GBDT主要的优点有：

可以灵活处理各种类型的数据，包括连续值和离散值。
在相对少的调参时间情况下，预测的准确率也可以比较高。这个是相对SVM来说的。
使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。

GBDT的主要缺点有：

由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。
在高维稀疏数据上，表现不如SVM或神经网络。
在处理文本分类特征问题上，相对其他模型优势不如在处理数值特征时明显。
训练过程需要串行，只能在决策树内部采用一些局部并行手段提高训练速度。

XGBOOST对GBDT进行的优化

算法本身的优化：

在算法的弱学习器模型选择上，对比GBDT只支持决策树，XGBOOST还可以直接很多其他的弱学习器。
在算法的损失函数上，除了本身的损失，还加上了正则化部分。
在算法的优化方式上，GBDT的损失函数只对误差部分做负梯度（一阶泰勒）展开，而XGBoost损失函数对误差部分做二阶泰勒展开，更加准确。

算法运行效率的优化：对每个弱学习器，比如决策树建立的过程做并行选择，找到合适的子树分裂特征和特征值。在并行选择之前，先对所有的特征的值进行排序分组，方便前面说的并行选择。对分组的特征，选择合适的分组大小，使用CPU缓存进行读取加速。将各个分组保存到多个硬盘以提高IO速度。

算法健壮性的优化：对于缺失值的特征，通过枚举所有缺失值在当前节点是进入左子树还是右子树来决定缺失值的处理方式。算法本身加入了L1和L2正则化项，可以防止过拟合，泛化能力更强。

XGBoost算法主流程

GBDT与XGBOOST的损失函数

GBDT损失函数的损失函数一般可以表示为如下形式：(, −1()+ℎ())。youquedian

对于分类算法，GBDT的损失函数一般有对数损失函数和指数损失函数两种：

对数损失：(, ())=(−())
指数损失：youquedian

对于回归算法，常用损失函数有如下4种：

均方差：(, ())=(−())2
绝对损失：(, ())=|−()|
Huber损失：
分位数损失：

XGBOOST的损失函数是在GBDT损失函数(, −1()+ℎ())的基础上，加入了正则化项如下：

最终XGBoost的损失函数可以表达为：

最终损失函数的形式可以表示为：

为什么xgboost要用泰勒展开，优势在哪里？

xgboost使用了一阶和二阶偏导，二阶导数有利于梯度下降的更快更准。使用泰勒展开取得函数做自变量得二阶导数形式，可以在不选定损失函数具体形式的情况下，仅仅依靠输入数据的值就可以进行叶子分裂优化计算，本质上也就把损失函数的选取和模型算法优化/参数选择分开了，这种去耦合增加了xgboost的适用性，使得它按需选取损失函数，可以用于分类，也可以用于回归。

梯度提升树(GBDT)原理小结

XGBoost算法原理小结

8、关于机器学习样本不平衡的问题

在许多情况下，机器学习、深度学习都面临着样本不平衡的问题。

举一个简单但真实的例子：你正在训练你的深层网络，出于安全原因，预测视频中的某人是否持有致命武器。但是在你的训练数据中，你只有50个持有武器的人的视频，1000个没有武器的人的视频。如果你直接使用这些数据来训练你的网络，那么你的模型肯定会偏向于预测没有人拥有武器。

你可以做一些事情来解决这个问题：

在loss函数中使用class weights。本质上，未充分表示的类在loss函数中获得更高的权重，因此对特定类的任何分类错误都会导致loss函数中出现非常高的错误。

样本过采样：重复一些包含代表性不足的类的训练示例，有助于平衡分布。如果可用数据很小，那么这种方法最有效。
样本欠采样：你可以简单地跳过一些包含过度表示类的训练示例。如果可用数据非常大，那么这种方法最有效。
数据增强：对于少数类，你可以为代表性不足的类综合创建更多的训练样本！例如，在上一个检测致命武器的例子中，你可以更改属于拥有致命武器类的视频的一些颜色和灯光
欠采样

欠采样是通过减少丰富类的大小来平衡数据集，当数据量足够时就该使用此方法。通过保存所有稀有类样本，并在丰富类别中随机选择与稀有类别样本相等数量的样本，可以检索平衡的新数据集以进一步建模。

过采样

相反，当数据量不足时就应该使用过采样，它尝试通过增加稀有样本的数量来平衡数据集，而不是去除丰富类别的样本的数量。通过使用重复、自举或合成少数类过采样等方法（SMOTE）来生成新的稀有样品。

欠采样的优点和缺点

优点：

当训练数据集很大时，它可以通过减少训练数据样本的数量来帮助改善运行时间和存储问题。

缺点：

它可以丢弃可能有用的信息，这对于构建规则分类器可能很重要。
通过随机欠采样选择的样本可能是有偏差的样本。可能导致实际测试数据集的结果不准确。

过采样的优缺点

优点：

与欠采样不同，此方法不会导致信息丢失。
在抽样条件下表现更佳

缺点：

由于它复制了少数群体事件，因此增加了过度拟合的可能性。

缺失值较少的特征处理

特征缺失值都在10%以内，我们可以采取很多的方式来处理：

用均值填充
用上下行数据进行填充
用插值法填充
用算法拟合进行填充

9、神经网络不收敛的一些原因及解决方案

模型不收敛并不一定表示模型是无效的，模型不收敛的原因有很多，常见原因如下：

这里给出11个可能的原因，具体的细节问题可参考：

My Neural Network isn't working! What should I do?

1. 忘记对你的数据进行归一化

我们需要对数据进行归一化操作的原因，主要是我们一般假设输入和输出数据都是服从均值为 0，标准差为 1 的正态分布。这种假设在深度学习理论中非常常见，从权重初始化，到激活函数，再到对训练网络的优化算法。

2. 忘记检查输出结果

当你开始训练你的网络几个 epoch 后，发现误差在减小了。这表示成功训练网络了吗？很不幸这并不是，这说明你的代码中很可能还有一些问题，可能是在数据预处理、训练代码或者推理部分有问题。仅仅因为误差在减小并不意味着你的网络正在学习有用的信息。

与传统编程不同，机器学习系统几乎在所有情况下都会悄无声息地失败。在传统的编程中，我们习惯于电脑在出现问题时抛出一个错误，并以此作为返回和检查错误的信号。

不幸的是在机器学习中并不是这样的机制，所以我们应该非常小心检查的通过人眼来观察每个阶段的处理过程，这样当一个错误已经产生的时候，我们可以及时发现并且可以更彻底的检查代码。

3. 没有对数据进行预处理

神经网络只对它们作为输入的数据做出几个基本假设，但这些基本假设之一是数据所处的空间有些连续性，对于大多数空间来说，两个数据点之间的点至少在某种程度上是这两个数据点的"混合"，而附近的两个数据点在某种程度上代表着"类似"的东西。数据空间中出现大的不连续性，或者代表同一事物的大组分离数据，将使学习任务更加困难。

4. 没有使用任何的正则化方法

正则化是现在训练神经网络一个非常重要的方法，通常是以 dropout、噪音或者其他某种随机过程的形式来加入到网络中。

即便数据维度比参数更多，或者是在某种情况下不需要在意过拟合或者不可能出现过拟合，加入 dropout 或者某些形式的噪音仍然是很有帮助的。

正则化方法不仅仅是用于控制过拟合，通过在训练过程中引入一些随机过程，在某种程度上是"平滑"了成本格局。这可以加快训练收敛的速度，帮助处理数据中的噪声或异常值，并防止网络的极端权值配置。

5. 使用了一个太大的 batch size

使用一个太大的 batch size 会因为降低了梯度下降的随机性，导致降低了网络的准确率。

使用较小的batch大小会产生波动更大，更随机的权值更新。这有两个好处：

首先，在训练的时候它可以有助于"跳"出以前可能会陷入的局部最小值；
其次，它可以让训练进入到极小值中，这表示其有更好的泛化性能。

6. 使用一个错误的学习率

许多深度学习框架在默认情况下启用梯度裁剪。这个操作是通过在训练中的每一步中改变一个最大数量的权值来防止出现梯度爆炸的情况。

这可能很有用，特别是当你的数据包含许多异常值，这会产生很大的误差，从而产生很大的梯度和权重更新，但默认设置也会使手工找到最佳学习率变得非常困难。我发现大多数刚接触深度学习的人都将学习速率设置得过高，并通过梯度裁剪来解释这一点，使整体训练速度变慢，并且改变学习率的效果不可预测。

7. 在最后一层使用错误的激活函数

在最后一层使用激活函数有时候会导致网络不能生成要求数值的完整范围，比如最常见的错误就是在最后一层采用 ReLU ，它会导致网络只能输出正数。

想想你的数据值实际代表什么，以及标准化后其范围是什么。最有可能的情况是，你的输出值是无限的正数或负数，在这种情况下，不应该在最后一层使用激活功能。如果输出值可能只在某个范围内有意义，例如它由范围 0-1 中的概率组成，则很可能在最后一层（如 sigmoid 激活功能）上应使用特定的激活功能。

8. 网络包含坏的梯度

使用 ReLU激活函数的神经网络经常会遇到一些因为坏的梯度导致的“死亡神经元”的情况。它会导致网络性能下降，甚至某些情况下导致网络无法继续训练。

对于 ReLU 激活函数来说，其梯度对于正数和负数分别是 1 和 0。这是因为输入的微小更改不会影响小于零的输入输出。这对于正数的大梯度来说似乎不是一个问题，但与许多网络层堆叠在一起，负权重能够将大的正值与强梯度变成负值与零梯度，通常情况下，如果无论输入是什么，网络中有一部分或者所有的权值对于损失函数的梯度都是，这种情况就是网络是死了，权值是没办法更新，也就是无法继续训练下去了。

9. 网络权重没有正确的初始化

如果你不能正确初始化你的神经网络的权值，那么你的神经网络就不太可能进行训练。神经网络中的许多其他组件假定某种形式的正确或标准化的权值初始化，并将权值设置为零，一般使用自己的自定义随机初始化是行不通的。

可能你听说过可以使用“小的随机的数值”来初始化网络的权值，但并没有这么简单。常用的“he”，“xaiver”和“lecun”等权值初始化方式都是使用了很复杂和详细的数学公式并证明了它们为什么是最优的方法。更重要的是，其他的神经网络组件经常是围绕着这些初始化方式建立并根据经验来测试它们，因此如果使用自定义的初始化方式会增加了复现其他研究者成果的难度。

10. 使用了一个太深的神经网络

网络是越深越好吗？实际上并总是这样的，越深越好一般是在做基准实验或者是希望在某些任务上尝试增加 1%甚至更多的准确率，但是如果 3，4，5 层的网络都学不到任何东西，那么使用 100+的网络层也会同样失败，甚至更加糟糕。

虽然看起来是这样，但神经网络并不是在某人决定堆叠数百层的时候就突然开始获得突破性的结果的。过去十年里对神经网络所做的所有改进都是微小的、根本性的改变，这些改变既适用于深度网络，也适用于小型网络。如果你的网络不工作，更有可能是其他问题，而不是深度问题。

从一个3到8层的神经网络开始。只有当训练的网络有不错的性能，并开始研究如何提高准确性时，才开始尝试更深层次的网络。

11. 隐藏层神经元数量设置不正确

在某些情况下，使用过多或过少的隐藏神经元会让网络难以训练。神经元数量过少，它可能无法表达所需的任务，而神经元数量过多，它可能变得缓慢而笨拙，难以去除残余噪声进行训练。

在决定要使用的隐藏神经元的数量时，关键是要大致考虑你认为表达你希望通过网络传递的信息所需的实际值的最少数量。然后你应该把这个数字放大一点。这将允许 dropout，以便网络使用更冗余的表示，并在你的估计中有一点余地。如果你在做分类，你可能会使用类数量的5到10倍作为一个好的初始猜测，而如果你在做回归，你可能会使用输入或输出变量数量的 2 到 3 倍。当然，所有这些都高度依赖于环境，并且不存在简单的自动解决方案，良好的直觉仍然是决定隐藏单位数量的最重要因素。

从256到1024个隐藏神经元数量开始，待效果不错时，在逐步进行深入的调整。

参考博客：知乎：神经网络不收敛的 11 个原因

你可能感兴趣的:(机器学习,推荐系统,深度学习,机器学习,算法)

算法训练（leetcode）第四十六天 | 110. 字符串接龙、105. 有向图的完全可达性、106. 岛屿的周长 Star Patrick 刷题日记算法 leetcode 职场和发展
刷题记录*110.字符串接龙105.有向图的完全可达性邻接矩阵邻接表106.岛屿的周长深搜简化代码*110.字符串接龙题目地址使用广搜。本题相当于求最短路径，因此使用广搜。如何应用广搜是一个难点，因为题目给的是字符串而非图的表示（邻接矩阵、邻接表），因此需要自行构建连接关系。题目要求每一步只能修改一个字符，因此从起始字符串开始，对字符串中的每一个字符进行修改，修改后在输入的字符串列表中查找是否存在
Java架构师成长之路 hweiyu00 分享 spring 微服务 spring cloud java
概述本教程主要从6个方面，全面讲解Java技术栈的知识。1.性能调优深入理解MySQL底层原理、索引逻辑，数据结构与算法。使用Explain进行优化分析MVCC原理剖析日志机制解析2.框架源码掌握Spring底层原理带你手写一个Spring解析IOC、AOP源码、以及事务原理3.并发编程剖析Java底层锁机制CAS、JUC工具使用、AQS源码分析以及并发的集合类的讲解4.分布式开发剖析分布式中使用
笔记：代码随想录算法训练营day60：并查集理论基础、寻找存在的路径 jingjingjing1111 笔记
本文为学习并查集理论基础|代码随想录、代码随想录过程中的思考find是找的顶头上司，而不是当前上司，最后怎么也得找到一个顶头上司的上司是自己，要不然这个结构也不成立使用issame替换会使被操作者为当前节点，而非根节点。join(u,v)的功能为将v的根节点挂到u的根节点下模拟过程可以看出，join中的find中的路径压缩要在长度大于2（路径大于1）的时候才会体现出来107.寻找存在的路径卡码网题
【Matlab光伏功率预测】基于RF随机森林算法的多变量光伏功率预测（附MATLAB代码）天天科研工作室光伏功率预测算法 matlab 随机森林机器学习
【Matlab光伏功率预测】基于RF随机森林算法的多变量光伏功率预测（附MATLAB代码）文章目录【Matlab光伏功率预测】基于RF随机森林算法的多变量光伏功率预测（附MATLAB代码）文章介绍基本步骤代码分享运行结果参考资料文章介绍随机森林可以应用于光伏功率预测，这是一项重要的任务，旨在估计光伏发电系统的输出功率。光伏功率预测在可再生能源管理、电网调度和能源计划等领域具有广泛的应用。随机森林回
Golang算法（二）数据结构小烧卖算法 GO语言
数据结构栈队列双向链表二叉搜索树红黑树栈typeStackstruct{head*Node}typeNodestruct{datainterface{}next*Node}funcNewStack()*Stack{s:=&Stack{head:&Node{data:nil,next:&Node{},},}returns}func(s*Stack)Push(datainterface{}){n:=&
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
某人想将手中的一张面值100元的人民币换成10元、5元、2元和1元面值的票子。要求换正好40张，且每种票子至少一张。问：有几种换法？（C语言）热心市民小汪代码练习 C语言 c语言学习 java
一、首先分析题目有两点1、总和是100元。2、一共分为四十张且每种至少有一张。二、思路分析。10元的为s张，5元的为w张，2元的为e张，1元的为y张。n为有几种换算法首先，每个至少有一张a>=1,b>=1,c>=1,d>=1。#includeintmain(){inttotal;for(ints=1;s<=10;s++){for(intw=1;w<=20;w++){for(inte=1;e<=40
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
最新智能优化算法：贪婪个体优化算法（Greedy Man Optimization Algorithm，GMOA）求解23个经典函数测试集，MATLAB代码 IT猿手 MATLAB 智能优化算法算法 matlab 开发语言人工智能智能优化算法
一、贪婪个体优化算法贪婪个体优化算法（GreedyManOptimizationAlgorithm，GMOA）是HamedNozari与HosseinAbdi于2024年提出的一种新型受生物启发的元启发式算法，它模拟了抵抗变化的竞争个体的行为。GMOA引入了两个独特的机制：MMO抵抗机制，防止过早替换解；周期性寄生虫清除机制，促进多样性并避免停滞。该算法旨在解决传统优化算法中的过早收敛和缺乏多样性
2025最新智能优化算法：改进型雪雁算法（Improved Snow Geese Algorithm, ISGA）求解23个经典函数测试集荣华富贵8 程序员的知识储备1 程序员的知识储备2 程序员的知识储备3 经验分享
摘要随着智能优化算法的不断发展，解决高维、复杂的优化问题已成为研究的重要课题。雪雁算法（SnowGeeseAlgorithm,SGA）作为一种新兴的自然启发式优化算法，以其高效的全局搜索能力受到了广泛关注。然而，雪雁算法在处理多峰、多约束和高维复杂问题时，仍面临收敛速度较慢和易陷入局部最优解的问题。为此，本文提出了一种改进型雪雁算法（ISGA），通过引入自适应权重调整机制和混合局部搜索策略，增强了
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
代码随想录算法训练营Day10 | Leetcode 150逆波兰表达式求值、239滑动窗口最大值、 347前 K 个高频元素 Dominic_Holmes leetcode python 算法数据结构
代码随想录算法训练营Day10|Leetcode150逆波兰表达式求值、239滑动窗口最大值、347前K个高频元素一、反转字符串相关题目：Leetcode150文档讲解：Leetcode150视频讲解：Leetcode1501.Leetcode150.逆波兰表达式求值给你一个字符串数组tokens，表示一个根据逆波兰表示法表示的算术表达式。请你计算该表达式。返回一个表示表达式值的整数。注意：有效的
LeetCode算法题(Go语言实现)_07 LuckyLay Golang学习笔记算法 leetcode 职场和发展 golang
题目给你一个整数数组nums，返回数组answer，其中answer[i]等于nums中除nums[i]之外其余各元素的乘积。题目数据保证数组nums之中任意元素的全部前缀元素和后缀的乘积都在32位整数范围内。请不要使用除法，且在O(n)时间复杂度内完成此题。一、代码实现funcproductExceptSelf(nums[]int)[]int{n:=len(nums)answer:=make([
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
使用 NetworkX 进行图论分析与可视化 aiweker 跟我学python 图论 python
使用NetworkX进行图论分析与可视化NetworkX是一个用于创建、操作和研究复杂网络的Python库。它提供了丰富的图论算法和数据结构，适用于各种网络分析任务。本文将分点介绍NetworkX的主要功能，并通过代码示例进行详细说明。1.安装NetworkX在开始使用NetworkX之前，首先需要安装它。可以通过pip进行安装：pipinstallnetworkx2.创建图NetworkX支持多
流浪地球 - 华为OD机试真题(E卷、Java) 什码情况华为od java 数据结构算法面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
MATLAB的function函数的使用晚风微凉～ matlab 开发语言
在工程应用中，我们经常会遇到算法的计算较为复杂，很多算法的过程重复次数过多的问题，针对这个问题我们可以考虑使用function函数简化代码编写的工作量。1、单个传参在使用function的函数时，我们首先需要定义function函数的结构；function[输出参数]=函数名（输入参数）%注释：function函数的使用一般是比较多的，因此需要注意注释的编写，避免后期工作的误导；主要代码：****
TCP三次握手与四次挥手（全网最易懂保姆级教程）秋‍. JAVA 网络服务器运维 java tcp/ip 三次握手
一、前置知识准备1.TCP协议特性-面向连接：通信前需要建立专用通道-可靠传输：通过确认机制保证数据可达-全双工通信：双方可同时发送数据-流量控制：滑动窗口机制-拥塞控制：慢启动算法2.关键概念说明|术语|说明||------------|----------------------------------------------------------------------||**SYN**|
三维点云重建的原理及代码晚风微凉～ matlab 图像处理
点云重建是将来自各种传感器（如激光雷达、相机等）采集的离散点云数据转换为具有结构和几何形状的物体模型的过程。在这个过程中，算法的核心任务是从大量的离散点中提取出具有几何意义的特征，并将这些特征组合成相应的物体模型。在实际应用中，无法获得物体所有表面的三维坐标数据，因此点云重建算法必须处理部分点云数据，尽可能准确地还原物体的几何结构。点云重建的目标是通过对描述物体表面形状的点数据进行处理，根据它们的
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
实时光线追踪技术：Ray Tracing_2024-07-21_02-55-16.Tex chenjj4003 游戏开发 python 算法人工智能矩阵线性代数骨骼绑定开发语言
实时光线追踪技术：RayTracing实时光线追踪技术教程基础知识光线追踪原理光线追踪是一种渲染技术，它通过模拟光线在场景中的传播和反射来生成图像。在实时光线追踪中，这一过程被优化以在有限的时间内完成，通常用于游戏和实时动画。其核心原理是逆向追踪，即从观察者（摄像机）发出光线，而不是从光源发出，这样可以减少计算量。示例：光线追踪的基本算法#Python示例代码，展示如何计算光线与场景中物体的交点c
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
图像质量评价学习笔记02：IQA模型性能评价指标（PLCC、SROCC、KROCC、RMSE）可靠的豆包蟹同志图像质量评估IQA 图像处理计算机视觉人工智能算法
性能好的图像质量评价（IQA）算法，其质量评测分数会与主观质量分数高度一致，IQA有许多评价指标，为了衡量方法测试结果与主观评价之间的一致性，视频质量专家组VQEG（VideoQualityExpertsGroup，目前国际上对视频质量进行标准化及性能测试的权威组织）提出了四个可以验证客观评价结果和主观评价结果之间的紧密程度的四个指标：PLCC、SROCC、KROCC和RMSE，也是目前最常用的I
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

【机器学习】推荐系统、机器学习面试题整理

目录：

1、排序模型为什么一般都是从LR到GBDT再到DNN进行迭代的？

LR

GBDT

DNN

2、分类问题为什么大都使用交叉熵作为损失函数而不是MSE？

3、过拟合与欠拟合

过拟合over-fitting

欠拟合under-fitting

如何判断过拟合还是欠拟合

如何防止过拟合

如何解决欠拟合

4、梯度与学习率

什么是梯度？

梯度的几何意义

梯度下降法及相关概念

5、L1正则化、L2正则化

​L1正则化和L2正则化的定义：

​L1正则化和L2正则化的作用：

6、word2vec优化方法的层次softmax和负采样

传统的神经网络语言模型下的CBOW与SkipGram

word2vec为什么使用霍夫曼树

如何用层次softmax计算概率

为什么要用负采样或者层次softmax

Hierarchical Softmax的的缺点及负采样的优势

7、XGBOOST与GBDT

GBDT概述

XGBOOST概述

GBDT的优缺点

XGBOOST对GBDT进行的优化

XGBoost算法主流程

GBDT与XGBOOST的损失函数

为什么xgboost要用泰勒展开，优势在哪里？