【机器学习】概念复习 early stop

https://www.jianshu.com/p/304e1023c4cb

  • 随机森林的采样体现在哪方面?(阿里)
  • Seq2Seq模型介绍一下
  • Lstm为什么能解决梯度消失问题?
  • lstm里面的状态更新是怎样的,各个门是怎样的?
  • 数据之间如果不是独立同分布的会怎样?

在不少问题中要求样本(数据)采样自同一个分布是因为希望用训练数据集训练得到的模型可以合理用于测试集,使用同分布假设能够使得这个做法解释得通。
机器学习就是利用当前获取到的信息(或数据)进行训练学习,用以对未来的数据进行预测、模拟。因此需要我们使用的历史数据具有总体的代表性。

  • AUC的原理

如何理解机器学习和统计中的AUC?

ROC AUC的原理详解

那么AUC值的含义是什么呢?根据(Fawcett, 2006),AUC的值的含义是:

The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.

这句话有些绕,我尝试解释一下:首先AUC值是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。

  • 如果你想往模型中加入一个特征,如何判定这个特征是否有效?

https://www.jianshu.com/p/4a3c5e34d0f8

机器学习算法总结(有很多题目,还是直接看原blog好)

  • 在k-means或kNN,我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离?

曼哈顿距离只计算水平或垂直距离,有维度的限制。另一方面,欧氏距离可用于任何空间的距离计算问题。因为,数据点可以存在于任何空间,欧氏距离是更可行的选择。例如:想象一下国际象棋棋盘,象或车所做的移动是由曼哈顿距离计算的,因为它们是在各自的水平和垂直方向做的运动。

  • 简单说说特征工程
  • 关于LR ----- 机器学习之Logistic回归(逻辑蒂斯回归)

把LR从头到脚都给讲一遍。建模,现场数学推导,每种解法的原理,正则化,LR和maxent模型啥关系,LR为啥比线性回归好。有不少会背答案的人,问逻辑细节就糊涂了。原理都会? 那就问工程,并行化怎么做,有几种并行化方式,读过哪些开源的实现。还会,那就准备收了吧,顺便逼问LR模型发展历史。

  • overfitting怎么解决?
  • LR和SVM的联系与区别?

@朝阳在望,联系: 

1、LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题) 

2、两个方法都可以增加不同的正则化项,如L1、L2等等。所以在很多实验中,两种算法的结果是很接近的。 

区别: 

1、LR是参数模型,SVM是非参数模型。 

2、从目标函数来看,区别在于逻辑回归采用的是Logistical Loss,SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。 

3、SVM的处理方法是只考虑Support Vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。 

4、逻辑回归相对来说模型更简单,好理解,特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些,SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。 

5、Logic 能做的 SVM能做,但可能在准确率上有问题,SVM能做的Logic有的做不了。

答案来源:机器学习常见面试问题(一)

  • LR与线性回归的区别与联系?

@nishizhen 

个人感觉逻辑回归和线性回归首先都是广义的线性回归, 

其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数, 

另外线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。 

@乖乖癞皮狗:逻辑回归的模型本质上是一个线性回归模型,逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。

  • 数据之间如果不是独立同分布的会怎样?

在不少问题中要求样本(数据)采样自同一个分布是因为希望用训练数据集训练得到的模型可以合理用于测试集,使用同分布假设能够使得这个做法解释得通。
机器学习就是利用当前获取到的信息(或数据)进行训练学习,用以对未来的数据进行预测、模拟。因此需要我们使用的历史数据具有总体的代表性。

【机器学习】概念复习 early stop_第1张图片

  • early stop对参数有什么影响?(首先在实际问题中,经常使用early stop来解决过拟合。)

【深度学习篇】--神经网络中的调优一,超参数调优和Early_Stopping

Early Stop是训练复杂机器学习模型以避免其过拟合的一种方法。

它通过监控模型在一个额外的测试集上的表现来工作,当模型在测试集上的表现在连续的若干次(提前指定好的)迭代中都不再提升时它将终止训练过程。

它通过尝试自动选择拐点来避免过拟合,在拐点处,测试数据集的性能开始下降,而训练数据集的性能随着模型开始过拟合而继续改善。

性能的度量可以是训练模型时正在使用的损失函数(例如对数损失),或通常意义上用户感兴趣的外部度量(例如分类精度)。

emmmmm

“早停止”很好理解,就是在validation的error开始上升之前,就把网络的训练停止了。说到这里,把数据集分成train、validation和test也算是一种trick吧。看一张图就明白了:

【机器学习】概念复习 early stop_第2张图片

 

# early stoppping
from keras.callbacks import EarlyStopping
early_stopping = EarlyStopping(monitor='val_loss', patience=50, verbose=2)
# 训练
history = model.fit(train_X, train_y, epochs=300, batch_size=20, 
                    validation_data=(test_X, test_y), verbose=2, 
                    shuffle=False, callbacks=[early_stopping])

monitor: 需要监视的量,val_loss,val_acc
patience: 当early stop被激活(如发现loss相比上一个epoch训练没有下降),则经过patience个epoch后停止训练
verbose: 信息展示模式
mode: 'auto','min','max'之一,在min模式训练,如果检测值停止下降则终止训练。在max模式下,当检测值不再上升的时候则停止训练。
 

你可能感兴趣的:(机器学习)