1.机器学习与统计学习的区别关系?
机器学习是一种统计学习方法,需要大量的数据进行学习,主要分为有监督和无监督两种。统计学习是机器学习的基础,更偏重于理论上的完善;机器学习是对统计学习实践技术的延伸,是一门多领域的交叉学科。
2.深度学习与机器学习的异同及联系
深度学习是一种机器学习方法,会根据输入数据进行分类或递归。它是使用包含复杂结构或多重非线性变换构成的多个处理层对数据进行高层抽象的机器学习算法。
3.讲一下正则化,L1和L2正则化各自的特点和适用场景
统计学习方法p14
正则化是结构风险最小化策略的实现,就是在经验风险上加一个正则项。正则化项一般是模型复杂度的单调递增函数。正则化的作用是选择经验风险与模型复杂度同时较小的模型。用于避免过拟合。
一般形式,L1 L2表示。
L1是向量之间的绝对值之和,可以让一部分特征的系数缩小到0,从而间接实现特征选择,适用于特征之间有关联的情况。参数稀疏可以避免非必要的特征引入噪声。趋向于产生少量的特征,其他趋于0。
L2是向量各元素的平方和,让所有的特征系数都缩小,但是不会到0,使优化求解稳定快速,适用于特征之间没有关联的情况。会选择更多的特征。
(L1稀疏性,由于L1正则化是L1范数而来,在坐标系中是菱形,最优解在坐标轴上得到,所以某些部分特征系数就为0)对目标函数添加范数正则化,就相当于在范数的约束下求J的最小值。图中J与L1首次交点即为最优解,L1在和每个坐标轴相交的地方都有顶点,在顶点的位置就会产生稀疏的解。J和这些顶点相交的几率远大于其他点,因此会产生稀疏的解。
L1正则化可以产生更稀疏的权值矩阵,可以用于特征选择,一定程度防止过拟合;L2主要防止过拟合。
L1逼迫更多的w为0,一般来说为0的是和输出没有关系或者不提供任何信息的,会学习去掉这些无用的特征,将这些特征对应的权重置零。L2逼迫所有的w趋于0但是不为0,惩罚了权重变大的趋势(过拟合是因为顾及了每一个点,某些很小的区间里函数值的变化非常剧烈)
怎么解决L1在有些点不可导的问题
可以看出,L1参数是按照固定量减少的,w为正时,减小一个固定量,w为负则增加一个固定量。因此w本身如果比较小的话很容易被更新成0。
L2参数是按照固定比例减少的,当w比较大时减少一个比较大的值,w较小时减小一个比较小的值,因此L2曲线比较平滑。
L1L2的正则先验分别服从什么分布?
L1拉普拉斯分布
L2高斯分布(对参数引入高斯正态先验分布相当于L2正则化)
4.讲一下常用的损失函数以及各自的适用场景
统计学习方法p7
损失函数度量模型一次预测的好坏。
0-1损失函数:用于分类(预测标签和数据标注标签是否一致),用于回归(绝对值大于小于阈值)
平方损失函数:常用于回归问题
绝对损失函数:常用于回归中,用于分类中就相当于0-1
对数损失函数:适用于逻辑回归
指数损失函数用于boosting算法中。
5.分类问题有哪些评价指标?每种的适用场景
统计学习方法p19
错误率,精度
精准率P,召回率R,F1,ROC-AUC,混淆矩阵
精准率: 所有预测为正的样本中实际为正的样本概率。
召回率:查全率,实际样本为正的被预测为正的概率。更看重某一分类被成功预测的比例。
F1:精确率与召回率的调和均值。(加权平均和算数平均的区别,加权平均在权重不一样时会取不同值)
ROC:横坐标FP,纵坐标TP,遍历阈值绘制整条曲线。本质上是不同阈值下应分类的多种集合,给了分类这更多灵活选择的空间。
(回归模型评价指标:平均方差,绝对误差,R平方值)
(ROC-AUC为什么不受样本分布不均衡的影响:
TPR考虑的都是正例,FPR考虑的都是负例,在样本分布发生变化时,比例并不会发生变化。)
https://blog.csdn.net/program_developer/article/details/79946787
回归问题常用评价指标:均方误差
6.常见的分类算法有哪些?
kNN,感知机,朴素贝叶斯,决策树,逻辑回归,SVM,提升方法,神经网络等
7.讲一下你怎么理解dropout,分别从bagging和正则化的角度
Bagging:集成方法主要想法是分别训练不同的模型,然后让模型表决最终的输出。
Bagging涉及构造k个不同的数据集,每个数据集从原始数据集中重复采样构成,和原始的数据集有相同数量样例,意味着每个数据集以高概率缺少一部分来自原始数据集的例子,还包含瑞干重复的例子。(三分之二)
Dropout相当于集成了包括所有从基础网络中除去部分网络单元后形成的子网络。通过参数共享提供了一种廉价的bagging集成近似。
Dropout与bagging不同:
Bagging所有模型独立,drop共享权值参数;bagging每一个模型会被在其相应训练集训练到收敛,drop大部分模型都没有被显示训练。
8.为什么L1,L2可以降低模型复杂度
模型越复杂,越容易过拟合,从参数角度来看,L1得到稀疏解,去掉一部分特征降低模型复杂度。L2得到较小的参数,相当于降低每个特征的权重。
9.偏差与方差的区别
偏差与方差是衡量一个模型泛化能力的两个方面
偏差是期望与真实值之间的差异,方差是期望与预测值之间差的平方和。
偏差用于描述模型的拟合能力,方差用于描述模型的稳定性。
偏差产生的原因一般是对模型的学习算法做了错误的假设,或者模型的复杂度不够;方差通常是由于模型复杂度相对于训练集过高导致的,通常体现在测试误差对训练误差的增量。
10.介绍一个完整的机器学习项目流程
抽象建模-数据获取-预处理与特征选择-模型训练与调优-模型诊断-模型融合集成-上线运行
11.除了交叉验证方法,还有其他什么验证方法?
N-fold交叉验证:把数据集分为互斥的k个,k-1个作为训练集,剩下的一个作为验证集;可以进行k次训练测试,最终返回k个结果的均值。
自助法:每次采样有放回采样
12.特征分类以及不同特征的处理方式
根据不同的特征分类方法,一般分为
(1)lowlevel特征:主要是原始特征,不需要或很少人工处理和干预(例如文本中词向量特征,用户商品id,图像特征中的像素点)
highlevel特征:经过较复杂的处理,结合部分业务逻辑或规则得到的特征
(2)稳定特征与动态特征
稳定特征可以建入索引,较长时间更新一次,如果做缓存的话,缓存时间可以较长。
动态特征需要实时计算或者准时地更新数据,缓存时间需要较短。
(3)二值特征,连续特征,枚举特征
将枚举特征映射为二值特征,连续值离散化
特征处理与分析:
特征归一化,离散化,缺省值(单独表示,众数,平均值等)处理
特征降维方法
特征选择方法
13.模型评估方法
(1)留出法
直接将数据集划分为互斥的两部分,但是数据分布需要一致性。避免因划分过程中引入的偏差而影响实验结果。(保留类别比例的方式通常被称为分层采样)
通常需要采用若干次随机划分,重复进行实验评估。最后取平均值作为实验的结果。
(2)交叉验证
分层采样
留一法
(3)自助法
自主采样产生数据集,在数据量比较小,难以有效划分训练/测试集时很有用
14.样本不均衡的解决方法
例如正例少,负例多
对训练集里的反例欠采样
对正例过采样
阈值移动(决策过程中)
15.TF-IDF
缺点:只考虑词的频率,不够全面,有时重要的词出现的频率不是很高;而且无法体现位置信息,所有位置重要性相同。可以给全文第一段和最后一段赋予较大权重。
应用场景:
寻找相似文章:TF-IDF+余弦相似度(值越大越相似)
文章提取摘要:找出包含关键字最多的句子,计算簇的重要性。找出重要性最高的几个句子组合。
16.为什么要进行归一化,优点?
度量单位的统一,让各个特征做出的贡献相同
提升模型的收敛速度(梯度下降时,是垂直于等高线的方向而走之字路线,从而会迭代的很慢)
所以需要梯度下降法求解以及距离计算,必须要进行归一化。
17.机器学习发展历史,对机器学习的理解?
机器学习1980登上历史舞台
1990-2012 走向成熟和应用
2012AlexNet 择深度学习的极大发展
18.IV值
二分类问题中,IV值主要用来对输入变量进行编码和预测能力的评估。
衡量的是某一个变量的信息量,大小决定了自变量对于目标变量的影响程度
19.为什么bias偏置不需要正则化?
正则化是为了提高模型的泛化能力,是为了降低方差,偏置对输入的缩放没有影响,只是起到一个平移的过程,所以对bias正则化无影响。