【机器学习】百问机器学习(附电子书下载连接)

电子书下载

  1. 为什么要归一化?
    答:归一化可以将所有的特征都统一到一个大致相同的数值区间内。在相同学习率下,归一化后的取值范围低,需要的迭代次数更少,容易更快地通过梯度下降找到最优解。常用的方法有2种:(1)线性函数归一化: X n o r m = ( X − X m i n ) / ( X m a x − X m i n ) X_{norm}=(X-X_{min})/(X_{max}-X_{min}) Xnorm=(XXmin)/(XmaxXmin) (2)零均值归一化: z = ( x − μ ) / σ z=(x-\mu)/\sigma z=(xμ)/σ
  2. 在对数据进行预处理时, 应该怎样处理类别型特征
    答:对数据进行预处理时,一般需要对类别型特征进行编码:
    (1)序号编码
    (2)独热编码:使用稀疏向量来节省空间。
    (3)二进制编码
  3. 什么是组合特征?
    答:为了提高复杂关系的拟合能力, 在特征工程中经常会把一阶离散特征两两组合, 构成高阶组合特征。
  4. 在图像分类任务中, 训练数据不足会带来什么问题? 如何缓解数据量不足带来的问题?
    答:训练数据不足带来的问题主要表现在过拟合方面,即模型在训练样本上的效果可能不错, 但在测试集上的泛化效果不佳。
    (1)基于模型的方法:主要采用降低过拟合风险的措施,包括简化模型、添加约束项、Dropout超参数等;
    (2)数据扩充(Data Augmentation),包括一定程度内的随机旋转、 平移、 缩放、 裁剪、 填充、 左右翻转等、添加噪声扰动(椒盐噪声、 高斯白噪声等)、颜色变换、改变图像的亮度、 清晰度、 对比度、 锐度等。
    (3)使用生成模型合成一些新的样本,例如现在非常流行的GAN。
    (4)迁移学习。借用一个在大规模数据集上预训练好的通用模型, 并在针对目标任务的小数据集上进行微调(fine-tune) 。
  5. 准确率的局限性。
    答:准确率是指分类正确的样本占总样本个数的比例, 即 A c c u r a c y = n c o r r e c t n t o t a l Accuracy=\frac{n_{correct}}{n_{total}} Accuracy=ntotalncorrect
    当不同类别的样本比例非常不均衡时, 占比大的类别往往成为影响准确率的最主要因素。比如, 当负样本占99%时, 分类器把所有样本都预测为负样本也可以获得99%的准确率。
  6. 精确率与召回率的权衡。
    答:精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。 P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
    召回率是指分类正确的正样本个数占真正的正样本个数的比例。 R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
    为了综合评估一个排序模型的好坏,最好绘制出模型的P-R曲线。 只有通过P-R曲线的整体表现, 才能够对模型进行更为全面的评估。
    另外,F1 score和ROC曲线也能综合地返回一个排序模型的性能。 F 1 = 2 ∗ p r e c i s i o n ∗ r e c a l l p r e c i s i o n + r e c a l l F1=\frac{2*precision*recall}{precision+recall} F1=precision+recall2precisionrecall
  7. 平方根误差的“意外”。RMSE指标都非常高,但是模型取得了相当不错的预测结果。
    答:RMSE的计算公式: R M S E = ∑ i = 1 n ( y i − y i ^ ) 2 n RMSE=\sqrt{\frac{\sum_{i=1}^{n}(y_i-\hat{y_i})^2}{n}} RMSE=ni=1n(yiyi^)2
    一般情况下, RMSE能够很好地反映回归模型预测值与真实值的偏离程度。 如果存在个别偏离程度非常大的离群点( Outlier)时, 即使离群点数量非常少, 也会让RMSE指标变得很差。
    解决方法:(1)在数据预处理的阶段把这些噪声点过滤掉。 (2)找一个更合适的指标来评估该模型。比如平均绝对百分比误差(Mean AbsolutePercent Error, MAPE)
  8. 什么是ROC曲线?
    答:ROC曲线的横坐标为假阳性率(False Positive Rate, FPR) ; 纵坐标为真阳性率(True Positive Rate, TPR) 。 FPR和TPR的计算方法分别为: F P R = F P N FPR=\frac{FP}{N} FPR=NFP T P R = T P P TPR=\frac{TP}{P} TPR=PTP 其中,P是真实的正样本的数量, N是真实的负样本的数量
  9. 如何绘制ROC曲线?
    答:通过动态地调整截断点, 从最高的得分开始(实际上是从正无穷开始, 对应着ROC曲线的零点) , 逐渐调整到最低得分, 每一个截断点都会对应一个FPR和TPR, 在ROC图上绘制出每个截断点对应的位置, 再连接所有点就得到最终的ROC曲线。
  10. 如何计算AUC?
    答:AUC指的是ROC曲线下的面积大小, 该值能够量化地反映基于ROC曲线衡量出的模型性能。 计算AUC值只需要沿着ROC横轴做积分就可以了。由于ROC曲线一般都处于y=x这条直线的上方(如果不是的话, 只要把模型预测的概率反转成1−p就可以得到一个更好的分类器) , 所以AUC的取值一般在0.5~1之间。 AUC越大, 说明分类器越可能把真正的正样本排在前面, 分类性能越好。
  11. ROC曲线相比P-R曲线有什么特点?
    答:当正负样本的分布发生变化时, ROC曲线的形状能够基本保持不变, 而P-R曲线的形状一般会发生较剧烈的变化。ROC曲线能够尽量降低不同测试集带来的干扰, 更加客观地衡量模型本身的性能。 如果研究者希望更多地看到模型在特定数据集上的表现, P-R曲线则能够更直观地反映其性能。
  12. 探讨为什么在一些场景中要使用余弦相似度而不是欧氏距离?
    答:对于两个向量A和B, 其余弦相似度定义为 c o s ( A , B ) = A ⋅ B ∣ ∣ A ∣ ∣ 2 ∣ ∣ B ∣ ∣ 2 cos(A,B)=\frac{A \cdot B}{||A||_2||B||_2} cos(A,B)=A2B2AB.关注的是向量之间的角度关系, 并不关心它们的绝对大小, 其取值范围是[−1,1]。 如果希望得到类似于距离的表示, 将1减去余弦相似度即为余弦距离。 因此, 余弦距离的取值范围为[0,2], 相同的两个向量余弦距离为0。欧氏距离体现数值上的绝对差异, 而余弦距离体现方向上的相对差异。
  13. 余弦距离是否是一个严格定义的距离?
    答:距离公理:正定性, 对称性, 三角不等式
    (1)余弦距离的取值范围为[0,2],满足正定;(2) d i s t ( A , B ) = d i s t ( B , A ) dist(A,B)=dist(B,A) dist(A,B)=dist(B,A);(3)不满足三角不等式(假设A=(1,0), B=(1,1), C=(0,1))
    KL距离, 也叫作相对熵, 它常用于计算两个分布之间的差异, 但不满足对称性和三角不等式。
  14. 在模型评估过程中, 有哪些主要的验证方法, 它们的优缺点是什么?
    答:(1)Holdout检验:将原始的样本集合随机划分成训练集(70%)和验证集(30%)两部分。 在验证集上计算出来的最后评估指标与原始分组有很大关系。
    (2)交叉检验:首先将全部样本划分成k个大小相等的样本子集; 依次遍历这k个子集, 每次把当前子集作为验证集, 其余所有子集作为训练集, 进行模型的训练和评估; 最后把k次评估指标的平均值作为最终的评估指标。 在样本总数较多的情况下, 留一验证法的时间开销极大。
    (3)自助法:对于总数为n的样本集合, 进行n次有放回的随机抽样, 得到大小为n的训练集。将没有被抽出的样本作为验证集, 进行模型验证。
  15. 在自助法的采样过程中, 对n个样本进行n次自助抽样, 当n趋于无穷大时,最终有多少数据从未被选择过?
    答:n次抽样未抽中的概率为 ( 1 − 1 n ) n (1-\frac{1}{n})^n (1n1)n。当n趋于无穷大时,概率为 lim ⁡ n → + ∞ ( 1 − 1 n ) n = lim ⁡ n → + ∞ 1 ( 1 + 1 n ) n = 1 e = 0.368 \lim_{n\rightarrow+\infty} (1-\frac{1}{n})^n=\lim_{n\rightarrow+\infty} \frac{1}{(1+\frac{1}{n})^n}=\frac{1}{e}=0.368 limn+(1n1)n=limn+(1+n1)n1=e1=0.368
  16. 在模型评估过程中, 过拟合和欠拟合具体是指什么现象?
    答:过拟合:模型在训练集上的表现很好, 但在测试集和新数据上的表现较差。
    欠拟合:模型在训练和预测时表现都不好的情况。
  17. 能否说出几种降低过拟合和欠拟合风险的方法?
    答:降低“过拟合”风险的方法:(1)获得更多的训练数据;(2)降低模型复杂度;(3)正则化方法
    降低“欠拟合”风险的方法:(1) 添加新特征(特征不足或者现有特征与样本标签的相关性不强时, 模型容易出现欠拟合); (2) 增加模型复杂度;(3) 减小正则化系数。
  18. 在空间上线性可分的两类点, 分别向SVM分类的超平面上做投影, 这些点在超平面上的投影仍然是线性可分的吗?
    答:对于任意线性可分的两组点, 它们在SVM分类的超平面上的投影都是线性不可分的。设想二维空间中只有两个样本点, 每个点各属于一类的分类任务, 此时SVM的分类超平面(直线) 就是两个样本点连线的中垂线, 两个点在分类面(直线) 上的投影会落到这条直线上的同一个点, 自然不是线性可分的。
  19. 逻辑回归相比于线性回归, 有何异同?
    答:**异:**逻辑回归( E [ y ∣ x : θ ] E[y|x:\theta] E[yx:θ])处理的是分类问题, 线性回归( y = θ T x + b y=\theta^Tx+b y=θTx+b)处理的是回归问题, 这是两者的最本质的区别。 逻辑回归中的因变量为离散的, 而线性回归中的因变量是连续的。
    同: 二者都使用了极大似然估计来对训练样本进行建模;二者在求解超参数的过程中, 都可以使用梯度下降的方法。
  20. 当使用逻辑回归处理多标签的分类问题时, 有哪些常见做法, 分别应用于哪些场景, 它们之间又有怎样的关系?
    答:使用哪一种办法来处理多分类的问题取决于具体问题的定义。
    如果一个样本只对应于一个标签, 使用多项逻辑回归(Softmax Regression) 来进行分类。
    【机器学习】百问机器学习(附电子书下载连接)_第1张图片
    当存在样本可能属于多个标签的情况时, 我们可以训练k个二分类的逻辑回归分类器。第i个分类器用以区分每个样本是否可以归为第i类, 训练该分类器时, 需要把标签重新整理为“第i类标签”与“非第i类标签”两类。

你可能感兴趣的:(深度学习)