机器学习面试题整理(一)

最近在面机器学习的岗位,特此整理些资料.
1 监督学习: 学习一个模型,使模型能对任意给定的输入,将其对应的输出做一个预测,具有标签值。 如 分类,回归等
非监督学习:没有训练集,需要对数据直接建模,没有标签值。 如聚类。

2 常见的损失函数:
0-1 损失函数
平方损失函数 (yf(x))2
绝对损失函数 |yf(x)|
对数损失函数 log(P(Y|X))

3 经验风险最小化: 求最优模型 min1NNi=1L(y,f(x))
结果最小化: 防止过拟合,正则化。 1NNi=1L(y,f(x))+λJ(f)

4 过拟合: 所选模型的f复杂度比真模型高,过度拟合。
解决方案:(1) 添加数据 (2) 正则化(加惩罚函数) (3)降维(PCA SVD) (4) 降低模型复杂度

5 交叉验证: 随机将数据集切分为三部分:训练集,验证集, 测试集
简单交叉验,将训练集分为:70%训练集,30%测试集
S折交叉验证: 将数据切分为S个互不香蕉的大小相同自己,讲S-1个作为训练,预留的作为测试集。

6 精确率:针对预测结果而言,表示预测为正的样本中有多少正样本。
P=TPTP+FP
召回率: 样本中多少正例被正确预测。
R=TPTP+FN
综合指标: F1=21P+1R

      实际为正   实际位负

预测为正 TP FP
预测为负 FN FN

你可能感兴趣的:(机器学习)