校招后端面经——机器学习

校招后端面经--机器学习

        • 1. 逻辑回归
        • 2. KNN算法
          • 1. 描述
          • 2. 优缺点
            • 优点
            • 缺点
        • 3. K-Means聚类算法
          • 1. 描述
          • 2. 优缺点
            • 优点
            • 缺点

WXG面试时有问过这个环节,还好复试的时候有准备过,留了一份库存,一般问到这个方面,说明你的基础基本过关,面试官会根据简历和自己感兴趣的东西问,有点了解的话会有很大的加分。

1. 逻辑回归

逻辑回归是一种分类算法,是用于处理因变量为分类变量的回归问题 。

sigmod函数,函数如下:

img

损失函数:

g(z) = \frac{1}{1+e^{-z}}

P(正确) =(g(w,xi)){y{i}} * (1-g(w,xi)){1-y{i}}

若想让预测出的结果全部正确的概率最大,根据最大似然估计,就是所有样本预测正确的概率相乘得到的P最大

img

因为在函数最优化的时候习惯让一个函数越小越好,所以我们在这个函数前面加一个负号,就是我们逻辑回归(logistics regression)的损失函数,我们叫它交叉熵损失函数

2. KNN算法

1. 描述

假设有一群训练样本,每个样本有自己的标签类,对测试样本,计算与所有训练样本之间的欧式距离,选出距离最小的前K个训练样本,这些样本中哪个类出现的次数最多,测试样本就属于哪一个类

2. 优缺点
优点
  • 精度高
  • 可用于数值型数据和离散型数据;
  • 训练时间复杂度为O(n);
  • 对异常值不敏感。
缺点
  • 计算复杂性高;空间复杂性高;
  • 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少)

3. K-Means聚类算法

1. 描述

从数据集中随机选择k个样本作为初始的k个质心向量,分别计算所有样本数据到k个质心之间的距离,距离最小的质心即为样本所在的类;大致分类后,对每一类的数据集样本取均值得到新的质心,计算整个数据集到新的k个质心之间的距离,重复之前的操作,直到更新的质心稳定为止。

2. 优缺点
优点
  • 收敛速度快
  • 聚类效果较优
缺点
  • 对于不是凸的数据集比较难收敛
  • 对噪音和异常点比较的敏感。

你可能感兴趣的:(面经)