线性回归为什么不适合做分类

线性回归不适合做分类主要有下面两个原因:

  • 线性回归的预测值是连续值得形式,不是概率的形式
  • 对数据分布比较敏感

假设有如下的数据,age小于20的样本label为1,age>20的样本label为0
线性回归为什么不适合做分类_第1张图片
理想情况下,应该有个z字型的函数去拟合这些样本,产生的效果是最好的,如下:
线性回归为什么不适合做分类_第2张图片

输出的形式不符合

对于一元函数,线性回归线应该是一条直线,所以无法以Z字型的姿态去拟合,并且要使均方差最小,只能通过下图所示的形式,斜穿过样本,这样的准确性显然是得不到保障的。
并且线性回归预测的结果是一个数值,可能会不在0到1之间,这样就没有实际意义。
线性回归为什么不适合做分类_第3张图片

对样本分布敏感

假如现在负样本比较多,那么回归线将会更靠近负样本,使得正样本的预测值下降。
为了使损失函数(均方差)最小化,回归线要朝着负样本的方向移动;
线性回归为什么不适合做分类_第4张图片

小结

所以综上,大致上linear regression的输出形式和其损失函数的性质导致其不适合做分类

你可能感兴趣的:(机器学习)