数学建模-分类模型

分类模型

1. 二分类模型-SPSS实现

1.1数据预处理

定性变量生成定量的虚拟变量

  • 步骤:SPSS->转换->创建虚变量

1.2 使用逻辑回归进行处理

  • 根据原理:两点分布(伯努利分布)

在给定 x x x的情况下,考虑 y y y的两点分布概率:
{ P ( y = 1 ∣ x ) = F ( x , β ) P ( y = 0 ∣ x ) = 1 − F ( x , β ) \begin{cases} P(y=1|x)=F(x,β)\\ P(y=0|x)=1-F(x,β)\end{cases} {P(y=1x)=F(x,β)P(y=0x)=1F(x,β)
F ( x , β ) F(x,β) F(x,β)称为连接函数(link function),它将解释变量 x x x和被解释变量 y y y连接起来

  • 步骤:SPSS->分析->回归->二元Logistic(保存:概率、组成员)

  • 预测结果较差怎么办?(准确率较低)

    • 可在logistic回归模型中加入平方项、交互项
      • 选择变量->转换->计算变量
    • 重新进行二元Logistic,协变量里要把原来的和处理后的变量都加入
    • 但容易出现过拟合现象,变量的显著性变得很高
  • 如何确定合适的模型?

    • 交叉验证方法:
      • 把已知数据分为训练组和测试组
      • 一般设置为8:2
      • 利用训练组的数据来估计出模型,再用测试组的数据来进行测试

1.3 Fisher线性判别分析

LDA(Linear Discriminant Analysis)是一种经典的线性判别方法,又称Fisher判别分析

给定训练集样例,设法将样例投影到一维的直线上,使得同类样例的投影点尽可能接近和密集,异类投影点尽可能远离。

1.3.1SPSS实现方法

  • 步骤:分析->分类->判别式->添加分组变量(y)->定义范围(种类)->添加自变量->统计(费希尔、未标准化)->分类(摘要表)->保存(预判组成员、组成员概率)

  • 关注点:未标准化系数(线性系数ω)、分类结果

2.多分类模型

  • Fisher判别同样适用,在SPSS中修改定义范围即可
  • 逻辑回归方法:多元Logistic回归

你可能感兴趣的:(分类,机器学习,数据挖掘,数学建模)