成绩预测模型总结

 

 

现有数据:

1、期末成绩2726条,包括客观分、主观分和总分;

2、期中成绩2733条,928条数据只分客观分、主观分和总分,另外1805条则有听力、写作、单词等详细分数;

3、学位英语成绩1954条,包括客观分、主观分、总分;

4、平台成绩223条,有大量不完整数据;

5、期中_期末_学位1866条(期中、期末和学位英语成绩都有的)

/********************************分割线**********************************/

(补充)定量分析特征的有效性:

成绩预测模型总结_第1张图片

成绩预测模型总结_第2张图片

成绩预测模型总结_第3张图片

皮尔逊系数0~0.2属于极弱相关, 以上三个图刚好佐证了上个星期《成绩数据分析问题总结》中的定性分析。

 

/********************************模型**********************************/

模型一:

目的:使用期中客观分、期中主观分、期中总分、期末客观分、期末主观分和期末总分来预测学位英语成绩是否会及格。

算法框架:Xgboost分类

数据:总共1866条,训练集:测试集=8:2

结果:67.9%准确率

 

模型二:

目的:使用期中期中主观分期末主观分来预测学位英语成绩。

算法框架:Xgboost回归

数据:总共1866条,训练集:测试集=8:2

结果:预测是否及格准确率 66.7% ,预测分数误差在5分以内44.2%

 

模型三:

目的:使用期期中客观分期末客观分来预测学位英语成绩。

算法框架:Xgboost回归

数据:总共1866条,训练集:测试集=8:2

结果:预测是否及格准确率68.4%,预测分数误差在5分以内44.7%

 

模型四:

目的:使用期中客观分、期中主观分、期中总分、期末客观分、期末主观分和期末总分来预测学位英语成绩是否会及格。

算法框架:Xgboost回归

数据:总共1866条,训练集:测试集=8:2

结果:预测是否及格准确率71.1%

 

模型五:

目的:使用期中客观分、期中总分、期末客观分和期末总分来预测学位英语成绩是否会及格。

算法框架:Xgboost回归

数据:总共1866条,训练集:测试集=8:2

结果:预测是否及格准确率71.7%

/********************************分割线**********************************/

三种特征选取算法定量分析:

1、皮尔逊系数VS信息增益比

成绩预测模型总结_第4张图片

用皮尔逊系数(左图)来比较,主观分比客观分作为模型特征更为有效,信息增益比(右图)则认为客观分比主观分作为模型特征更为有效。我们在模型二和模型三中,分别使用了主观分和客观分作为特征,对学位成绩进行预测,在模型二中预测准确率为66.7%,模型三预测准确率为68.4%,证明客观分比主观分作为模型特征更为有效,信息增益比比皮尔逊系数更适合描述特征的有效性。

 

2、数据划分前VS数据划分后

成绩预测模型总结_第5张图片成绩预测模型总结_第6张图片

 

这里我们主要回答三个问题:

(1)将数据划分后,例如将学位英语成绩划分为及格/不及格,是否会使模型的预测能力更为准确?

我们将模型一和模型四进行对比,模型一中的数据集的学位英语成绩划分为及格/不及格,用0/1代替,20%的数据用于测试,预测的准确率为67.9%;模型四中我们使用了回归预测,最终预测出来的成绩如果大于等于60,则判定为及格,否则判定为不及格,用同样的20%的数据测试,准确率为71.1%。因此,对于我们的现有的数据,使用回归预测,将预测结果再分类效果更好。

(2)信息增益比和皮尔逊系数能否用于预测对数据进行某种处理后模型能力变化趋势?

       以上两幅图都反应了我们将学位英语成绩进行划分后,其他特征与学位英语成绩的相关性降低了,从(1)结论中我们发现,数据划分后模型的预测能力确实降低了。所以,从这一角度来看,在跑模型之前,我们确实可以利用信息增益比和皮尔逊系数来初步判断我们对数据进行某种处理后,模型能力是否会提升,而不需要等到模型跑完再来比较,这样能够提高我们工作效率。

(3)皮尔逊指数和信息增益比那个更能反应对数据进行处理后模型能力的变化?

皮尔逊指数和信息增益比虽然都反应了我们将学位英语成绩进行划分后,其他特征与学位英语成绩的相关性会降低,但是信息增益比比皮尔逊指数降低的更加明显。这里我们定性的认为皮尔逊指数比较客观,因为模型四预测能力/模型一的预测能力=1.05,皮尔逊系数划分前/划分后=1.25,信息增益比划分前/划分后=24.6,皮尔逊指数的变化比比较接近两个模型能力比,这也刚好佐证了在《特征选取论文总结》中的结论:皮尔逊指数不受特征取值多少的影响。

你可能感兴趣的:(成绩预测模型总结)