数据的准确性对模型效果的重要性

今天讲一个性别预测问题,采用 LR 模型,特征选择( App 的安装、卸载、操作、昵称、手机颜色、手机型号、手机前置摄像头使用、镜子 App 使用等维度)。下面是相同的特征工程,但是由于数据源的过滤策略不同问题,导致模型训练效果差别巨大。

1、数据未经过特定数据过滤
数据的准确性对模型效果的重要性_第1张图片

2、数据经过去冲突、去默认值过滤
数据的准确性对模型效果的重要性_第2张图片

3、结论
1)第一幅图中,男性预测精确率为83.27%,召回率95.73%,女性精确率为72.59%,召回率37.03%
第二幅图,男性预测精确率为93.25%,召回率94.91%,女性精确率为82.66%,召回率77.93%。明显过滤的预测效果要比未过滤好很多。
2)数据源的清晰和质量的保证对模型训练的影响巨大。
有一句话:数据和特征工程决定了机器学习的上限,算法只是逼近这个上限。 

你可能感兴趣的:(机器学习&数据挖掘)