数据处理 | MATLAB实现KNN(K近邻)缺失数据填补

数据处理 | MATLAB实现KNN(K近邻)缺失数据填补

目录

    • 数据处理 | MATLAB实现KNN(K近邻)缺失数据填补
      • 基本介绍
      • 插补描述
      • 程序设计
      • 参考资料

基本介绍

用于缺失值插补的单变量方法是估计值的简单方法,可能无法始终提供准确的信息。k-最近邻(kNN)这样的算法可以帮助对缺失数据的值进行插补。社会学家和社区研究人员认为,人类之所以生活在一个社区中,是因为邻居们产生了一种安全感、对社区的依恋感以及通过参与各种活动而产生社区认同感的人际关系。对数据起作用的一种类似的插补方法是k-最近邻(kNN),它通过距离测量来识别相邻点,并且可以使用相邻观测值的完整值来估计缺失值。

插补描述

  • kNN方法的思想是在数据集中识别空间相似或相近的k个样本。
  • 然后我们使用这些“k”样本来估计缺失数据点的值。每个样本的缺失值使用数据集中找到的“k”邻域的平均值进行插补。

以下是执行优化的必要步骤:
使用当前的K值执行插补、
将数据集分为训练和测试子集、
拟合模型、
预测测试集、
使用RMSE进行评估。

你可能感兴趣的:(数据处理,#,KNN,K近邻,数据插补,KNN)