12. missForest填补缺失值的理解以及行列值的意义

1.一开始和学姐联系了关于rfImpute的函数参数问题,但是当时她在老家没带电脑,我就自己再国内论坛各种翻没找到,又去谷歌上找,在别家论坛上发现这个网站上有人评论说自己用的是一个填补方法叫missForest
https://stats.stackexchange.com/questions/226803/what-is-the-proper-way-to-use-rfimpute-imputation-by-random-forest-in-r
2.谷歌的另一个新收获是找到一个MSU密歇根州立大学的人写的文章INVESTIGATING COMPLEXITY IN TRANSCRIPTOME EXPRESSION, REGULATION, AND EVOLUTION USING MATHEMATICAL MODELING 利用数学模型研究转录组表达、调控和进化的复杂性,就确切的提到了这个方法,而且他的研究里也用了大肠杆菌数据
在这里插入图片描述
3.学姐回来后,翻了下电脑里没找到相关的代码,但是说那句填补数据的函数只有一句话,也是调的R包,我就是不是missForest,她说好像是,当时调的包是这个missForest,而rfImpute这个方法在随机森林的包RandomForest里,最后问了一下刘老师可能用的真的是missForest

以上废话

4.missForest的思路是:利用已知的变量数据当作特征,将缺失值的变量当作标签。其中在标签中有数值的数据为训练集,缺失数据标签部分为测试集。然后通过随机森林预测去更新缺失值。但要注意missForest函数说明里有这样一句话:The columns correspond to the variables and the rows to the observations列对应于变量,行对应于观察值。 差一点搞错了这里。

你可能感兴趣的:(R语言,信息熵,bnlearn)