机器学习-分类随机森林分析(randomForest模型构建、参数调优、特征变量筛选、模型评估和基础理论等)

此文主要涉及随机森林分类分析,主要包含以下几部分内容:

    1)随机森林基础知识

    2)randomForest()认识及构建分类判别模型;

    3)随机森林参数调优

    4)随机森林模型评估

        classification rate、Sensitivity和specificity和ROC curve/AUC value

    5)特征变量重要性筛选及绘图

        重要性指数排序、交叉验证及Boruta算法筛选

 一、 准备数据

此处使用的包含分类信息的虚构微生物otu数据,用于构建随机森林分类模型。主要分析目的:1)构建准确率高的随机森林分类模型,2)检测分类水平间重要的OTUs(biomarkers)。

# 1.1 导入数据
setwd("D:\\EnvStat\\公众号文件\\随机森林分析") # 设置工作路径
#dir()
#file.show("otu.csv")
otu = read.csv("otu.csv",row.names = 1,header = TRUE,check.names = FALSE,stringsAsFactors = FALSE) # 微生物组数据
dim(otu)
head(otu)

# 1.2 计算相对丰度
spe = otu
spe[3:ncol(spe)] <- sweep(spe[3:ncol(spe)],1,rowSums(spe[3:ncol(spe)]),'/')*100
spe

你可能感兴趣的:(R统计绘图,生信软件,机器学习-随机森林,分类,随机森林,数据挖掘,机器学习)