matlab随机森林特征选择,随机森林特征选择

摘要:

现如今,数据规模快速增长,使得如何从繁杂无序的数据中提取有用信息,成为摆在大家面前的一个课题.数据挖掘技术应运而生,凭借其优越性能已经被广泛的应用于复杂数据的分析.同时,机器学习技术日趋成熟和完善,越来越多的机器学习方法被应用到数据挖掘问题中.利用机器学习中的虑噪,特征选择等技术,可以有效的从大量繁杂数据中获取有价值的信息,这可以为后续分析研究打下坚实的基础. 随机森林是一种优秀的机器学习方法,已经被成功的应用于许多领域.随机森林不仅可以解决分类问题和回归问题,在特征选择领域已经引起越来越多的关注.本文基于随机森林模型,针对其在代谢组学数据分析中的应用,进行了大量的研究.为了克服噪音数据对随机森林分类正确率的干扰,通过借助人工对照变量虑噪的方法,可以提高分类正确率.随机森林是通过对特征进行重要性度量的方式实现特征选择的,然而,简单的一次评分是不够的,因为有很大的随机成分,结合处理对象所属领域自身的特点,本文给出了一种有限制的迭代评价的随机森林特征选择方法.另外,特征选择结果的优劣,在很大程度上依赖于处理策略的设计,这不仅包含了处理流程策略的设计,还包括了模型构建策略的设计.最后,为了充分利用多种机器学习方法各自的优点,尽可能全面的理解处理对象,本文还提出了一种新的集成数据处理策略,把随机森林,支持向量机和遗传算法集成到一起. 本文以随机森林为研究焦点,把其应用于代谢组学数据处理.代谢组学是生物信息学四大组学之一,代谢组学技术可以肯定身体已经发生的变化,这对疾病的诊断以及治疗有极其重要的意义.用人工对照变量辅助删除噪音时,构建的随机森林分类模型正确率由90.7%提高到94.4%;用迭代的随机森林特征度量方式特征选择时,五组正确率均很高,提取出18个可定性的重要特征;用多种方法集成处理数据时,模型的分类正确率均为100%,同时提取出31个重要特征.

展开

你可能感兴趣的:(matlab随机森林特征选择)