基因选择

微阵列数据广泛而成功地应用于生物医学的癌症分类研究.一个典型的微阵列数据集包含大量(通常成千上万 ,甚至数十万)的基因、 相对少量(往往不足一百)的样本.在这成千上万的基因中 ,仅仅一少部分基因对癌症分类有贡献.因而,对于癌症分类来说,最重要的一个问题就是识别出对癌症分类最有贡献的基因.这一识别过程称为基因选择.基因选择在统计模式识别、 机器学习和数据挖掘领域已得到广泛研究.

基因微阵列数据通常包含大量与肿瘤分类无关的数据,会严重降低肿瘤诊断的准确率;基因微阵列数据还存在小样本、高维度的问题,也增加了肿瘤诊断的难度,所以必须对其进行基因选择。

你可能感兴趣的:(选择)