计算生物学_01机器学习理论部分

计算生物学_01机器学习理论部分

1.1.1数据库的注释质量

如何发现数据中的错误和异常

机器学习技术能够有效的识别和发现错误的数据信息和错误的注释方法;在一批数据中,如果样本难以学习,那么他们很有可能是某些非正常情况,或者是注释不正确,在这种情况下,因该通过检测原始的数据质量,发现数据中的异常值,并除去这些异常数据,再进行分析。

机器学习能够识别真核生物基因内含子剪接位点的标识错误,也能识别小RNA病毒中的单蛋白剪切位点错误标识,以及O链接的糖基化位点的标识性错误。

 

1.1.2数据库的冗余

通过cDNA序列(完整的或者不完整的)代表了mRNA前体剪接后的形式,这意味着,对于那些经过可变剪接的基因,其基因组中的DNA片段一般对应于几条在染色体中并不连续的cDNA序列,可变剪接的产生可以有多种不同的方式。

对于基因芯片微阵列的基因序列,不管是被点样到玻璃平板上,还是直接在DNA微阵列上生成,实验中所使用的基因序列总是基于储存在数据库中的序列或者序列簇,因此,微阵列中最终包括的序列,会多与特定生物体全体基因组中的基因著名,从而在定量化的芯片实验的杂交记录时产生噪音。

 

数据冗余带来的误差结果:

1.如果蛋白质或者核苷酸序列包含很大的密切相关的序列家族,统计分析将偏向这些家族,并侧重描述它们具有的特征;

2.序列不同位置表面上的相关性可能是对序列数据进行有偏倚的采样所导致的认为特征;

3.在我们使用数据集对某一特征进行预测或用于选择,表达预测方法的时候,如果用于训练和标定预测方法的训练数据集的数据与用于测试的序列相关性过于密切,现人会过高估预测方法的性能,从而导致预测结果的过度拟合,对于训练数据集具有高度的预测结果,但是放到通用的数据进行预测模拟将会导致数据的预测准确率的降低。

数据集的密切相关的序列的精确定义和数据的非冗余性之间的平衡,恰当的定义过于密切相关。

另一种替代策略,保留数据集中的全部序列,根据序列的奇异度赋予它们不同的权重。对于密切相关的序列的预测将得到很低的分值,而相关距离较远的序列构成了预测的主体。这一方法主要风险在于: 错误数据总是与较大的权重相关联。   对于复制错误的特征做出的预测将影响到这个模型的评价,甚至可能导致对预测性能的严重低估。不仅假位点很难预测,而且那些可能在正确注释中出现的真位点也经常被即为假阳性。

 

 

 

你可能感兴趣的:(机器学习笔记,学习充电)