生物信息学笔记03 -- 基因组序列分析 方法

相关背景

DNA结构
DNA分子的一级结构:A, C, G, T四种核苷酸的线性多聚体;
DNA分子由两条互相平行的脱氧核苷酸长链盘绕而成;
DNA分子中的脱氧核糖和磷酸交替连接,排在外侧,碱基排列在内侧;
两条链上的碱基通过氢键想结合,形成碱基对

于腺膘呤(A)总是与胸腺嘧啶(T)配对、鸟膘呤(G)总是与胞嘧啶©配对,这说明两条链的碱基顺序是彼此互补的

中心法则
生物信息学笔记03 -- 基因组序列分析 方法_第1张图片
遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。

遗传密码
DNA或RNA序列以三个核苷酸为一组的密码子转译为蛋白质的氨基酸序列,用于蛋白质合成。

  1. 起始密码子:指定蛋白质合成起始位点的密码子。如AUG
  2. 终止密码子:tRNA无法正常识别但可以被特殊蛋白质结合并引起新合成肽链从翻译机器上释放的密码子。 UAG UAA和UGA
  3. 密码子: mRNA或DNA上三联体核苷酸残基序列,该序列编码着一个指定的氨基酸,tRNA的反密码子与mRNA的密码子互补

可读框:DNA中有潜在编码蛋白质氨基酸的核苷酸序列
编码区:DNA中对应于蛋白质中氨基酸序列的核苷酸序列
基因调控:生物体内控制基因表达的机制。表达的主要过程是基因的转录和信使核糖核酸(mRNA)的翻译
转录单位:包括转录的启动子及其上游的其它调控区域、基因本身和转录的止序列
间隔区:基因序列中没有编码功能的区域

基因组测序

  1. DNA片段在染色体上的位置、方向已知。染色体被打断成片段,克隆到BACs中进一步打碎克隆测序组装
  2. 鸟枪法:随机打碎DNA片段,克隆测序组装。DNA在染色体上位置方向未知

生物信息学核心问题:预测

预测性能计算、检验

  1. 阳性数据( P):真实的,被实验所证实的数据
  2. 阴性数据(N):被实验所证明为无功能的数据
  3. 真阳性 (TP): 阳性数据中被预测为阳性的数据
  4. 假阳性 (FP): 阴性数据中被预测为阳性的数据
  5. 真阴性 (TN): 阴性数据中被预测为阴性的数据
  6. 假阴性 (FN): 阳性数据中被预测为阴性的数据

灵敏度 (Sensitivity, Sn): 对于真实的数据,能够预测成“真”的比例是多少 - (Type II error)
等价于TPR和召回率
S n = T P T P + F N Sn = \frac{TP}{TP+FN} Sn=TP+FNTP
特异性 (Specificity, Sp): 对于阴性的数据,能够预测成“假”的比例是多少 - (Type I error)
等价于TNR
S p = T N T N + F P Sp = \frac{TN}{TN+FP} Sp=TN+FPTN
准确性 (Accuracy, Acc): 对于整个数据集(包括阳性和阴性数据),预测总共的准确比例是多少

A c = T P + T N T P + F P + T N + F N Ac=\frac{TP+TN}{TP+FP+TN+FN} Ac=TP+FP+TN+FNTP+TN

马修相关系数(Mathew correlation coefficient, MCC): 当阳性数据的数量与阴性数据的数量差别较大时,能够更为公平的反映预测能力,值域[-1,1]
M C C = T P × T N − F N × F P ( T P + F N ) × ( T N + F P ) × ( T P + F P ) × ( T N + F N ) MCC = \frac{TP\times TN - FN\times FP}{\sqrt{(TP+FN)\times(TN+FP)\times(TP+FP)\times(TN+FN)}} MCC=(TP+FN)×(TN+FP)×(TP+FP)×(TN+FN) TP×TNFN×FP

FPR
F P R = F P F P + T N FPR = \frac{FP}{FP+TN} FPR=FP+TNFP
FNR
F N R = F N T P + F N FNR = \frac{FN}{TP+FN} FNR=TP+FNFN

准确率Precision
P r = T P T P + F P Pr = \frac{TP}{TP+FP} Pr=TP+FPTP

P与R可能产生矛盾
F-Measure(F-score)
Precision和Recall的平均
F = ( α 2 + 1 ) P × R α 2 ( P + R ) F = \frac{(\alpha^2+1)P\times R}{\alpha^2(P+R)} F=α2(P+R)(α2+1)P×R
α = 1 \alpha = 1 α=1的时候为F1

ROC曲线
⚫X轴:1-Sp
⚫Y轴:Sn
⚫ROC的面积越大,表明其预测能力越强

P-R曲线
⚫X轴:Precision
⚫Y轴:Recall
比较两个分类器好坏时,显然是查得又准又全的比较好。PR曲线越往坐标(1,1)的位置靠近越好

性能检验

自一致性检验 (Self-consistency): 将训练数据当成测试数据
反映当前预测工具对目前已知的数据的预测能力.但不能反应稳定性

泛化性能
某一训练集上训练过以后的分类器适应该训练集以外的数据的性能,也称为可扩展性

k-折交叉验证,初试数据被划分成k个互不相交的子集或“折” S 1 , S 2 , . . . , S k S_1,S_2,..., S_k S1,S2,...,Sk,每个折的大小大致相等。训练和测试进行 k k k次。在第 i i i次迭代, S i S_i Si用作测试集,其余的子集都用于训练分类法

 1. 将全部训练集 S分成 k个不相交的子集,假设 S中的训练样例个
	数为 m,那么每一个子 集有 m/k 个训练样例,,相应的子集称作
	{s1,s2,…,sk}。
 2.每次从分好的子集中里面,拿出一个作为测试集,其它k-1个作
	为训练集。
 3.根据训练训练出模型或者假设函数。
 4. 把这个模型放到测试集上,得到分类率。
 5.计算k次求得的分类率的平均值,作为该模型或者假设函数的真
	实分类率

充分利用了所有样本。但计算比较繁琐,需要训练k次,测试k次

留一法(Leave One Out)是一种特殊的交叉验证,它令n等于训练集个数,即每次只抽取一个作为测试样本。留一法错误的计算留一法错误是推广误差的几乎无偏估计。也叫Jackknife法

每次从数据集中去掉一个,重新进行训练,并计算预测性能(Sn, Sp, Acc & MCC)

  1. 保证每个数据去掉一次
  2. 计算性能的平均值
  3. 留一发计算最繁琐,但样本利用率最高。适合于小样本的情况

解鞋带法(Bootstrap)测试是一种估计训练误差偏差的方法,它以Bootstrap样本进行多次训练,并评价它们的总偏差。Bootstrap样本是通过替换法从训练样本中独立提取出来的。Bootstrap测试是一种计算代价非常高的评估方法

生成一系列的基分类器
基分类器的训练依赖于在其之前产生的分类器的分类结果,其在训练集上的错误率用于调整训练实例的概率分布,最终分类器通过单个基分类器的加权投票建立起来

泛化性能比较

发生留一法错误最少的模型的泛化能力最好,这时模型的参数是学习机最佳的参数。

直接进行留一法验证的代价是高昂的。它必须进行N次(N为训练集样本数)训练才能统计出留一法错误发生的次数。

Self-consistency:预测性能
Leave_one_out validation & n-fold cross-validation:预测稳定性

预测性能 vs. 检验性能

  1. 差距小 系统稳定
  2. 差距大 系统不稳定,数据过训练
    1. 过训练: 根据已知数据构建的模型只能很好的适用于训练数据
    2. 不合适预测
    3. 数据的微小改变对于预测性能影响过大
    4. 过训练:只能很好的符合训练数据,而对新数据则性能很差

其他指标

  1. 计算速度:分类器训练和预测需要的时间;
  2. 鲁棒性:处理缺失值和异常值的能力;
  3. 可扩展性:处理大数据集的能力;
  4. 可解释性:分类器的预测标准的可理解性,像决策树
    产生的规则就是很容易理解的,而神经网络的一堆参
    数就不好理解,只好把它看成一个黑盒子。

基因发现的方法

基因识别:

  1. 识别基因组编码区
  2. 识别基因结构

方法

  1. 基因组序列中识别转录表达的DNA片段
  2. cDNA文库挑取克隆

原核细胞基因结构:

  1. 非编码区 不编码蛋白质,可调控遗传信息表达(调控序列)
  2. 编码区 编码蛋白质 (编码序列)

真核细胞

  1. 非编码区
  2. 编码区
    1. 编码蛋白质序列 外显子
    2. 不可编码蛋白质的插入序列 内含子
      结构为断裂基因

原核细胞和真核细胞基因:
都是由能编码蛋白质的编码区,调控作用的非编码区组成
原核编码区连续,真核不连续

生物信息学笔记03 -- 基因组序列分析 方法_第2张图片

基因预测方法

⚫给定一段序列,能否预测是否包含基因?
⚫哪些是基因的起点和终点?
⚫基因结构预测:真核生物的基因,包括启动子,外显子,内含子,剪切子,ESE,沉默子…….能够正确预测基因的结构?

何为基因预测
主要预测DNA序列中编码蛋白质的区域(CDS) ,抽象一点来说就是识别DNA序列上的具有生物学特征的片段

方法

  1. 排除重复序列
    1.原核生物含完全不重复DNA,低等真核大部分为非重复,重复组分不超过30%。基本为中度重复,高等真核中近一半为中度或高度重复
  2. 确定开放阅读框
  3. 确定转录起始位点,推测非翻译区
  4. 确定基因的调控区-启动子

难点?

  1. 剪接位点难预测
  2. 编码区、非编码区长度比例下降,导致外显子预测很难
  3. 可能有多个外显子

现状

  1. 没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因
  2. 基因预测工具对外显子预测准确率只有75%,预测基因结构准确率<50%
  3. 基因预测软件分析结果有差异

预测策略

"ab initio"方法,即通过探索DNA序列中特异的区域,如基因的起始区域和终止区域,来进行基因预测

  1. 取决于人们对已知基因结构特征的认识
  2. 采用统计学方法
    ❖ 基于一个或多个已知序列模式对未知序列进行分类
    ❖ 启动子结构
    ❖ 外显子、内含子
  3. 密码子偏爱性
  4. 对发现的模式进行统计检验

比较基因组学的方法,即根据与已知的蛋白质或基因之间的相似性来发现新的基因。
集成学习方法

相关信息获取

  1. 功能位点信号
    – 剪接位点信号 (Acceptor/Donor)
    – 转录起始信号
    – 转录终止信号
    – 翻译起始和终止信号
    – 启动子
  2. 编码区与非编码区的长度分布
  3. 同源信息

基因序列的分析

  1. 寻找开放读码框
  2. 预测基因功能
  3. 分析选择性剪切方式
  4. 分析基因多态性位点
  5. 分析基因表达调控区域
  6. 统计序列GC含量
  7. 追踪密码子使用偏向性
  8. 设计应用于目的基因的酶切位点和引物等

基因的开放读码框(Open Reading Frame),包含从5’端翻译起始密码子(ATG)到终止密码子(TAA、TAG、TGA)之间的一段编码蛋白质的碱基序列

⚫ 开放阅读框的预测程序主要是针对编码区的特征进行统计、以及相关模式的识别或是利用同源比对的识别方法。现在较为主流的程序是ORFFinder等。

外显子和内含子剪切位点的分析:在真核生物中基因的外显子和内含子长度不一,但剪切供体和受体的位点具有相当程度的保守性。所谓的供体位点(donor)是基因内含子5’端GU的位置;受体位点(acceptor)是内含子3’端AG的位置

⚫ 分析基因的选择性剪切:真核基因转录成前体mRNA后,还要进一步改装成成熟的mRNA。许多基因并不是一次全部切除其内含子,而是在不同的细胞、或不同的发育阶段,选择性地剪切其内含子,从而生成不同的mRNA。较为流行的如:ProSplicer就是基于蛋白质、mRNA、EST序列的选择性剪切数据库。

⚫ 分析基因的表达调控区域:基因组中全部基因的表达,都遵循严整而精确的调控机制。基因的调控区域序列相关特征的深入分析,为全面了解基因的功能提供丰富的数据基础。

你可能感兴趣的:(BioInfo,算法,人工智能,python)