DNA结构
DNA分子的一级结构:A, C, G, T四种核苷酸的线性多聚体;
DNA分子由两条互相平行的脱氧核苷酸长链盘绕而成;
DNA分子中的脱氧核糖和磷酸交替连接,排在外侧,碱基排列在内侧;
两条链上的碱基通过氢键想结合,形成碱基对
于腺膘呤(A)总是与胸腺嘧啶(T)配对、鸟膘呤(G)总是与胞嘧啶©配对,这说明两条链的碱基顺序是彼此互补的
中心法则
遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。
遗传密码
DNA或RNA序列以三个核苷酸为一组的密码子转译为蛋白质的氨基酸序列,用于蛋白质合成。
可读框:DNA中有潜在编码蛋白质氨基酸的核苷酸序列
编码区:DNA中对应于蛋白质中氨基酸序列的核苷酸序列
基因调控:生物体内控制基因表达的机制。表达的主要过程是基因的转录和信使核糖核酸(mRNA)的翻译
转录单位:包括转录的启动子及其上游的其它调控区域、基因本身和转录的终止序列
间隔区:基因序列中没有编码功能的区域
基因组测序
灵敏度 (Sensitivity, Sn): 对于真实的数据,能够预测成“真”的比例是多少 - (Type II error)
等价于TPR和召回率
S n = T P T P + F N Sn = \frac{TP}{TP+FN} Sn=TP+FNTP
特异性 (Specificity, Sp): 对于阴性的数据,能够预测成“假”的比例是多少 - (Type I error)
等价于TNR
S p = T N T N + F P Sp = \frac{TN}{TN+FP} Sp=TN+FPTN
准确性 (Accuracy, Acc): 对于整个数据集(包括阳性和阴性数据),预测总共的准确比例是多少
A c = T P + T N T P + F P + T N + F N Ac=\frac{TP+TN}{TP+FP+TN+FN} Ac=TP+FP+TN+FNTP+TN
马修相关系数(Mathew correlation coefficient, MCC): 当阳性数据的数量与阴性数据的数量差别较大时,能够更为公平的反映预测能力,值域[-1,1]
M C C = T P × T N − F N × F P ( T P + F N ) × ( T N + F P ) × ( T P + F P ) × ( T N + F N ) MCC = \frac{TP\times TN - FN\times FP}{\sqrt{(TP+FN)\times(TN+FP)\times(TP+FP)\times(TN+FN)}} MCC=(TP+FN)×(TN+FP)×(TP+FP)×(TN+FN)TP×TN−FN×FP
FPR
F P R = F P F P + T N FPR = \frac{FP}{FP+TN} FPR=FP+TNFP
FNR
F N R = F N T P + F N FNR = \frac{FN}{TP+FN} FNR=TP+FNFN
准确率Precision
P r = T P T P + F P Pr = \frac{TP}{TP+FP} Pr=TP+FPTP
P与R可能产生矛盾
F-Measure(F-score)
Precision和Recall的平均
F = ( α 2 + 1 ) P × R α 2 ( P + R ) F = \frac{(\alpha^2+1)P\times R}{\alpha^2(P+R)} F=α2(P+R)(α2+1)P×R
α = 1 \alpha = 1 α=1的时候为F1
ROC曲线
⚫X轴:1-Sp
⚫Y轴:Sn
⚫ROC的面积越大,表明其预测能力越强
P-R曲线
⚫X轴:Precision
⚫Y轴:Recall
比较两个分类器好坏时,显然是查得又准又全的比较好。PR曲线越往坐标(1,1)的位置靠近越好
自一致性检验 (Self-consistency): 将训练数据当成测试数据
反映当前预测工具对目前已知的数据的预测能力.但不能反应稳定性
泛化性能:
某一训练集上训练过以后的分类器适应该训练集以外的数据的性能,也称为可扩展性
k-折交叉验证,初试数据被划分成k个互不相交的子集或“折” S 1 , S 2 , . . . , S k S_1,S_2,..., S_k S1,S2,...,Sk,每个折的大小大致相等。训练和测试进行 k k k次。在第 i i i次迭代, S i S_i Si用作测试集,其余的子集都用于训练分类法
1. 将全部训练集 S分成 k个不相交的子集,假设 S中的训练样例个
数为 m,那么每一个子 集有 m/k 个训练样例,,相应的子集称作
{s1,s2,…,sk}。
2.每次从分好的子集中里面,拿出一个作为测试集,其它k-1个作
为训练集。
3.根据训练训练出模型或者假设函数。
4. 把这个模型放到测试集上,得到分类率。
5.计算k次求得的分类率的平均值,作为该模型或者假设函数的真
实分类率
充分利用了所有样本。但计算比较繁琐,需要训练k次,测试k次
留一法(Leave One Out)是一种特殊的交叉验证,它令n等于训练集个数,即每次只抽取一个作为测试样本。留一法错误的计算留一法错误是推广误差的几乎无偏估计。也叫Jackknife法
每次从数据集中去掉一个,重新进行训练,并计算预测性能(Sn, Sp, Acc & MCC)
解鞋带法(Bootstrap)测试是一种估计训练误差偏差的方法,它以Bootstrap样本进行多次训练,并评价它们的总偏差。Bootstrap样本是通过替换法从训练样本中独立提取出来的。Bootstrap测试是一种计算代价非常高的评估方法
生成一系列的基分类器
基分类器的训练依赖于在其之前产生的分类器的分类结果,其在训练集上的错误率用于调整训练实例的概率分布,最终分类器通过单个基分类器的加权投票建立起来
发生留一法错误最少的模型的泛化能力最好,这时模型的参数是学习机最佳的参数。
直接进行留一法验证的代价是高昂的。它必须进行N次(N为训练集样本数)训练才能统计出留一法错误发生的次数。
Self-consistency:预测性能
Leave_one_out validation & n-fold cross-validation:预测稳定性
预测性能 vs. 检验性能
其他指标
基因识别:
方法
原核细胞基因结构:
真核细胞
原核细胞和真核细胞基因:
都是由能编码蛋白质的编码区,调控作用的非编码区组成
原核编码区连续,真核不连续
⚫给定一段序列,能否预测是否包含基因?
⚫哪些是基因的起点和终点?
⚫基因结构预测:真核生物的基因,包括启动子,外显子,内含子,剪切子,ESE,沉默子…….能够正确预测基因的结构?
何为基因预测
主要预测DNA序列中编码蛋白质的区域(CDS) ,抽象一点来说就是识别DNA序列上的具有生物学特征的片段
方法
难点?
现状
"ab initio"方法,即通过探索DNA序列中特异的区域,如基因的起始区域和终止区域,来进行基因预测
比较基因组学的方法,即根据与已知的蛋白质或基因之间的相似性来发现新的基因。
集成学习方法
基因序列的分析
⚫ 基因的开放读码框(Open Reading Frame),包含从5’端翻译起始密码子(ATG)到终止密码子(TAA、TAG、TGA)之间的一段编码蛋白质的碱基序列。
⚫ 开放阅读框的预测程序主要是针对编码区的特征进行统计、以及相关模式的识别或是利用同源比对的识别方法。现在较为主流的程序是ORFFinder等。
⚫ 外显子和内含子剪切位点的分析:在真核生物中基因的外显子和内含子长度不一,但剪切供体和受体的位点具有相当程度的保守性。所谓的供体位点(donor)是基因内含子5’端GU的位置;受体位点(acceptor)是内含子3’端AG的位置
⚫ 分析基因的选择性剪切:真核基因转录成前体mRNA后,还要进一步改装成成熟的mRNA。许多基因并不是一次全部切除其内含子,而是在不同的细胞、或不同的发育阶段,选择性地剪切其内含子,从而生成不同的mRNA。较为流行的如:ProSplicer就是基于蛋白质、mRNA、EST序列的选择性剪切数据库。
⚫ 分析基因的表达调控区域:基因组中全部基因的表达,都遵循严整而精确的调控机制。基因的调控区域序列相关特征的深入分析,为全面了解基因的功能提供丰富的数据基础。