引物设计——QPCR
一、序列查找
参考汉恒生物技术文档
常用数据库
NCBI-GeneBank
Nucleotide
Gene
NCBI不多做介绍。NC表示人类基因组DNA的RefSeq,NM表示mRNA的RefSeq,NP表示蛋白质的RefSeq,LncRNA信息我们参考RefSeq数据库中的数据,RefSeq数据库中的数据参考数据,是经过人工审核,其数据信息可信,注释全面。RefSeq数据库中LncRNA的命名通常是NR或者XR开头,后面加数字,其外显子信息位置,数量信息非常完整。
Ensembl
例如,相同的LncRNA,Ensembl数据库中信息往往要比NCBI多很多,特别是转录本数量。且数据变化非常快且变化会很大,可能昨天浏览这个数据库中某个LncRNA只有2个转录本,隔天再去看的时候,可能就变成3个甚至更多。NCBI就不同,尽管更新频率也非常的快,但是LncRNA的变化通常很小,转录本数量基本不变化,序列变化的可能性也非常的小。
UCSC
UCSC数据库的数据更新相对较慢,但有些LncRNA名称如uc001ylu就需要前往UCSC数据库查询其序列信息。UCSC Genome Browser可以根据基因组的位置、基因ID、转录本等信息进行浏览查询。
高分文献查找
首先可以根据文献获得目的基因序列
通过阅读文献,找到你感兴趣的基因,根据文中提到的该基因在NCBI 中 的ID 号,直接打开http://www.ncbi.nlm.nih.gov , 在All Databases 后的下拉框中选择Nucleotide,把基因 ID 号输入Search 前面的文本框中,点“Search”,就可以找到该基因了。
举例说明
例如:在2003 年JBC 的文章(Conditional Knock-out of Integrin-linked KinaseDemonstrates an Essential Role in Protein Kinase B/Akt Activation)中出现了“calreticulin(GenBank accession number gi 16151096)”,那么把“16151096”输入Search 前面的文本框中,点“Search”,就可以找到该基因了(当然包括基因序列等相关信息),见下图。
检索结果界面如下图,可以看到GenBank 号为AY047586 的CALR 基因的相关信息了:
里面有很多基因的信息,再往下是基因的的核酸序列(ORIGIN 之后):
基因的翻译区(CDS)点击 CDS 即可得到:
下图标示的褐色区域序列即为基因的编码区序列:
这里需要指出一下,在显示基因的页面右下侧有一个LinkOut to external resource,里面是与该基因相关的链接,对于该基因的相关研究是很有用的:
根据已经获得的基因的相关信息进行查找
如果只是知道基因的名字,怎么查序列呢?还是举例说明,比如研究的基因名称是人的VEGF 基因,那么怎么在NCBI 中找到它呢?首先打开http://www.ncbi.nlm.nih.gov/在All Databases 的下拉框中选择Gene,然后在中间的文本框中输入基因名称“VEGF”,点击Search...
搜索结果如下:
结果有很条,哪一条是我想要的基因呢?这时候要根据自己研究的基因所属物种来选择,如研究的是人属(Homo sapiens)的,则点击第四条。
里面是这个基因的详细信息,需要指出的是,在NCBI 中,基因有很多别名(Aliases),你得到的基因名和NCBI 中记录的名称有可能不一致。比如在这里,VEGFA 是NCBI 中记录的基因名称,而它还有很多别名,比如VPF, VEGF(这就是我们要找的基因名称 ), MVCD1。
再往下看,可以看到里面可以看到该基因再染色体上的位置,以及基因在转录时有几个剪切体等信息。这个基因有很多转录本(isoform a 到 isoform r),可以看到其的mRNA 的链接(如NM_001025366.2)和蛋白质的链接(如NP_001020537.2 )
isoform a 到 isoform r 哪个是自己想找的基因呢?这就需要根据自己查阅的文献以及在这些基因序列后面的解释来确定了。如果不清楚,一般选择众多mRNA 转录本中最长的转录本(longest isoform),即下图中所标示的isoform a :
如果要找的基因是第一个序列即isoform a, 就可以点击NM_001025366.1,得到如下基因的信息界面:
然后点击左上方基因全称下面的FASTA即可下载该序列。
二、引物设计原则
上述原则不一定需要全部遵循,一般根据引物设计工具择优选择,具体设计还需要考虑以下情况:
跨外显子设计跨外显子设计的目的就是避免基因组的污染,跨外显子设计有两种办法:
(1)正向F引物和反向R引物落在不同的外显子上:
此处注意:(a)如果产物大小允许,正向F引物和反向R引物可以落在不同的外显子上;(b)如果正向F引物和反向R引物只能落在两个相邻的外显子上,那优先选择内含子最大的两个外显子上。
(2)正向引物或者反向引物跨了两个外显子:
此处注意:(a)如果能选择(1)就不要选择(2)方法设计,(2)设计方法引物位置受限,设计得到的引物参数可能不是最优。(b)如果选择(2)方法设计,那跨两个外显子的引物的3端序列不要跨第二个外显子太多序列,建议不要超过6个碱基,否则就相当于没有跨外显子设计。
特异性比对
从上述数据库中查到该序列信息后,建议先使用NCBI进行比对,简单做一个核苷酸比对和基因组比对。核苷酸比对的目的是看看这条序列有没有与NCBI RefSeq同源性较高的序列信息。如果有,可能涉及到需要判断他们是否是同一条基因的问题。基因组比对的目的是简单判断其外显子个数组成。
引物位置
引物尽量不要落在LncRNA序列两端100bp序列以内,原因是防止两端序列不准确。
同源区设计
设计qPCR引物通常都选择在同源区设计,检测其总RNA情况,具体根据各自实验要求而定。
三、设计工具
1. NCBI
登陆 http://www.ncbi.nlm.nih.gov/tools/primer-blast/,粘贴这段序列,设置好 RANGE 和 PCR 产物的大小,然后在下面点击 GET PRIMERS,可以在线设计并比对引物。
最后选择一个比较特异性的引物,条带大小要尽量单一,其他的基因序列尽量不要比对到。
2.Primer Premier 5软件
具体教程:https://jingyan.baidu.com/article/72ee561a18d98ae16138df8a.html
如果链接失效建议百度,嘿嘿!
3. 生物公司官网免费设计
比如上海生工:https://www.sangon.com
四、设计后比对
以下参考上海生工技术服务:https://www.sangon.com/class_Primer-Blast.html
主要目的:使用 Primer-Blast 比对引物的特异性
引物的特异性
引物是一段短的单链寡核苷酸,在PCR过程的退火阶段,引物与单链模板结合,DNA聚合酶沿着引物的3末端向后进行DNA的合成。引物与模板的结合遵循碱基互补配对的原则,因此,当退火温度不合适或引物设计不合理时,引物会结合到模板的非目标区域,从而导致其他片段的扩增。
所谓引物特异性,就是引物结合模板正确位置的能力,或者避免结合非目标位置的能力。引物的长度、GC含量、碱基分布、Tm值等性质,均会影响其特异性。
Primer-Blast比对引物特异性的原理
NCBI收录了诸多物种的基因组DNA、编码序列mRNA以及其他相关核酸序列的数据。使用Primer-Blast进行比对,首先要输入一对引物序列,并选择序列所属数据库。此时系统将在该数据库中对序列进行查找和对比,并将引物可能结合的位置进行记录,一旦结合位置处于两条链并且产物大小符合要求,系统就会将这种情况列举到结果中。需要注意的是,结合模板的引物不仅是一条正向一条反向,也有可能是两条正向或者两条反向引物。
Primer-Blast比对引物特异性的步骤
打开NCBI,进入Blast,网页如下:
点击上图红框标记的Primer-Blast,进入如下界面,在界面引物序列处,将正反向引物序列粘贴进去,5-3方向。产物大小默认为70~1000,可以根据实际情况进行调整。
选择相应的物种和参考数据库。
首先,要确保Specificity check一栏中已经打勾。Search mode一般选择Automatic即可。
物种:人源的基因选择Homo sapiens(taxid:9606);小鼠的选择Mus musculus (taxid:10090);大鼠的选择Rattus norvegicus(taxid:10116)。
参考数据库:要看PCR的模板是什么,如果是提取的RNA反转录后得到cDNA就选择Refseq mRNA(针对mRNA)或Refseq RNA(针对mRNA和lncRNA);若模板是基因组,则应该选择Refseq representative genomes。在Exclusion行中,可以对预测的序列以及环境/不可培养样本序列的干扰。
分析
选好数据库和物种后点击页面左下角的Get Primers,系统进行分析,一段时间后会进入如下页面:(该页面以一对人EGFR的qPCR引物为例)
结果分析
上图显示了多个结果,原因是EGFR基因有多个转录变体,这对引物能够将下方显示出来的变体都检测到。
每个结果分为多个部分:
第一部分为比对出来的基因结果;对于mRNA数据库,提供了该mRNA的NM号,对于基因组数据库,则会显示出基因组编号,点进去会出现预测的产物序列。
第二部分为预测出来的产物大小。
第三部分为正反向引物和模板的结合形式,“点”代表该位置的序列和模板完全互补配对。
非特异性结果如下:
如上图,红框位置并非是“点”,而是碱基,说明该位置跟模板不匹配,这种属于潜在的非特异性扩增结果。
总结
对于常规PCR,产物可以通过凝胶电泳对非特异性条带进行分离,引物的非特异性并不是很重要,但是对于SYBR Green染料法荧光定量PCR,引物的特异性则非常重要。但是,并不是说预测出了非特异结果,引物的性质就一定不好,需要具体情况具体对待:
首先,引物的3端对扩增效率的影响是非常大的,如果预测出的非特异性结果中,3端存在不匹配碱基,说明即使引物能够结合模板,但3端会翘起,导致无法扩增,这一类的非特异结果可以忽略。
其次,PCR的产物大小是有限制的,尤其对于qPCR,由于延伸时间非常有限,大于1000的产物是基本上无法扩增出来的,如果非特异性产物远大于目的产物大小,这种非特异性结果也是可以忽略的。
最后,任何引物工具或者软件,都是根据一定的参数和算法进行的预测,结果只是起到了参考、建议的作用,并不能代表该引物的实际使用情况。最后引物的好坏需要设计合成后,使用了才能明确。