转载一个很全面的核酸序列分析的文章
2、核酸序列的基本分析
(1)分子质量、碱基组成、碱基分布
分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。如:
BioEdit(http://www.mbio.ncsu.edu/BioEdit/bioedit.html),
DNAMAN(http://www.lynnon.com)。
(2)序列变换
进 行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。这些用DNAMAN软件 可很容易实现,这些功能集中在Sequence→Display,从中可选择不同的序列变换方式对当前通道的序列进行转换。
(3)限制性酶切分析
该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。REBASE数据库(http://rebase.neb.com,http://neb.com/rebase)中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。其它资源还有:
WebGene:http://www.bio.indiana.edu/~tjyin/WebGene/RE.html,
http://www.hyper-dimensions.com/personal/tyin.html
WebCutter2:http://www/ccsi.com/firstmarkert/firstmarket/cutter/cut2.html
同时,很多软件也能够识别REBASE限制酶数据库。强烈推荐使用集成化的软件如BioEdit和DNAMAN等。所得出的结果给出指定DNA序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。
在 实际进行分子生物学实验中,有时需要对多条相关序列(如发生突变的一批序列)同时进行酶切分析,以便为后续的克隆鉴定提供参考。此时DNAMAN软件是一 个良好的选择。在对所有序列进行多重对齐后,其输出项“Output”中即有“Restriction Analysis”选项,执行后即可完成对所有参与对齐序列的酶切分析,能够得到所有序列的差异酶切图谱和一致酶切图谱。
(4)克隆测序分析
得到测序结果后,需要对所测序列进行后续分析,其中主要包括对测序峰图的查看和载体序列的去除等过程。
a. 测序峰图的查看
最简单的程序是澳大利亚的Conor McCarthy(http://trishul.sci.gu.edu.au./~conor/)开发的Chromas.exe程序,但该程序不支持Windows 95以上的长文件名。其实,集成化的软件如BioEdit和DNAMAN也具有此功能。
b. 载体序列的去除
许多数据库中收集了常用的测序载体序列,如:
vector-ig: ftp://ncbi.nlm.nih.gov/repository/vector-ig
ftp://ncbi.nlm.nih.gov/repository/vector
UniVec数据库: http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html
http://ftp.ncbi.nlm.nih.gov/blast/db/vector.Z
VectorDB: http://www.atcg.com/vectordb/
如果用户面对的是大批量序列的分析任务,则需要将这些载体数据库下载后进行分析。使用Blast程序(http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html)对此类数据库进行相似性分析即可得知目的序列中是否含有载体序列。如果是,那么在对测序列数据进行进一步分析之前必须将载体序列去除。此过程虽然简单,在核酸序列数据库中仍有一些序列含有载体序列的污染。
美国基因编码公司(Gene Codes Corp/)所开发的SequencherTM软件在识别载体序列方面具有很强的功能。SequencherTM软件被多个公司用于测序数据的分析和管理。该分司同时提供该软件的演示版,可通过其网址(http://www.genecodes.com/home.html) 获得。运行SequencherTM软件后,选择File→Import→Sequences,选择待进行载体序列分析的测序文件。该测序文件可为文本格 式的序列文件,也可为测序峰图文件,甚至可将一个目录下的所有的文件一次性输入。编辑载体序列文件,在Name中填写载体名称,在PolyLinker处 填写克隆插入位点的两侧序列,中间插入位点用星号(*)标识。选中待进行载体序列切除的序列图标,选择Sequence→Trim Vector,将得到切除结果。点最上方的Show Bases按钮,将显示具体序列。SequencherTM软件可识别的载体序列文件也可来自VecBase数据库。
(5)核酸序列的电子延伸
核 酸序列的电子延伸的基本过程是:①将待分析的核酸序列(称为种子序列)采用Blast软件搜索GenBank的EST(expressed sequence tag,表达序列标签)数据库,选择与种子序列具有较高同源性的EST序列(一般要求在重叠40个碱基范围内有95%以上的同源性),称为匹配序列。②将 匹配序列和种子序列装配产生新生序列,此过程称为片段重叠群分析(contig analysis)。③然后再以此新生序列作为种子序列,重复上述过程,直到没有新的匹配序列入选,从而生成最后的新生序列,作子种子序列的延伸产物。
在GCG软件包中,以下分析工具用于完成序列的电子延伸:
gelstart程序为测序工程创建一个新的数据库;
gelenter程序将克隆序列输入数据库;
gelmerge程序自动分析克隆和片段末端重复情况;
gelassemble调整片段重叠群的对齐结果;
gelview显示单个片段重叠群中的重叠情况;
geldisassemble将片段重叠群中的克隆分解为单个克隆序列。
GenBank 和UniGene数据库、Tigem的EST Machine、EMBL的EST Cluster Project、美国Pangea的EST Assembly Project以及我国南方基因组中心的EST Assembly Project基本上采用此方式进行。由于该过程的计算需要大量计算机资源,所以目前沿无通过Web直接进行片段重叠群分析的资源。在实际分析时,用户一 般将自己的序列向上述数据库提交,可直接从其中获得已经完成拼接得较长的cDNA序列。序列拼接的有关生物学资源如下:
UniGene:http://www.ncbi.nlm.nih.gov/UniGene/,GenBank中EST序列按照基因簇分类结果。
STACK:http://www.sanbi.ac.za/Dbases.html,南非国家生物信息中心SANBI维护的一个序列标记联配和代表序列知识库。及与之密切有关的一个数据库SANIGENE。
Staden可供下载进行片段重叠群分析的软件包网址:http://www.mrc-lmb.cam.ac.uk/pubseq/;http://www.hgmp.mrc.ac.uk/Registered/Option/staden.html。
以 UniGene数据库进行电子延伸为例,首先用进行序列同源性检索。通常可从EST数据库中检索到一批与待分析序列高度同源的EST序列。选择同源性比分 最高的一条EST序列,从UniGene数据库中进行检索,得到相应的UniGene编号。获得待分析序列的UniGene编号后,就可将参与形成 UniGene Cluster的所有序列下载到本地,利用SequencherTM软件或其他序列装配软件进行组装,形成较长的新生序列。真正的cDNA序列还需要通过 实验验证。通过对延伸后的序列设计全长引物,经过反转录PCR即可验证是否是对原序列的有效延伸。
(6)基因的电子表达谱分析
核酸序列对 应基因的组织表达谱分析原理是,将待分析序列与EST数据库进行序列对库检索,随后用与待分析核酸序列具有高同源性的EST序列所对应的组织来源进行推 断,从而得到该基因的组织表达谱。可用UniGene Cluster序列的组织/细胞来源来间接地反映待分析序列在何种组织中表达,体现在字段“cDNA sources”中。也可用Tigem服务器的电子原位杂交软件及其数据库(http://gcg.tigem.it/INSITU/insitublast.html)也同机关报可获得组织/细胞表达谱。
(7)核酸序列的电子基因定位分析
对核酸序列进行电子基因定位(即基因的染色体定位)有三种策略,其一利用STS(sequence tagged site)数据库,联网到NCBI电子PCR资源(http://www.ncbi.nlm.nih.gov/genome/sts/eper.cgi), 输入待分析序列进行;其二是利用UniGene数据库进行,但首先要获得待分析序列所对应的UniGene编号,大部分UniGene序列已经具有较为明 确的利用放射性杂交(radiation hybrid,RH)技术给出的定位信息,根据UniGene/RH技术进行定位。其三是直接利用基因组序列进行电子基因定位。先将待分析序列进行对基因 组数据库的同源性检索,得到确定的基因组序列后点击“Genome view”按钮观察其基因组结构,点击用红色标记所指示的染色体列表中选择所对应的染色体区域,浏览器中将显示详细的基因定位结果,相关的基因谱数据库如 RHdb、mouse RH、GeneMAP’99、HuGeMap。
(8)cDNA对应的基因组序列分析
可通过NCBI查询全部基因组数据库进行基因组序列分析,也可通过Sanger中心查询基因组数据库进行分析(http://www.sanger.ac.uk/HGP/blast_server.shtml)。
(9)基于核酸序列对齐分析的功能预测
主要内容如对库比较、多序列以及序列之间的两两比较、同源性比较及结果的显著性评价、分子进化树的绘制等。可用BioEdit、Omiga、DNAMAN等集成了的Clustal W/X软件分析,其分析结果可用来给制分子进化树。
(10)可读框架分析
AUG 可能是真核生物惟一的翻译起始点。Kozak调查了200多种真核生物mRNA中5′末端第一个AUG前后序列发现,除此17个例外,其余都是 A/GNNAUGG。具有生物学功能的起始密码子AUG总是出现在一定的核苷酸阅读框架内。首先,AUG上游(即5′方向)的第三个核苷酸常常是嘌呤,且 多数是A(即-3A);其次,紧跟在AUG后面的核苷酸,常常也是嘌呤,且多数情况下是G(即 4G)。实验表明,AUG附近的核苷酸序中以 ANNAUGN和GNNAUGPu的利用率最高,而没有起始功能的AUG附近核苷酸则无此保守性,即所谓的“Kozak序列”。
对于真核生物而言,一条全长cDNA序列将只含有单一的开放阅读框(open reading frame,ORF)。非全长cDNA的序列如ESTs,通过将核苷酸序列中的所有相位进行搜索可很快获得结果。相关资源如下。
①ORF查找器:将以FASTA格式提交的序列翻译,按照所有可能的六个相位翻译为蛋白质序列。如果所查询的序列拟使用非标准遗传密码,则可从相应的对话框中选择正确的密码子进行ORF分析。http://www.ncbi.nlm.nih.gov/gorf/gorf.html
②从第一个碱基直接将DNA翻译为蛋白质:http://expasy.hcuge.ch/www/dna.html
在 进行ORF分析过程中,往往由于测序错误而导致编码区分析失败,例如相位错位或错误终止密码子出现均可导致氨基酸序列截短,以及在cDNA序列中出现几个 不一致的5′末端。此种错误往往通过BlastX程序,对蛋白质序列数据库搜索后加以校正。相位错位的相似性分析结果表现为在不同相位上与同一条蛋白质序 列相似,而异常的终止密码子则导致在同一相位上与同一条蛋白质序分段对齐。
采用蛋白质序列进行后续分析十分重要,这主要是由由于DNA编码的冗余 性造成的(第三个碱基的简并性)——其直接结果是即使两条DNA序列之间具有67% 的相似性,但是在蛋白质水平可获得100%的一致性。而且用蛋白质序列进行后续分析显然更能发现生物学意义。蛋白质水平之间的25%同源性就可提示其间功 能的相似性,但是在DNA水平上则需要40%以上的一致性。
(11)基因组序列中编码区/内含子结构分析
真核生物基因断裂结构的一个重要 特点是外显子-内含子连接区(exon-intorn junction)的高度保守性和特异碱基序列。外显子-内含子连接区又称边界序列,有两个重要特征:①内含子的两端序列之间没有广泛的同源性,因此内含 子两端序列不能互补,这说明在剪接加工之前,内含子上游序列和下游序列不可能通过碱基配对形成发卡式二级结构;②外显子-内含子连接区序列虽短,但却是高 度保序的序列。这一序列与剪接机制有关,它是RNA剪接的信号序列。序列分析表明,几乎每个内含子5′端起始的两个碱基都是GT,3′端最后两个碱基总是 AG。由于这两个碱基的高度保守性和存在的广泛性,有人称之为GT-AG法则,即5′ GT……3′ AG。由于内含子两端的接头序列不同,因此可定向表明内含子的两个末端,根据剪接加工过程沿内含子自左几右进行的原则,一般将内含子的5′端接头序列称为 左剪接位点,3′端接头序列称为右剪接位点,有时也将前者称为供体位点(donor site),后者称为受体位点(acceptor site)。外显子-内含子连接区几乎在所有真核生物基因中都是保守的,表明存在共同的剪接加工机制。
基因组序列中编码区/内含子结构分析最好的软件是GRAIL(gene recognition analysis internet link)套装软件(http://avalon.epm.ornl.gov/Grainbin/EmptyGrailForm)其中GRAIL1→人、小鼠、果蝇,GRAIL 1a→人、小鼠,GRAIL2→人、小鼠、拟南芥、果蝇。可直接向服务器发送e-mail([email protected])得到最新的描述。
依靠与数据库中已知蛋白质序列和cDNA序列、EST序列进行对比,来识别内含子、外显子剪接位点是较为可靠的方法。外显子和内含子数据库有:
IDB:http://nutmeg.bio.indiana.edu/intron/index.html。内含子序列数据库。
ExInt:http://intron.bic.nus.edu.sg/。外显子和内含子数据库。
Intronerator:http://www.cse.ucsc.edu/~kent/intronerator/。C. elegans的内含子和选择性剪接基因的数据库。
也可用Gene Finder软件(http://www.bioscience.org/urllists/genefind.html)进行基因组序列的内含子、外显子分析。
在获得了cDNA序列及其对应的基因组序列后,将二者进行对齐以直观地显示该基因的结构是十分重要的。Sim4程序(http://biom3.univlyon1.fr/sim4.html)提供该服务,分析结果则可保存下来用Lalnview程序在电脑上直观地显示。注意,向Sim4提交的序列应不含任何数字。
(12)基因启动子及其他DNA调控位点分析
真 核生物启动子在-25~-35之间含有TATA序列,在-70~-80区含有CCAAT序列,在-80~-110含有GCCACACCC或 GGGCGGG序列。习惯上,将TATA框上游的保守序列称为上游启动子元件(upstream promoter element,UPE)或称上游激活序列(upstream activating sequence,UAS)。TATA框存在与否至关重要,而CAAT和GC区主要控制转录起始频率,基本不参与起始位点的确定。但并非每个基因的启动子 都含有这3种序列。
一些保守的功能区如启动子、增强子、转录因子结合位点、内含子和外显子剪接位点等可通过生物信息学分析。已有大量的数据库收集了启动子位点(promoter site)和转录因子结合位点(transcription factor-binding site)的信息。
EPD (eukaryotic promoter database): ftp://ftp.ebi.ac.uk/pub/databases/epd; http://www.epd.isb-sib.ch
ftp://ftp.infobiogen.fr/pub/db/epd
TRANSFAC: http://transfac.gbf.de/TRANSFAC; ftp://ftp.ebi.ac.uk/pub/databases/transfac
TransTerm: ftp://ftp.ebi.ac.uk/pub/databases/transterm
TRRD: http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/
COMPEL: ftp://ftp.gbf-braunschweig.de(/pub/compel)
GeneExpress: http://wwwmgs.bionet.nsc.ru/mgs/systems/geneexpress/
http://wwwmgs.bionet.nsc.ru/mgs/papers/kol/ismb98/
Promoter Scan: http://biosci.umn.edu/software/proscan/promoterscan.html
http://bimas.dcrt.nih.gov/molbio/proscan/
Signal Scan: http://bimas.dcrt.nih.gov/molbio/signal
TFSearch: http://www.genome.ad.jp/SIT/TFSSEARCH.html
PatSearch: http://transfac.gbf.de/cgi-bin/patSearch/patsearch.pl
PromFD: ftp;//beagle.colorado.edu(/pub/PromFD.tar
同时还有一些软件能直接搜索目的DNA序列中是否含有以上数据库中所包括的序列模式。如联网到http://www.fruitfly.org/seq_tools/promoter.html进行启动子分析。
对于EPD数据库(http:www.epd.isb-sib.ch/seq_download.html)进行检索的一个策略是将其下载后格式化为Blast软件可识别的数据库,然后用Blast软件可对其进行检索,判断是否含有Promoter信息。
(13)重复序列分析
Genetic information research institute(GIRI)的RepBase(http://www.girinst.org/server/Repbase)是真核生物DNA中重复序列数据库。联网到RepeatMasker程序可进行重复序列片段分析。
RepeatMasker程序:http://ftp.genome.washington.edu/RM/ReapeatMasker.html
(14)引物设计
主 要软件为Primer Premier。通过“File/New sequence/New DNA”输入核酸序列,随后点击“Primer”进入引物设计界面。用户可选择引物种类。点击“search parameter”可进入参数调整界面。引物与模板匹配显示区将实时地显示引物的各种性质及其与模板匹配的信息,用户可据此选择合适的引物。其他还有 Oligo、Vector NT、Omiga、Primer3等。
其中Primer3提供联网方式设计,并可对引物进行数据库检索,以尽可能排除非特异扩增的结果。其网址为:http://www.genome.wi.mit.edu/cgi-bin/primer/primer3_www.cgi
(15)向数据库中提交核酸序列
向EMBL数据库提交序列的网络表格参见:http://www.ebi.ac.uk/subs/emblsubs.html。序列被接受后将赋予一个序列接受号,用于在出版论文中引用。
GenBank数据库中提交可联网(http://www.ncbi.nlm.nih.gov/Genbank/index.html)进行,也可用Sequin软件(可从NCBI下载)制作好序列提交文件,向NCBI发送e-mail([email protected])进行。
新基因的命名则要与国际基因命名委员会(http://www.gene.ucl.ac.uk/nomenclature/