处理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz
安装内存(RAM):16.0GB
Windows 8.1、Ubuntu
【1】Primer-BLAST
【2】Softberry系列工具
【3】Promoter 2.0
【4】BDGP
【5】Cister
【6】NEBcutter
NCBI数据库:https://www.ncbi.nlm.nih.gov/
UCSC数据库:http://genome.ucsc.edu/
人类谷胱甘肽硫转移酶M1的promoter区域
选择基因:谷胱甘肽硫转移酶M1(GSTM1)
概况:当携带风险基因型时,对环境毒素和致癌物质的敏感性提高,易发生DNA突变和染色体畸变,患白血病的风险因而显著增加。
首先进入UCSC genome browser 查看GSTM1上游5kb范围内有无其他基因。发现该基因的上游存在同一家族的GSTM2,所以promoter大概只有3kb。
图表 1UCSC genome browser
接下来进入Genbank,搜索GSTM1,查看该基因在基因组中的定位和基因结构。
图表 2查看基因定位和结构
打开该基因的序列信息,获取该基因的启动子序列(包含exon1)
进入BDGP: Neural Network Promoter Prediction网站http://www.fruitfly.org/seq_tools/promoter.html,进行启动子预测
图表 3 BDGP: Neural Network Promoter Prediction网站
一共预测出来3个启动子(这个网站预测出来的promoter都是50bp)
使用Promoter 2.0 Prediction Server http://www.cbs.dtu.dk/services/Promoter/
进行启动子预测,也是一共预测出来3个启动子
图表 5Promoter 2.0预测结果
TSSW、TSSP、TSSG、FPROM都是softberry提供的启动子预测工具,进入
官网(http://www.softberry.com/),然后点击service即可,启动子预测工具网址:
http://www.softberry.com/berry.phtml?topic=index&group=programs&subgroup=promoter
TSSW具体网址如下(http://www.softberry.com/berry.phtml?topic=tssw&group=programs&subgroup=promoter),输入序列进行预测即可。TSSW并没有预测出来promoter区域。
图表 6TSSW预测结果
TSSP具体网址如下(http://www.softberry.com/berry.phtml?topic=tssp&group=programs&subgroup=promoter),输入序列进行预测即可。共计预测出来一个promoter区域。
图表 7 TSSP预测结果
TSSG具体网址如下(http://www.softberry.com/berry.phtml?topic=tssg&group=programs&subgroup=promoter),输入序列进行预测即可。TSSG并没有预测出来promoter区域。
图表 8TSSG预测结果
FPROM具体网址如下(http://www.softberry.com/berry.phtml?topic=fprom&group=programs&subgroup=promoter),输入序列进行预测即可。FPROM并没有预测出来promoter区域。
图表 9FPROM预测结果
Transcription Elements预测平台:Cis-element Cluster Finder
https://zlab.bu.edu/~mfrith/cister.shtml
由于序列只有3kb,默认参数预测出来的转录元件太少,将average distance between clusters参数由默认的3w修改为3k,最有可能的结果还是NF-1
图表 10Cister预测结果
转录因子预测集合网站http://gene-regulation.com/pub/programs.html (需要注册)
具体网址http://gene-regulation.com/cgi-bin/pub/programs/match/bin/match.cgi
图表 11Match预测结果
转录因子预测集合网站http://gene-regulation.com/pub/programs.html (需要注册)
具体网址http://gene-regulation.com/pub/programs/alibaba2/index.html
预测出来一大堆,下面仅截取其中一部分。
图表 12AliBaba预测结果
虽然使用了6个promoter预测在线平台,但是只有3个平台预测出promoter。
利用在线平台processon绘制基因结构图
图表 13基因结构图
接下来大致将预测结果分为4个区域,将引物设计的范围同时绘制出来(箭头为引物)
图表 14引物结构
先使用默认参数进行尝试,设置好Forward primer和Reverse primer的Range,再将PCR product size最大值调成整段序列的长度3005,同时# of primers to return参数调整为1,以方便截图。
图表 15引物位置
图表 16初步设置参数
然而由于有重复序列,经过repeat filtering,不会跑出来引物,只能将参数调宽松。
图表 17默认参数结果
在Advanced parameters的Primer Parameters栏目,将Repeat filter关掉,同样可以看出来GC含量和TM值也筛选掉很多引物,在Internal hybridization oligo parameters栏目,将引物内杂交的参数调整宽松。
图表 18高级参数调整
图表 19第一段
图表 20第二段
图表 21第三段
图表 22第四段
第一段:
· | Sequence (5’->3’) | Template strand | Length | Start | Stop | Tm | GC% | Self complementarity | Self 3’ complementarity |
---|---|---|---|---|---|---|---|---|---|
Forward primer | TCGTACCTACCCTCTGTTCGT | Plus | 21 | 164 | 184 | 60 | 52.38 | 4 | 0 |
Reverse primer | GGGCTGCACTCAGTAAGACT | Minus | 20 | 2918 | 2899 | 59.39 | 55 | 5 | 3 |
第二段:
· | Sequence (5’->3’) | Template strand | Length | Start | Stop | Tm | GC% | Self complementarity | Self 3’ complementarity |
---|---|---|---|---|---|---|---|---|---|
Forward primer | CCAAGTGCCCCAACTTAGCA | Plus | 20 | 849 | 868 | 60.54 | 55 | 4 | 0 |
Reverse primer | GGGCTGCACTCAGTAAGACT | Minus | 20 | 2918 | 2899 | 59.39 | 55 | 5 | 3 |
第三段:
· | Sequence (5’->3’) | Template strand | Length | Start | Stop | Tm | GC% | Self complementarity | Self 3’ complementarity |
---|---|---|---|---|---|---|---|---|---|
Forward primer | CCAGGCGTCACTAACACAGG | Plus | 20 | 1522 | 1541 | 60.67 | 60 | 3 | 1 |
Reverse primer | GTTCCGGGAGCGAAGTCAG | Minus | 19 | 2874 | 2856 | 60.45 | 63.16 | 5 | 1 |
第四段:
· | Sequence (5’->3’) | Template strand | Length | Start | Stop | Tm | GC% | Self complementarity | Self 3’ complementarity |
---|---|---|---|---|---|---|---|---|---|
Forward primer | CGAGGGCCCCTAACAGAAAA | Plus | 20 | 2405 | 2424 | 59.67 | 55 | 7 | 0 |
Reverse primer | CTGGGGCTGCACTCAGTAAG | Minus | 20 | 2921 | 2902 | 60.39 | 60 | 5 | 3 |
使用NEBcutter分析该启动子序列,为了更加全面,查找全部的特异性位点Enzymes to use: All specificities
http://nc2.neb.com/NEBcutter2/
保存没有酶切位点“0 cutters”的核酸内切酶数据,见附录。
图表 23NEBcutter结果
查询pGL4.17的载体数据,获得酶切信息。查询关键词:promega pGL4.17。
图表 24pGL4.17载体信息
其中SfiI、Acc65I、KpnI、SacI、NheI、XhoI、EcoRV、BglII、HindIII这九个酶都属于在promoter内部没有酶切位点的,这些都可以选用。
从上面九个酶中随便选两个(真实情况要考虑到切割率等问题)
选择KpnI和SacI,下面是酶切位点和保护碱基对应表,KpnI选两个保护碱基。
可以看出来酶切位点序列在反向互补以后和原序列相同,直接把这段序列加在引物前面就成。
最后按照“保护碱基+酶切序列+PCR引物”的顺序,设计用于可以转到pGL4.17载体的引物。
· | 164…184–2918…2899 | 849…868–2918…2899 | 1522…1541–2874…2856 | 2405…2424–2921…2902 |
---|---|---|---|---|
Forward Primer | CGAGCTCTCGTACCTACCCTCTGTTCGT | CGAGCTCCCAAGTGCCCCAACTTAGCA | CGAGCTCCCAGGCGTCACTAACACAGG | CGAGCTCCGAGGGCCCCTAACAGAAAA |
Reverse Primer | GGGGTACCGGGCTGCACTCAGTAAGACT | GGGGTACCGGGCTGCACTCAGTAAGACT | GGGGTACCGTTCCGGGAGCGAAGTCAG | GGGGTACCCTGGGGCTGCACTCAGTAAG |
接下来,用这四组引物,把四个promoter区域PCR出来,顺带PCR出来的还有保护碱基和酶切序列,导入pGL4.17,用双荧光素酶报告系统看看哪儿个promoter活性最高,大概会出来下面这种图,后面那张图明显说明promoter3活性最高。
再接下来,还可以用TFSEARCH,TFBSs,TRED这样的转录因子预测软件(上面也做了几个预测),看看活性最高的那段区域和哪儿些转录因子相关,或者用pubmed查查看文献,ENCODE,TRANSFAC等数据库,查找这个基因启动子区域的转录因子信息。
TransFac是转录因子数据库,但是好像需要注册才能下载模型的矩阵。
从EPD真核生物启动子数据库下载脊椎动物TATA-box的矩阵(共计12位碱基)。
网址http://epd.vital-it.ch/promoter_elements.php
利用该矩阵建立打分模型,对上面谷胱甘肽硫转移酶M1(GSTM1)的启动子序列进行分析,具体代码见附录。
打分值:每次取出12bp序列计算,依次计算每位碱基所占比例,再累乘得到分值(由于数值太小,分值皆除以最大分值)
图表 25打分值统计图
P值计算:使用bootstrap方法,将12bp序列打乱1000次,再按照上述方法计算分值,如果1000次内有n次分值高于“打乱之前的分值”,则p值为n/1000
图表 26 p值统计图
看的出来,整段promoter区域大部分分值都为0,p值为1。之前在线预测软件中的200,400,1200,2570这四个位置,此处也能预测出来,效果还可以。
Col1 | Col2 | Col3 |
---|---|---|
1 | AatII | GACGTC |
2 | AbaCIII | CTATCAV |
3 | AbsI | CCTCGAGG |
4 | Acc65I | GGTACC |
5 | Acc65V | GACGCA |
6 | AclI | AACGTT |
7 | AfeI | AGCGCT |
8 | AflII | CTTAAG |
9 | AflIII | ACRYGT |
10 | AhyRBAHI | GCYYGAC |
11 | AjuI | (N)5(N)7GAA(N)7TTGG(N)6(N)5 |
12 | AleI | CACNNNNGTG |
13 | AloI | (N)5(N)7GAAC(N)6TCC(N)7(N)5 |
14 | AlwFI | GAAAY(N)5RTG |
15 | ApyPI | ATCGAC(N)18NN |
16 | AscI | GGCGCGCC |
17 | AseI | ATTAAT |
18 | AsiSI | GCGATCGC |
19 | AspDUT2V | GNGCAAC |
20 | Asu14238IV | CGTRAC |
21 | BaeI | (N)5(N)10ACNNNNGTAYC(N)7(N)5 |
22 | BamHI | GGATCC |
23 | BarI | (N)5(N)7GAAG(N)6TAC(N)7(N)5 |
24 | Bce3081I | TAGGAG |
25 | BceAI | ACGGC(N)12NN |
26 | BcgI | NN(N)10CGA(N)6TGC(N)10NN |
27 | BclI | TGATCA |
28 | BdaI | NN(N)10TGA(N)6TCA(N)10NN |
29 | BglII | AGATCT |
30 | BlpI | GCTNAGC |
31 | BmgBI | CACGTC |
32 | BmtI | GCTAGC |
33 | BpuJI | CCCGT |
34 | BsaAI | YACGTR |
35 | BsbI | CAACAC(N)19NN |
36 | BsiEI | CGRYCG |
37 | BsiWI | CGTACG |
38 | Bsp24I | (N)5(N)8GAC(N)6TGG(N)7(N)5 |
39 | Bsp3004IV | CCGCAT |
40 | Bsp460III | CGCGCAG |
41 | BspDI | ATCGAT |
42 | BsrBI | CCGCTC |
43 | BsrGI | TGTACA |
44 | BssHII | GCGCGC |
45 | BstAPI | GCANNNNNTGC |
46 | BstBI | TTCGAA |
47 | BstEII | GGTNACC |
48 | BstZ17I | GTATAC |
49 | Bsu3610I | GACGAG |
50 | BtgZI | GCGATG(N)10NNNN |
51 | Cal14237I | GGTTAG |
52 | CcrNAIII | CGACCAG |
53 | Cdi11397I | GCGCAG |
54 | Cdi81III | GCMGAAG |
55 | CdiI | CATCG |
56 | Cgl13032I | GGCGCA |
57 | Cgl13032II | ACGABGG |
58 | ClaI | ATCGAT |
59 | Cma23826I | CGGAAG |
60 | CstMI | AAGGAG(N)18NN |
61 | DrdI | GACNNNNNNGTC |
62 | EagI | CGGCCG |
63 | EciI | GGCGGA(N)9NN |
64 | Eco53kI | GAGCTC |
65 | EcoRV | GATATC |
66 | Exi27195I | GCCGAC |
67 | FseI | GGCCGGCC |
68 | FspAI | RTGCGCAY |
69 | FspI | TGCGCA |
70 | GauT27I | CGCGCAGG |
71 | GdiII | CGGCCR |
72 | HindIII | AAGCTT |
73 | HpaI | GTTAAC |
74 | Hpy99I | CGWCG |
75 | HpyAXIV | GCGTA |
76 | Jma19592I | GTATNAC |
77 | Jma19592II | GRGCRAC |
78 | Kor51II | RTCGAG |
79 | KpnI | GGTACC |
80 | Lmo370I | AGCGCCG |
81 | Lsp6406VI | CRAGCAC |
82 | Maf25II | CACGCAG |
83 | MaqI | CRTTGAC(N)19NN |
84 | MauBI | CGCGCGCG |
85 | MkaDII | GAGAYGT |
86 | MluI | ACGCGT |
87 | MreI | CGCCGGCG |
88 | MslI | CAYNNNNRTG |
89 | MteI | GCGCNGCGC |
90 | NaeI | GCCGGC |
91 | Nbr128II | ACCGAC |
92 | NgoMIV | GCCGGC |
93 | NhaXI | CAAGRAG |
94 | NheI | GCTAGC |
95 | NotI | GCGGCCGC |
96 | NpeUS61II | GATCGAC |
97 | NruI | TCGCGA |
98 | PacI | TTAATTAA |
99 | PaeR7I | CTCGAG |
100 | Pal408I | CCRTGAG |
101 | PciI | ACATGT |
102 | PcsI | WCGNNNNNNNCGW |
103 | Pfl1108I | TCGTAG |
104 | PflFI | GACNNNGTC |
105 | PflMI | CCANNNNNTGG |
106 | PlaDI | CATCAG(N)19NN |
107 | PliMI | CGCCGAC |
108 | PmeI | GTTTAAAC |
109 | PmlI | CACGTG |
110 | PpiI | (N)5(N)7GAAC(N)5CTC(N)8(N)5 |
111 | PshAI | GACNNNNGTC |
112 | PsiI | TTATAA |
113 | PspXI | VCTCGAGB |
114 | PsrI | (N)5(N)7GAAC(N)6TAC(N)7(N)5 |
115 | Pst273I | GATCGAG |
116 | PvuI | CGATCG |
117 | RceI | CATCGAC(N)18NN |
118 | RdeGBI | CCGCAG |
119 | RpaB5I | CGRGGAC(N)18NN |
120 | RpaBI | CCCGCAG(N)18NN |
121 | RpaI | GTYGGAG(N)9NN |
122 | RpaTI | GRTGGAG |
123 | Rsp008IV | ACGCAG |
124 | RspPBTS2III | CTTCGAG |
125 | RsrII | CGGWCCG |
126 | SacI | GAGCTC |
127 | Saf8902III | CAATNAG |
128 | SalI | GTCGAC |
129 | SbfI | CCTGCAGG |
130 | SexAI | ACCWGGT |
131 | SfiI | GGCCNNNNNGGCC |
132 | SgrAI | CRCCGGYG |
133 | SgrDI | CGTCGACG |
134 | SnaBI | TACGTA |
135 | SpeI | ACTAGT |
136 | SphI | GCATGC |
137 | SpnRII | TCGAG |
138 | SrfI | GCCCGGGC |
139 | SsmI | CTGATG |
140 | Ssp714II | CGCAGCG |
141 | SstE37I | CGAAGAC(N)18NN |
142 | Sth20745III | GGACGAC |
143 | SwaI | ATTTAAAT |
144 | TaqIII | CACCCA(N)9NN |
145 | TspARh3I | GRACGAC |
146 | TssI | GAGNNNCTC |
147 | Tth111I | GACNNNGTC |
148 | UbaF12I | CTACNNNGTC |
149 | UbaF13I | GAG(N)6CTGG |
150 | UbaF14I | CCA(N)5TCG |
151 | UbaF9I | TAC(N)5RTGT |
152 | UbaPI | CGAACG |
153 | Xca85IV | TACGAG |
154 | XhoI | CTCGAG |
155 | ZraI | GACGTC |
从EPD下载,保存为data.txt
http://epd.vital-it.ch/promoter_elements.php
Position | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
A | 17.7 | 19.3 | 6.6 | 83.4 | 0 | 95 | 72.3 | 94.2 | 53.3 | 29.3 | 17.7 | 22.7 |
C | 21.1 | 36.1 | 14.8 | 0 | 0 | 0 | 0 | 0 | 0 | 9 | 32.5 | 33 |
G | 29 | 36.4 | 6.8 | 0 | 0 | 0 | 0 | 5.8 | 20.1 | 51.2 | 37.7 | 33.2 |
T | 32.2 | 8.2 | 71.8 | 16.6 | 100 | 5 | 27.7 | 0 | 26.6 | 10.5 | 12.1 | 11.1 |
setwd("G:/AllShare/genomicsHomework/HMMmodel")
hmmmodel<- read.table("data.txt",header = TRUE)
rownames(hmmmodel) <- hmmmodel$Position
hmmmodel <- hmmmodel[,-1]
hmmmodel <- hmmmodel/100
hmmmodel <- t(hmmmodel)
library(seqinr)
promoter<- read.fasta(file = "promoter.fa")
seqmatrix<- as.matrix(promoter$`NC_000001.11:109684796-109687800`)
# 转成大写字母
seqmatrix<- toupper(seqmatrix)
maxseq<- strsplit("TGTATAAAAGGG",split = "")[[1]]
# 计算打分值
computeScore <- function(seq){
score <- 1
for(i in 1:length(seq)){
score <- score*hmmmodel[i,seq[i]]
}
return(score)
}
# 使用bootstrap方法,计算p值
bootstrap<- function(seq){
flag <- 0
for(i in 1:1000){
tmp <- sample(seq)
score<- computeScore(tmp)
if(score>=computeScore(seq)){
flag <- flag+1
}
}
return(flag/1000)
}
maxscore<- computeScore(maxseq)
bootstrap(maxseq)
scorevector <- c()
pvaluevector <- c()
for(i in 1:(length(seqmatrix)-11)){
tmp<- seqmatrix[i:(i+11)]
score <- computeScore(tmp)
pvalue <- bootstrap(tmp)
scorevector <- c(scorevector,score)
pvaluevector <- c(pvaluevector,pvalue)
}
result <- data.frame(scorevector,pvaluevector)
result$position <- 1:(length(promoter$`NC_000001.11:109684796-109687800`)-11)
colnames(result) <- c("score","pvalue","position")
result$score <- result$score/maxscore
library(ggplot2)
ggplot(result, aes(x=position, y=score)) +
geom_line() +
geom_point(size=4, shape=20) +
labs(title="score by HMM model")+
theme(plot.title = element_text(hjust = 0.5))
ggsave("HMM模型打分图.pdf")
ggplot(result, aes(x=position, y=pvalue)) +
geom_line() +
geom_point(size=4, shape=20) +
geom_hline(aes(yintercept = 0.05),colour="red",linetype="dashed")+
labs(title="p value by HMM model")+
scale_x_continuous(breaks = c(0,200,400,1030,1200,1632,2570,2700))+
theme(plot.title = element_text(hjust = 0.5))
ggsave("HMM模型p值图.pdf")
Promoter序列
>NC_000001.11:109684796-109687800 Homo sapiens chromosome 1, GRCh38.p7 Primary Assembly
TCTGCTCTTGAACCCTGTGTTCTGTTGTTTAAGATGTTTATCAAGACAATATGTGCACCACTGAACATAG
ACCCTTATCAGGAGTTCTACTTTTGCCTTTGTCCTGTTTCCTCAGAAGCATGTGATCTTTGTTCTGCTTT
TTGCCCTTTAAAGCATGTGATCTTCGTACCTACCCTCTGTTCGTACACCACCACCCCTTTTGCAATCCTT
AATAAAAACTTGCTGGTTTTGAGGCTCGGGCAGGCATCATGGTCCTACCGATATGTGATGTCACCCCTGG
CGGCCCAGCTGTAAAATTCTTCTCTTTGTACTCTTTCTCTTTATTTCTCAGCTGGCTGACACTTATGGAA
AATAGAAAGAACCTACGTTGAAATATTGGGGGCAGGTTCCCCAATAGCCTTGCTGAGGAAATTAAATTTA
TGTTCAAGTGCTATTTCTTTATGGCACCAAGGAACAAGTATTTCAAACAATACTAATGTAACAGTACTGG
TTCTATGTGTTTCAAAATTATTATTCTCATGAGTGTTAGCTTTCTTAAAAAATCGTTTTTTTTTTCAATT
GGATCTAGACATCTTATCTTTCACAGCTCAAGACGGATTAACTCAGAATCATAAACTCTTAATGCATAAT
GAGAAATATAATGTTTCCTAGGGCCAGGCACTTGTGTCTGTGCTGGTGCTATTGCCTCAATGCAGGAAAA
TCTATGTAAGAGTTCACTGTGAGGCCAAAACTGCTTCCTAAACATGGATACCTGCCAGGTATCTGAGCTG
GGAGTACTGCCCAGGTCTGGATGGGCGGGGAGTGTTTGCAACAAGGACTGTGCCTTGCCAGCCTCAGTGA
CACAGTGTCCAAGTGCCCCAACTTAGCAGCCACCTGCTGACCACCTGATTTCTGTGGCCTAATAGGGATG
TGATGAAGTCTACCTGTTTACTCAACCCCAAACCACACATTATCCAGGTGGTTTGAAACTTTTTTGATAT
ACTGGGTTCATCCTCTGGAGTCCTAACAATGTTTTAGCTAATTTACAAAAAACAAAACAAAACAAAACAA
AACAAAACAAAACAAAAAAACTACTTTTTTTGCAGCACAACAGCCTGGTTTACATTGCAAAATGATTTCT
CATTAAAGGTCTATCATCTATTTCCATATGTCCATTATTATTTGCAATATCCTTTAAAGCAGTCAACCCC
AGGCTAATCCATTGCACAACTCTTTTGAAAGTCTTCCTTCTACCTTGAAAGAAGAAAGTTGGCAGGTTGG
ACATTGTTCTCGTGGAGGTTGTACCATGGGTCACATATCACGGTGTGACTTCAAAGGCCACTGGAGCCAC
CGTCTCATACTGAAGAACACACATGGGTCAGGAGCCAGGTCCAGGTCCGGAATGGTGGATCTGGAGAGGG
GAGGGTCCCTGCCTGTGGTCCTGTGGGGAGCCCTCAGGCTCCTCTCTGGCCACCATCCTCTGACCTCCCT
CCTCAGCAGGACAGGGTTCTGGCTTCTCTGAGGGACAGGTTCTGTGGCAGGCCAGGCGTCACTAACACAG
GCCTCCATAACAACTGTTTCAGTACTGACTGAGTGGTGAAGTTAAATATTAAAAGCTGAAAAAAGCCAGT
ACCTTTATACAGAGGCTGGATGTAACAAAAGCCCACCAAGAGTTTTGCTTAGGCCTTTCCTGGGCCTTAA
AGCATGACAAAACAATGAAGGAATTCTTAACAGGACCTATTTAGAATTAAACAAGTTTTATTGTGAGTCT
GAAGAAACTCCCCAGGCCTCCACAAACAAGTTTATTGGGCGTCTGAAGGAACTCCCCAAACCTCCGTGAT
TTAGCAGGAGACAAGATAAGGGTAATCATCCCCCGCACCTGGACCCATTTAGATTAAATAAATAGACTGA
GGCTCCAGAATAAGGTCCTCAGGACCCAGACCTCAGTTACAGATTAAAGAAGTTAATCACTTATGTCTTT
AGATGAATGCACACTTACTTGTAGACATATACCTTAGAAGGTATATATGCTCTGGAAAACTTTGTAATAT
TGAGTTGGTCTGGTGGTAATTTCTAGGCCTTCTCCCTGTTACCGGTTGCAGAAATAAAACCTCTCTTCCT
CCCCATTTGATCTGCATCTCGTTATTGGGCCTAGAGAAATAGCAGCCGGACCCTCAGTTTGGTCCGGGAA
GTTCTTCCATCCTCCCTCGCCTGCTCTCTGTGGCCACTGCACTCACTGTTGCTGTTGCTGTTCCGGTCTC
TGTGAGGTTCACCTAGTGGACTGGCTGGACATTTCTAGGGGGCACCTCAGATACCTCACCAACTTGCTGG
ATCTGATCCTTGGATTTCGATTCATAAATTGTGCCAAAATACGAAGTGGCTAATTTACACAGTACTTAGC
CAGATGACCGAAGGACTCAGTACCCGAGGGCCCCTAACAGAAAACACAGACCACATTTCCTTTACTCTGG
CCCTTTTCCTGGGGGTCCTTCCTATACCACTGACACTGTTCCTGTGTAGGCGGGGCTAGAGGGGAGACTA
AGCCCTGGGAGTAGCTTTCGGATCAGAGGAAGTCCTGCTCTTACAGTGACAGGGGCTGAATTAAATTCCC
AGGTTGGGGCCACCACTTTTTAGTCTGACCCCTGCAGCCGGAGTCTCCCAGAGCCCTTGGGAACTCGGCA
GCGGAGAGAAGGCTGAGGGACACCGCGGGCAGGGAGGAGAAGGGAGAAGAGCTTTGCTCCGTTAGGATCT
GGCTGGTGTCTCAAGCGCACAGCCAAGTCGCTGTGGACCTAGCAAGGGCTGGATGGACTCGTGGAGCCTC
AGGGCTGGGTAGGGAAGCTGGCGAGGCCGAGCCCCGCCTTGGGCTTCTGGGCGCCCTGACTTCGCTCCCG
GAACCCTCGGGCCTGGGAGGCGGGAGGAAGTCTTACTGAGTGCAGCCCCAGGCGCCCTCTCCCGGGCCTC
CAGAATGGCGCCTTTCGGGTTGTGGCGGGCCGAGGGGCGGGGTCGCAGCAAGGCCCCGCCTGTCC